Web ARChive - Web ARChive
Dateinamenerweiterung |
.warc
|
---|---|
Internet-Medientyp |
anwendung / warc |
Erweitert von | BOGEN |
Standard | ISO 28500: 2017 |
Offenes Format ? | Ja |
Webseite | iipc |
Die Webarchiv (RWB) Archivformat legt ein Verfahren für mehrere digitale Ressourcen in ein Aggregat kombiniert Archivdatei zusammen mit zugehörigen Informationen. Das WARC-Format ist eine Überarbeitung des ARC_IA-Dateiformats des Internetarchivs , das traditionell zum Speichern von " Webcrawls " als Sequenzen von Inhaltsblöcken verwendet wird, die aus dem World Wide Web entnommen wurden . Das WARC-Format verallgemeinert das ältere Format, um die Ernte-, Zugriffs- und Austauschanforderungen von Archivierungsorganisationen besser zu unterstützen. Neben dem aktuell aufgezeichneten primären Inhalt werden in der Revision auch verwandte sekundäre Inhalte berücksichtigt, z. B. zugewiesene Metadaten , abgekürzte doppelte Erkennungsereignisse und Transformationen zu einem späteren Zeitpunkt. Das WARC-Format ist von HTTP / 1.0-Streams inspiriert, mit einem ähnlichen Header und der Verwendung von CRLFs als Trennzeichen, was es für Crawler-Implementierungen sehr förderlich macht.
WARC wurde 2008 erstmals spezifiziert und wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt.
Software
- Heritrix Webarchiver in Java
- wget (seit Version 1.14)
- Webrecorder
- StormCrawler
- Apache Nutch
- libarchiv