Web ARChive - Web ARChive

Web ARChive
Dateinamenerweiterung
.warc
Internet-Medientyp
anwendung / warc
Erweitert von BOGEN
Standard ISO 28500: 2017
Offenes Format ? Ja
Webseite iipc .github .io / warc-spezifikationen / spezifikationen / warc-format / warc-1 .1 /

Die Webarchiv (RWB) Archivformat legt ein Verfahren für mehrere digitale Ressourcen in ein Aggregat kombiniert Archivdatei zusammen mit zugehörigen Informationen. Das WARC-Format ist eine Überarbeitung des ARC_IA-Dateiformats des Internetarchivs , das traditionell zum Speichern von " Webcrawls " als Sequenzen von Inhaltsblöcken verwendet wird, die aus dem World Wide Web entnommen wurden . Das WARC-Format verallgemeinert das ältere Format, um die Ernte-, Zugriffs- und Austauschanforderungen von Archivierungsorganisationen besser zu unterstützen. Neben dem aktuell aufgezeichneten primären Inhalt werden in der Revision auch verwandte sekundäre Inhalte berücksichtigt, z. B. zugewiesene Metadaten , abgekürzte doppelte Erkennungsereignisse und Transformationen zu einem späteren Zeitpunkt. Das WARC-Format ist von HTTP / 1.0-Streams inspiriert, mit einem ähnlichen Header und der Verwendung von CRLFs als Trennzeichen, was es für Crawler-Implementierungen sehr förderlich macht.

WARC wurde 2008 erstmals spezifiziert und wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt.

Software

Verweise

Externe Links