Web ARCHive

Från Wikipedia, den fria encyklopedin
Hoppa till navigation Hoppa till sökning
Web ARCHive
Filtillägg : .warc
MIME -typ : applikation / warc [1]
Standard (er) : ISO 28500: 2017 [2]
Webbplats : https://github.com/iipc/awesome-web-archiving

Webbarkivets arkivformat (WARC) anger en metod för att kombinera flera digitala resurser i en aggregerad arkivfil med tillhörande metadata . WARC -formatet är en översyn av Internetarkivets ARC -filformat som traditionellt har använts för att lagra "webbsökningar" som sekvenser av block av innehåll hämtat från World Wide Web . WARC -formatet generaliserar det äldre formatet för att bättre stödja arkivföretagets behov av insamling, åtkomst och delning. Förutom det för närvarande inspelade primära innehållet tar revisionen också hänsyn till relaterat sekundärt innehåll, till exempel tilldelade metadata.

WARC är nu erkänt som standarden för webbarkivering av de flesta nationella bibliotekssystem.

konstruktion

En WARC -fil består av en eller flera poster. En rekord består av:

  • Rubrik där obligatoriska metadatafält (inklusive webbadress, datum, typ och längd på posten) anges.
  • innehållsblocket där det faktiska innehållet finns. Den lagrade resursen är tillgänglig här i den så kallade "WARC-postens nyttolast".

Åtta olika posttyper är fördefinierade i standarden:

  1. warcinfo - Vanligtvis placerad i början av WARC -filen. Posten innehåller allmän information om de efterföljande posterna, vanligtvis om själva filen. Metadata innehåller namn och e -postadress för skaparen, liksom användaragenten, IP -adressen, HTTP -huvudet och programvara som används för att arkivera data.
  2. response - Innehåller det fullständiga svaret (svar enligt klient -server -modell ) från en webbserver inklusive detaljerad nätverks- och protokollinformation. Som ett resultat ligger resursen som ska sparas vanligtvis i dess innehållsblock.
  3. resource - Om det inte är möjligt eller inte önskvärt att lagra all logginformation också, är en resurspost idealisk för att bara lagra en resurs.
  4. request - motsvarighet till svarsregistret. Innehåller begäran och relaterad information som skickades till webbservern vid genomsökningen.
  5. metadata - Alla metadata lagras här. Dessa hänvisar nästan alltid till en annan post, som matas in via WARC-Concurrent-To eller WARC-Refers-To .
  6. revisit - Används vanligtvis om ett innehåll som redan har arkiverats besöks igen. Endast ett förkortat innehållsblock sparas i förhållande till den redan arkiverade resursen. Detta undviker onödig redundans och sparar lagringsutrymme.
  7. conversion - Syftet med en konverteringspost är att spara innehållet i en befintlig post i ett annat format.
  8. continuation - Fortsättningsposten gör det möjligt att distribuera stora mängder data över flera WARC -filer.

Även om WARC -standarden inte specificerar komprimering, kan den användas för att minska mängden minne utan problem. IIPC rekommenderar GZIP -formatet. Det är därför WARC -filer ofta finns med filtillägget ".warc.gz".

programvara

Online tjänster

Individuella bevis

  1. ansökan / varning . Hämtad 17 mars 2018.
  2. Information och dokumentation - WARC -filformat . Hämtad 16 mars 2018.
  3. Giuseppe Scrivano: GNU wget 1.14 släppt . I: GNU wget 1.14 släppt . Free Software Foundation, Inc. 6 augusti 2012. Hämtad 25 februari 2016.

webb-länkar