Metadata

Från Wikipedia, den fria encyklopedin
Hoppa till navigation Hoppa till sökning
På 2000 -talet hänvisar metadata vanligtvis till digitala former. Metadata finns också i traditionella kortkataloger. Korten består av information (författare, titel, ämne etc.) om böckerna i ett bibliotek.

Metadata, eller metainformation , är strukturerad data som innehåller information om egenskaper hos andra data.

Data som beskrivs av metadata är ofta större datasamlingar som dokument , böcker , databaser eller filer . Information om egenskaperna hos ett enskilt objekt (till exempel " personens namn ") kallas också dess metadata.

Datoranvändare är ofta omedvetna om att data har metadata som inte omedelbart känns igen och att de kan vara till större nytta för cyberkriminella eller myndigheter än själva data. [1]

Inledande exempel

Typiska metadata för en bok är till exempel författarens namn , upplagan , utgivningsåret, förlaget och ISBN . Metadata för en datorfilen innehåller filnamn, de åtkomsträttigheter och datum för den senaste ändringen.

Differentiering mellan data och metadata

Även om begreppet metadata är relativt nytt, har principen om referens och formella krav använts i bibliotekspraxis i århundraden. En giltig åtskillnad mellan metadata och vanliga data finns dock endast för specialfallet, eftersom beteckningen är en synvinkelfråga. För läsaren av en bok är innehållet faktiska data, medan författarens namn eller upplagans nummer är metadata. För utgivaren av en bokkatalog , å andra sidan, är dessa två informationsobjekt egenskaper för böcker i allmänhet, "Författare" och "Upplaganummer" är metadata, de specifika värdena ("Karl May", "17" ) är de faktiska uppgifterna för honom.

Avsedd användning

När du försöker skilja på data och metadata är det bra att introducera termen " syfte ". Syftet avgör resultatet; för att kunna tjäna ett specifikt syfte - uppnå ett specifikt resultat - krävs metadata. Resultatet kan bestå av data, särskilt metadata i dess roll som data kan vara en del av resultatet.

Exempel:

  • Syfte: Sök i ett bibliotek efter alla platser (anropsnummer) för tillgängliga böcker av en specifik författare
  • Metadata: "Författarens namn " och "Tillgängligt"
  • Resultat: " Signatur " (platsen kan nås via signaturen)

använda sig av

I många fall finns det ingen medveten skillnad mellan objekt- och metanivåerna . Till exempel talar man om att leta efter en bok i en katalog och inte bara dess metadata. När man använder metadata förväntas det ofta att de, genom direkt koppling med användardata, är oskiljaktiga komponenter i ett slutet, självbeskrivande system.

Metadata används ofta för att beskriva informationsresurser och därigenom göra dem lättare att hitta och skapa relationer mellan materialen. Som regel kräver detta katalogisering med en viss grad av standardisering (t.ex. genom biblioteksbestämmelser ).

lagring

Det finns olika alternativ för att lagra metadata:

  • I själva dokumentet. Författaren och publiceringsåret är alltid inspelade i en bok. I HTML -dokument används elementet < meta > för att ange till exempel språk, författare, företag eller sökord .
  • I tillhörande uppslagsverk , till exempel för en bok i ett bibliotek i bibliotekskatalogen .
  • För datorfiler i filattributen . De flesta filsystem tillåter endast väldefinierade metadata i filattribut. andra ( HPFS med utökade attribut) gör att all data kan kopplas till en fil. Det är också vanligt att inkludera metainformationen " filtyp " i filnamnet; vanligtvis i filnamnstillägget eller i magiska nummer i början av filen.

Det finns ett antal dataformat och datamodeller för lagring och överföring av metadata, till exempel Dublin Core eller EXIF , som kan överföras i olika och därför läsbara format.

Interoperabla metadata

I tekniska termer, ”manövreras” initialt betyder ”utformade på ett sådant sätt att den kan användas och drivas på”. Prefixet "inter" kommer från latin och betyder ungefär "mellan". Interoperabla metadata är metadata från potentiellt olika källor, mellan vilka (”inter”) finns ett förhållande på ett sådant sätt att de kan arbetas tillsammans (”opereras”).

Uppgiften för standarder för driftskompatibla metadata är att göra metadata från olika källor användbara. För detta ändamål inkluderar de inledningsvis aspekterna av semantik , datamodell och syntax .

Semantiken beskriver den betydelse som vanligtvis bestäms av standardiseringsorgan (se Dublin Core ). Datamodellen definierar vilken struktur metadata kan ha. I samband med metadata kan uttalanden förstås som "data" som görs om ett objekt som ska beskrivas (dokument, resurs , ...). En "modell" -komponent i termen datamodell kan förstås som en beskrivning av hur påståendena är uppbyggda (termen datamodell betyder ungefär " grammatik " eller "struktur av påståenden" i samband med metadata). Exempel på datamodeller för metadata är enkla attribut / värdekombinationer (t.ex. HTML- meta-element ) eller meningar med ämne , predikat och objekt (t.ex. tripplar i RDF ). Slutligen används syntaxen för att representera de satser som genereras enligt datamodellen. Ett exempel på ett representationsformat är XML (eXtensible Markup Language).

Följande samband finns nu mellan dessa tre aspekter: Semantiken representeras av konstruktioner av datamodellen. Datamodellen representeras i sin tur av syntaktiska konstruktioner. De syntaktiska konstruktionerna består slutligen av tecken från en överenskommen teckenuppsättning (som med Unicode ). Dessa tre aspekter kan förstås som hierarkiskt överlagrade lager, eftersom varje lager är baserat på lagret nedan. Skikten är oberoende av varandra, det vill säga användningen av en specifik standard i ett lager är oberoende av de andra skikten (t.ex. lagermodellerna för nätverkskommunikation, till exempel ISO / OSI -lagermodellen ). En viss semantik kan representeras av konstruktioner av olika datamodeller (t.ex. attribut / värdekombination, tripplar), som i sin tur kan representeras av olika syntaxer ( grafer , XML -format).

Den fjärde aspekten, ortogonal till dessa lager, är identifiering , som påverkar alla tre skikten. För att kunna bearbeta metadata från olika källor på ett meningsfullt sätt måste det tydligt identifieras (världen över) vilken semantik, vilken datamodell och vilken syntax som är inblandade. Detta kräver en identifieringsmekanism som den som tillhandahålls av URI (Uniform Resource Identifier).

Generiskt ramverk

Alla fyra aspekterna - semantik , datamodell , syntax och identifiering - krävs för att fastställa standarder för driftskompatibla metadata. De kan därför grupperas i en ram . Ett ramverk erbjuder därför en slags grundstruktur som redan beskriver de viktigaste elementen eller komponenterna i ett system och deras relationer, men utan att göra exakta specifikationer med avseende på deras design. Det fungerar således som ett slags "referenssystem" som möjliggör en meningsfull integration av nya komponenter. Eftersom ett ramverk visar element och deras relationer kan detta enkelt visualiseras genom det grafiska arrangemanget av element. Figuren "Generic Framework" visar en ram för metadata på metanivå . I motsats till särskilda former av ramar, det vill säga den form eller instans nivå ett ramverk på metanivå beskriver ett generaliserat ramverk - känns igen på de generiska namnen på komponenterna.

Ett exempel på en konkret ram för metadata är RDF ( Resource Description Framework ) från World Wide Web Consortium (W3C). RDF innehåller alla ovanstående fyra aspekter med specifika egenskaper, som visas i figuren.

RDF som ram för metadata

Komponenterna i detalj:

  • Semantik : Domänspecifik semantik kan importeras via namnområden , med vilken semantiken i ett RDF-ordförråd kan utökas efter behov
  • Datamodell : RDF har en fast datamodell som tillåter uttalanden om resurser i form av tripplar med ämne, predikat och objekt
  • Syntax : Vilken syntax som helst kan användas för att representera sådana uttalanden, RDF / XML, grafer eller N-trippelnotationen; RDF / XML är dock den normativa syntaxen
  • Identifiering : URI: er är obligatoriska som en universell identifieringsmekanism

Efter tanken på ett ramverk definierar RDF själv ingen domänspecifik semantik, utan anger bara en mekanism för hur ytterligare semantik kan integreras via namnområden med hjälp av en URI. Å andra sidan definierar RDF en bindande datamodell i form av tripplar och universell användning av URI som en identifieringsmekanism. Dessa används för att identifiera de enskilda komponenterna i en trippel (ämne, predikat, objekt) samt deras värden och datatyper . Den specifika syntaxen för att representera tripplarna kan emellertid åter väljas fritt, efter tanken på ett ramverk, med RDF / XML som standard. Med RDF Schema innehåller RDF också ett schemaspråk för att definiera dina egna metadataordförråd .

RDF -schema liknar RDF eftersom XML -schema är XML. Ett RDF -schema är också ett giltigt RDF -dokument, och ett XML -schema är också ett giltigt XML -dokument. I båda fallen har vi att göra med specialiserade delmängder av ett markeringsspråk . Även om XML Schema beskriver syntaktiska begränsningar, t.ex. B. elementnamn, förekomstfrekvens etc., RDF -schema beskriver semantiska begränsningar, så z. B. att ett attribut "hasPublished" endast får användas på förekomster av klassen "människa" eller "juridisk person", men inte på förekomster av klassen "djur" - i schemaspråket har attributet "hasPublished" domänen "mänsklig" eller "juridisk person".

Precis som XML, enligt principen om enkelhet och utökbarhet, förändrade datavärlden i grunden genom att det gjorde det möjligt att definiera dataformat som är utbytbara mellan olika system och program utan problem genom en enhetlig syntax, ett standardiserat typsystem och dess text- baserad natur, försöker RDF att introducera metadatavärlden för att ändra enhetlig datamodell. På grund av karaktären av ett ramverk ansluter sig RDF också till beprövade principer som enkelhet och utbyggbarhet.

Exempel på tillämpningsområden

Följande avsnitt ger exempel och standardformat för metadata i applikationsområden.

Metadata i statistik

I statistiska databaser kallas data som inte direkt representerar innehållet i en statistik metadata, till exempel filial- eller jobbtitlar, community -kataloger och andra kataloger. Den statistiska metadata innehåller också beskrivningar av datafälten i undersökningsformulär, eventuellt också fullständiga formulärbeskrivningar. Faktiska statistiska data kallas mikrodata och makrodata , i motsats till metadata.

I undersökningsforskning kallas specifika metadata om undersökningen paradata .

Metadata för geospatial data

I INSPIRE -direktivet och i lagen om tillgång till digitala rumsliga data baserade på det (Geodata Access Act - GeoZG) finns det en juridisk definition för metadata inom bearbetning av rumslig information: "Metadata är information som beskriver rumsliga data eller rumsliga data tjänster och gör det möjligt att bestämma rumsliga och rumsliga datatjänster, inkludera i register och använda. "(§ 3 Abs. 2 GeoZG)

Metadata i mjukvaruutveckling

I mjukvaruutveckling används termen metadata för olika ändamål:

  • Komponenter i en programkälltext kallas metadata som inte utvärderas av det faktiska översättningsverktyget, vanligtvis en kompilator , utan av ytterligare verktyg. Denna metadata används mest för dokumentation eller med hjälp av kommentarer för kodgenerering . Exempel är anteckningarna i Java eller attributen inom .NET -ramverket .
  • En form som avviker från klassisk programmering är användningen av metadata i universell programvara. De flesta nödvändiga applikationsfunktionerna är tillgängliga förkompilerade och anropas och parametreras via en metadatamotor. Den önskade målapplikationen måste beskrivas deklarativt i förväg med hjälp av specifika metadata. Detta tillvägagångssätt följs i synnerhet av datalager och business intelligence -produkter. Vissa tillverkare som Tenfold , Data-Warehouse GmbH och Scopeland Technology tillämpar också denna princip vid skapandet av skrivdatabasapplikationer.
  • Metadata är också förstås vara definitionen av datauppsättningar i ett data dictionary av en databas.
  • Informationen i programvaran versionshanteringen kan också användas som metadata. Dessa gör det ofta möjligt att identifiera författaren till varje rad med programkod. För detta ändamål korreleras användardata (källkoden) och metadata från versionshanteringsarkivet. I många versionhanteringsprogram (som Git och SVN ) kallas detta inbyggda kommando skuld .

Metadata i musikinspelningar

Typiska metadata för musik och andra ljudinspelningar är t.ex. B. Titel, artist, kompositör, publiceringsdatum, musikutgivare ellerISRC -numret ; För digitala ljudinspelningar är det möjligt att spara denna metainformation direkt i filen (till exempel i ID3 -taggen för MP3 -filer).

Förutom dessa primära data som krävs för att skapa ett konventionellt musikbibliotek, finns det mycket mer komplexa innehållsrelaterade musikmetadata. Detta inkluderar till exempel stil, huvud- och sekundärinstrument, genre, tempo, tangent, dynamik, röstkaraktär och beskrivning av stämningar och scener.

Digital bildmetadata

Metadata för digitala foton, till exempel datum / tid för fotot, brännvidd, bländare, exponeringstid och andra tekniska parametrar (eventuellt också de geografiska koordinaterna för fotoplatsen) lagras nu av nästan alla digitalkameror i början av en bildfil i Exif -format. Med lämplig programvara kan en digital bild (foto, skanning eller grafik) berikas med metadata i IPTC -format; Därvid kan information i huvudsak ges om bildtitel , bildbeskrivning, plats ( GPS -koordinater / plats / stat / land), författare (fotograf) eller upphovsrättsinnehavare, kontaktuppgifter till upphovsrättsinnehavaren eller licensgivaren, upphovsrättsbestämmelser och sökning termer (sökord). Många bildredigeringsprogram lägger till eller ändrar metadata vid redigering av digitala foton (eller bilder i allmänhet) så att slutsatser kan dras om bildredigeringsprogrammet.

Metadata vid kommunikation på Internet

Internetprotokollet följer en skiktmodell. Detta bör illustreras med exemplet med standarden för att skicka e-post . Det protokoll som vanligtvis används för att överföra e-post är Simple Mail Transfer Protocol . Dess position i internetprotokollagret kan preciseras:

SMTP i TCP / IP -protokollstacken :
använda sig av SMTP
transport TCP
Internet IP ( IPv4 , IPv6 )
Nätverkstillgång Ethernet Tecken
buss
Tecken
ringa
FDDI ...

Från avsändarnas och mottagarna av e -postmeddelanden kan alla lager under applikationsskiktet ses som metadata. Detta är särskilt märkbart när applikationsskiktet är krypterat. Även då kodar transportskiktet (TCP) redan tillräckligt med information för att bestämma namnet på den sändande och mottagande servern (ofta den globala delen av en e-postadress ) samt längden på meddelandet och den tid det skickades. Vid frekvent e-posttrafik mellan två parter kan enbart frekvensinformation göra det möjligt för en undersökande tredje part att dra slutsatser om innehållet i e-postmeddelandena.

I princip uppstår samma situation med andra nätverksprotokoll, till exempel snabbmeddelandetjänster eller World Wide Web . I allmänhet talar man i detta sammanhang om trafikdata eller marginella data .

Enligt avsnitt 206 (5) i den tyska brottsbalken räknas , förutom innehållet i telekommunikationen, dina specifika omständigheter, särskilt det faktum om någon är eller var inblandad i en telekommunikationsprocess” som telekommunikationssekretess .

Social kritik

Den italienska filosofen och medialteoretikern Matteo Pasquinelli lade fram tesen att dataexplosionen skulle möjliggöra en ny form av kontroll: ett ”metadata -samhälle”. Med metadata kan nya former av biopolitisk kontroll för kontroll av massorna och beteendekontroll upprättas, till exempel online -aktiviteter i sociala nätverk eller passagerarflöden i kollektivtrafiken. Pasquinelli ser inte problemet i det faktum att individer övervakas vid varje sväng, som i totalitära system, utan mäts och samhället som ett aggregat blir förutsägbart och kontrollerbart. [2]

Se även

litteratur

  • Gunnar Auth: Metadata - Grunderna och meningen i datalager . I: Gunnar Auth: Processorienterad organisation av metadatahantering för datalagringssystem . BoD, Norderstedt 2004, ISBN 978-3-8334-1926-3 , s. 27-74.
  • Ingrid Schmidt: Modellering av metadata . I: Henning Lobin; Lothar Lemnitzer: Textteknik. Perspektiv och applikationer . Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , s. 143-164.
  • Ulrich Hambuch: Framgångsfaktormetadatahantering: Metadatahanteringens relevans för datakvalitet i business intelligence . Vdm, Saarbrücken 2008, ISBN 3-639-07879-9

webb-länkar

Wiktionary: Metadata - förklaringar av betydelser, ordets ursprung, synonymer, översättningar

Individuella bevis

  1. avlyssningsskandal: metadata är ofta mer informativt än det faktiska innehållet. I: datensicherheit.de. 23 september 2013. Hämtad 11 september 2017 .
  2. ^ Adrian Lobe: Philosophy - The Society of Metadata. I: Süddeutsche.de . 31 juli 2018, åtkomst 3 september 2018 .