Djup webb

Från Wikipedia, den fria encyklopedin
Hoppa till navigation Hoppa till sökning

Deep Web (även Hidden Web eller Invisible Web ) eller Hidden Web beskriver den del av World Wide Web som inte kan hittas vid forskning med vanliga sökmotorer . Till skillnad från Deep Web kallas de webbplatser som är tillgängliga via sökmotorerna Clear Web, Visible Web eller Surface Web . Den djupa webben består till stor del av ämnesspecifika databaser ( specialistdatabaser ) och webbplatser. Sammanfattningsvis är det innehåll som inte är fritt tillgängligt och / eller innehåll som inte indexeras av sökmotorer eller som inte bör indexeras.

Typer av den djupa webben

Enligt Sherman & Price (2001) [1] finns det fem typer av Invisible Web: "Opaque Web", "Private Web", "Proprietary Web" (ägarwebb), "Invisible Web" (invisible web) och "Truly osynlig webb ”(faktiskt osynlig webb).

Opaque Web

Opaque Web (Engl. Opaque Engl.: Opaque ) är webbsidor som kan indexeras, men för närvarande av tekniska effektivitetsskäl eller kostnadseffektivitet inte indexeras (sökdjup, besöksfrekvens).

Sökmotorer tar inte hänsyn till alla katalognivåer och undersidor på en webbplats. Vid registrering av webbsidor kontrollerar webbsökare via länkar till följande webbsidor. Webbcrawlers själva kan inte navigera, till och med gå vilse i djupa katalogstrukturer , kan inte fånga sidor och kan inte hitta tillbaka till startsidan. Av denna anledning överväger sökmotorer ofta högst fem eller sex katalognivåer. Omfattande och därför relevanta dokument kan ligga i lägre hierarkiska nivåer och kan inte hittas av sökmotorer på grund av det begränsade indexeringsdjupet.

Dessutom finns det filformat som bara kan spelas in delvis (till exempel PDF -filer, Google indexerar bara en del av en PDF -fil och gör innehållet tillgängligt som HTML).

Det finns ett beroende av hur ofta en webbplats indexeras (dagligen, varje månad). Dessutom ständigt uppdaterade databaser, till exempel online- mätdata, påverkas. Webbplatser utan hyperlänkar eller navigeringssystem, länkade webbplatser äremiterar URL: er eller föräldralösa sidor (engelska föräldralösa. För föräldralösa ) faller också under det.

Privat webb

Den privata webben beskriver webbsidor som kan indexeras men inte indexeras på grund av åtkomstbegränsningar från webbansvarig.

Dessa kan vara webbplatser på intranätet (interna webbplatser), men också lösenordsskyddade data (registrering och eventuellt lösenord och inloggning ), åtkomst endast för vissa IP -adresser , skydd mot indexering av Robots Exclusion Standard eller skydd mot indexering av meta - Tag värden noindex, nofollow och noimageindex i källkoden på webbplatsen.

Egen webb

Egen webb hänvisar till webbplatser som kan indexeras, men som endast är tillgängliga efter godkännande av ett användningsvillkor eller genom att ange ett lösenord (gratis eller med kostnader).

Sådana webbplatser kan vanligtvis endast nås efter identifiering (webbaserade specialistdatabaser ).

Osynlig webb

Den osynliga webben innehåller webbplatser som kan indexeras ur en rent teknisk synvinkel, men som inte indexeras av kommersiella eller strategiska skäl - till exempel databaser med ett webbformulär.

Verkligen osynlig webb

Truly Invisible Web hänvisar till webbplatser som inte (ännu) kan indexeras av tekniska skäl. Dessa kan vara databasformat som skapades före WWW (vissa värdar), dokument som inte kan visas direkt i webbläsaren , icke-standardformat (t.ex. Flash ), samt filformat som inte kan fångas på grund av deras komplexitet (grafik format). Dessutom finns det komprimerade data eller webbplatser som bara kan hanteras via användarnavigering med hjälp av grafik (bildkartor) eller skript ( ramar ).

Databaser

Dynamiskt skapade databaswebbsidor

Webbcrawlers fungerar nästan uteslutande på statiska databaswebbplatser och kan inte nå många dynamiska databaswebbplatser eftersom de bara kan nå djupare sidor genom hyperlänkar . Men dessa dynamiska sidor kan ofta bara nås genom att fylla i ett HTML -formulär , vilket en sökrobot inte kan göra för tillfället.

Kooperativa databasleverantörer tillåter sökmotorer att komma åt innehållet i deras databas via mekanismer som JDBC , till skillnad från (normala) icke-samarbetsvilliga databaser , som endast erbjuder databasåtkomst via ett sökformulär.

Värdar och specialistdatabaser

Värdar är kommersiella informationsleverantörer som samlar specialistdatabaser från olika informationstillverkare inom ett gränssnitt. Vissa databasleverantörer (värdar) eller databasproducenter driver själva relationsdatabaser vars data inte kan hämtas utan ett särskilt åtkomstalternativ (hämtningsspråk, hämtningsverktyg). Webbcrawlers förstår varken strukturen eller språket som krävs för att läsa information från dessa databaser. Många värdar har varit aktiva som onlinetjänster sedan 1970 -talet och använder i vissa fall databassystem i sina databaser som skapades långt före WWW.

Exempel på databaser: bibliotekskataloger ( OPAC ), börskurser, tidtabeller, lagtexter, jobbbyten, nyheter, patent, telefonböcker, webbutiker, ordböcker.

Uppskattning av datamängden

Enligt en studie [2] av företaget BrightPlanet , som publicerades 2001, resulterade följande egenskaper för Deep Web:

Mängden data i Deep Web är cirka 400 till 550 gånger större än i Surface Web. Endast 60 av de största webbplatserna i Deep Web innehåller cirka 7.500 terabyte information, vilket är 40 gånger storleken på Surface Web. Det finns enligt uppgift mer än 200 000 djupa webbplatser. Enligt studien har webbplatser från Deep Web i genomsnitt 50% fler träffar per månad och länkas oftare än webbplatser från Surface Web. Deep web är också den snabbast växande kategorin av ny information på webben. Ändå är den djupa webben knappast känd för allmänheten som söker på Internet. Mer än hälften av den djupa webben finns i ämnesspecifika databaser.

Eftersom BrightPlanet erbjuder ett kommersiellt sökhjälpmedel med DQM2 måste storleksspecifikationen (eventuellt starkt överskattad) ses med stor försiktighet. Datavolymen för Deep Web [3] uppskattad av BrightPlanet måste justeras för vissa data:

  • Dubbletter från bibliotekskataloger som överlappar varandra
  • National Climatic Data Center datainsamling (361 terabyte)
  • NASA -data (296 terabyte)
  • ytterligare datainsamlingar (National Oceanographic Data Center & National Geophysical Data Center, Right to know Network, Alexa, ...)

Antalet datamängder visar att studien överskattar storleken på den djupa webben med tio gånger. Informationsleverantören LexisNexis har dock ensam 4,6 miljarder dataposter, mer än hälften av antalet dataposter från sökmotorledaren Google. Den djupa banan är därför säkert mycket större än ytbanan.

I en studie från University of California, Berkeley från 2003, bestämdes följande värden som storleken på Internet: Surface Web - 167 terabyte, Deep Web - 91 850 terabyte. [4] Det tryckta innehavet på Library of Congress i Washington, ett av de största biblioteken i världen, är 10 terabyte.

Sammantaget bör informationen om Deep Web inte tas för allvarligt. Trots allt kommer många webbplatser inte in på en sökmotor på egen hand. Till exempel besöks inte en privat skapad webbplats omedelbart. Men du kan också registrera en sådan sida eller vänta tills din egen sida har länkats till andra sidor som redan har indexerats av sökrobotar.

Se även

litteratur

webb-länkar

Individuella bevis

  1. ^ Gary Price: The Invisible Web: avslöja informationskällor som sökmotorer inte kan se . CyberAge Books, Medford, NJ 2001, ISBN 0-910965-51-X (engelska).
  2. ^ Michael K. Bergman: The Deep Web: Surfacing Hidden Value . I: Journal of Electronic Publishing , volym 7, 2001, nr 1
  3. Internet Archive Wayback Machine ( Memento den 14 mars 2006 i Internetarkivet )
  4. Internet ( Memento av originalet från 15 oktober 2004 i Internetarkivet ) Info: Arkivlänken infogades automatiskt och har ännu inte kontrollerats. Kontrollera original- och arkivlänken enligt instruktionerna och ta sedan bort detta meddelande. @ 1 @ 2 Mall: Webachiv / IABot / www.sims.berkeley.edu sims.berkeley.edu