Programmering

'Google-søk på steroider' bringer mørkt web inn i lyset

Regjeringsbyrået som ga oss Internett har nå utviklet en kraftig ny søkemotor som kaster lys over innholdet på det såkalte dype nettet.

Defense Advanced Research Projects Agency (DARPA) startet arbeidet med Memex Deep Web Search Engine for et år siden, og presenterte denne uken verktøyene sine for Scientific American og "60 Minutes."

Memex, som blir utviklet av 17 forskjellige entreprenørteam, har som mål å bygge et bedre kart over internettinnhold og avdekke mønstre i online data som kan hjelpe politimenn og andre. Mens tidlige studier har fokusert på å kartlegge bevegelsen til menneskehandlere, kan teknologien en dag brukes til etterforskningsarbeid som terrorbekjempelse, savnede personer, sykdomsrespons og katastrofehjelp.

Dan Kaufman, direktør for informasjonsinnovasjonskontoret i DARPA, sier Memex handler om å gjøre det usett å se. "Internett er mye, mye større enn folk tror," sa DARPA-programleder Chris White til "60 minutter." "Etter noen estimater gir Google, Microsoft Bing og Yahoo oss bare tilgang til rundt 5 prosent av innholdet på nettet."

Google og Bing produserer resultater basert på popularitet og rangering, men Memex søker i innhold som vanligvis ignoreres av kommersielle søkemotorer, for eksempel ustrukturert data, ikke-koblet innhold, midlertidige sider som fjernes før kommersielle søkemotorer kan gjennomsøke dem, og chatfora. Vanlige søkemotorer ignorerer disse dype webdataene fordi nettannonsører - der nettleserselskaper tjener pengene sine - ikke har interesse av det.

Memex automatiserer også mekanismen for å gjennomsøke det mørke, eller anonyme nettet der kriminelle driver forretninger. Disse skjulte tjenestesidene, som kun er tilgjengelige via TORs anonymiserende nettleser, opererer vanligvis under radaren fra lovhåndhevelse som selger ulovlige stoffer og annen smugling. Der man en gang trodde at mørk webaktivitet besto av 1000 eller så sider, sa White til Scientific American at det kunne være mellom 30 000 og 40 000 mørke websider.

Inntil nå var det vanskelig å se på disse nettstedene på noen systemisk måte. Men Memex - som Manhattan DA Cyrus Vance Jr. kaller "Google-søk på steroider" - indekserer ikke bare innholdet, men analyserer det for å avdekke skjulte forhold som kan være nyttige for rettshåndhevelse.

DARPAs søkeverktøy ble introdusert for å velge politimyndigheter i fjor, inkludert Manhattans nye enhet for menneskehandel. Memex brukes nå i alle menneskesmuglingssaker den forfølger og har spilt en rolle i å generere minst 20 undersøkelser om sexhandel. Den superladede web-crawleren kan identifisere forholdet mellom forskjellige deler av data og produserer datakart som hjelper etterforskere å oppdage mønstre.

I en demo for "60 Minutes" viste White hvordan Memex er i stand til å spore bevegelse av menneskehandlere basert på data relatert til annonser på nettet for sex. "Noen ganger er det en funksjon av IP-adresse, men noen ganger er det en funksjon av et telefonnummer eller adresse i annonsen eller geolokaliseringen til en enhet som postet annonsen," sa White. "Det er noen ganger andre gjenstander som bidrar til plassering."

White understreket at Memex ikke ty til hacking for å hente informasjon. "Hvis noe er passordbeskyttet, er det ikke offentlig innhold, og Memex søker ikke i det," sa han til Scientific American. "Vi ønsket ikke å skyne dette arbeidet unødvendig ved å dra inn spøkelsen om å snuse og overvåke" - et berørt emne etter Edward Snowdens NSA-avsløringer.

Memex fikk navnet sitt (en kombinasjon av "minne" og "indeks") og inspirasjon fra en hypotetisk enhet beskrevet av Vannevar Bush i 1945 som foreslo oppfinnelsen av PC-er, Internett og andre store IT-fremskritt de neste 70 årene. Nå ser det ut til at DARPA og Memex vil bringe oss et skritt nærmere Philip Dicks futuristiske politiavdeling avbildet i "Minority Report."

En ny testrunde, som begynner om noen få uker, vil omfatte føderale og distriktsadvokater, regionale og nasjonale rettshåndhevelser og flere frivillige organisasjoner. I følge Scientific American-rapporten har den som mål å "teste nye bildesøkemuligheter som kan analysere bilder, selv når deler som kan hjelpe etterforskere - inkludert menneskehandleres ansikter eller en TV-skjerm i bakgrunnen - er tilslørt."

Ved å oppfinne bedre måter å samhandle med og presentere informasjon samlet fra et større kildebasseng, "ønsker vi å forbedre søket etter alle. Brukervennlighet for ikke-programmerere er viktig," sa White.

$config[zx-auto] not found$config[zx-overlay] not found