För att matcha användare från olika forum som sannolikt är samma person, en algoritm beräknar likheter i profiler, såsom deras användarnamn; i innehåll, såsom liknande fraser; och i deras nätverk, till exempel samhället som de interagerar med. Kredit:Massachusetts Institute of Technology
Under ytan webben, den offentliga formen av internet du använder dagligen för att kolla e-post eller läsa nyhetsartiklar, existerar ett dold "mörkt nät". Värd för anonym, lösenordsskyddade webbplatser, det mörka nätet är där kriminella marknadsplatser frodas i reklam och försäljning av vapen, läkemedel, och människohandel. Brottsbekämpande myndigheter arbetar kontinuerligt för att stoppa dessa aktiviteter, men utmaningarna de står inför när det gäller att utreda och åtala verkliga människor bakom användarna som gör inlägg på dessa webbplatser är enorma.
"Popup-karaktären hos mörka webbmarknadsplatser gör det extremt svårt att spåra sina deltagare och deras aktiviteter, säger Charlie Dagli, en forskare vid MIT Lincoln Laboratorys Artificial Intelligence Technology and Systems Group. Dagli syftar på den snabba takten med vilken mörka webbmarknader stänger (eftersom de hackas, plundrade, övergiven, eller konfigureras som en "exit-bedrägeri" där webbplatsen stängs av avsiktligt efter att kunder har betalat för ouppfyllda beställningar) och nya dyker upp. Dessa marknaders korta livslängder, från några månader till ett par år, hindra ansträngningar att identifiera sina användare.
För att övervinna denna utmaning, Lincoln Laboratory utvecklar nya mjukvaruverktyg för att analysera yt- och mörkwebbdata.
Dessa verktyg drar nytta av den fördel som detta mullvadsliknande problem ger – de kontakter som säljare och köpare upprätthåller över flera lager av webben, från yta till mörkt, och över mörka webbforum. "Det här ständiga växlingen mellan webbplatser är nu en etablerad del av hur mörka webbmarknadsplatser fungerar, säger Dagli.
Användare skapar hela tiden nya profiler. Även om de kanske inte använder samma användarnamn från webbplats till webbplats, de håller sina kontakter vid liv genom att signalera till varandra genom sitt innehåll. Dessa signaler kan användas för att länka personer som tillhör samma användare över mörka webbforum och, mer avslöjande, att länka personas på den mörka webben till ytwebben för att avslöja en användares sanna identitet.
Att länka användare på den mörka webben är vad brottsbekämpning redan försöker göra. Problemet är att mängden data som de behöver för att manuellt blanda igenom—500, 000 telefonnummer och 2 miljoner sexannonser som läggs upp i månaden – är för stort och ostrukturerat för att de ska hitta kontakter snabbt. Således, endast en låg andel av fallen kan drivas.
För att automatisera personlänkningsprocessen, Lincoln Laboratory tränar maskininlärningsalgoritmer för att beräkna likheten mellan användare på olika forum. Beräkningarna är baserade på tre aspekter av användares kommunikation online:"Hur de identifierar sig för andra, vad de skriver om, och med vem de skriver till, " förklarar Dagli.
Algoritmen matas först med data från användare på ett givet forum A och skapar en författarskapsmodell för varje användare. Sedan, data från användare på Forum B körs mot alla användarmodeller från Forum A. För att hitta matchningar för profilinformation, Algoritmen letar efter enkla ledtrådar, såsom ändringar i stavning av användarnamn som "sergeygork" på Forum A till "sergey gorkin" på Forum B, eller mer subtila likheter som "joe knight" till "joe mardröm."
Nästa funktion som systemet tittar på är innehållslikhet. Systemet tar upp unika fraser – till exempel, "kul i solen" – som används i flera annonser. "Det är mycket copy-and-paste på gång, så att liknande fraser dyker upp som troligen kommer från samma användare, " säger Dagli. Systemet letar sedan efter likheter i en användares nätverk, som är den krets av människor som användaren interagerar med, och de ämnen som användarens nätverk diskuterar.
Profilen, innehåll, och nätverksfunktioner smälts sedan samman för att ge en enda utdata:ett sannolikhetspoäng att två personas från två forum representerar samma verkliga person.
Forskarna har testat dessa personlänkande algoritmer både med Twitter- och Instagram-data med öppen källkod och handmärkt marksanningsdata från mörka webbforum. All data som används i detta arbete erhålls på auktoriserade sätt. Resultaten är lovande. "Varje gång vi rapporterar en match, vi har rätt 95 procent av gångerna. Systemet är ett av de bästa länksystemen som vi kan hitta i litteraturen, säger Dagli.
Detta arbete är den senaste utvecklingen inom pågående forskning. Från 2014 till 2017, Lincoln Laboratory bidrog till Memex-programmet för Defense Advanced Research Projects Agency (DARPA). Memex resulterade i en svit av dataanalysprogramvara för yt- och mörkwebb som utvecklats i samarbete med dussintals universitet, nationella laboratorier, och företag. Tio laboratorietekniker som spänner över text, Tal, och visuell analys som skapades för Memex släpptes som öppen källkod via DARPA Open Catalog.
I dag, mer än 30 byråer över hela världen använder Memex programvara för att genomföra utredningar. En av de största användarna, och en intressent i Memex utveckling, är Human Trafficking Response Unit (HTRU) på Manhattan District Attorney's Office.
Manhattan distriktsåklagare Cyrus Vance Jr. uttalade i ett skriftligt vittnesmål till det amerikanska representanthuset att hans kontor använde Memex-verktyg för att granska mer än 6, 000 arresteringar för tecken på människohandel bara under 2017. "Vi använde också Memex i 271 människohandelsutredningar och i sex nya sexhandelsåtal som väcktes 2017, " sade han. Med införandet av Memex, Prostitutionsgripanden som undersökts av HTRU för människohandelsindikatorer ökade från 5 till 62 procent, och utredningar av New York Police Departments prostitutionsrelaterade arresteringar ökade från 15 till 300 per år.
Jennifer Dolle, biträdande chef för HTRU, besökte laboratoriet för att presentera hur enheten har dragit nytta av dessa teknologier. "Vi använder dessa verktyg varje dag. De har verkligen förändrat hur vi gör affärer på vårt kontor, säger Dolle, förklarar att innan Memex, en människohandelsutredning skulle kunna ta betydligt längre tid.
Nu, Memex-verktyg gör det möjligt för HTRU att snabbt förbättra nya fall och bygga utredningar av sexhandel från leads som har lite information. Till exempel, dessa verktyg – inklusive ett som heter TellFinder (byggt av Memex-bidragsgivaren Uncharted Software) för indexering, sammanfatta, och genomsökning av sexannonsdata – har använts för att identifiera ytterligare, minderåriga offer från data i en enda prostitutionsannons online. "Dessa ytterligare undersökningsledningar gör det möjligt för HTRU att åtala människohandlare på anklagelser om våldsbrott och hålla dessa åtalade ansvariga för den sanna naturen av de brott de begår mot utsatta offer, säger Dolle.
Forskare fortsätter att lära sig hur framväxande teknologier kan skräddarsys för vad byråer behöver och för hur den mörka webben fungerar. "Datadriven maskininlärning har blivit ett bevisligen viktigt verktyg för brottsbekämpande myndigheter för att bekämpa illegala onlinemarknadsplatser på den mörka webben, säger Lin Li, en huvudutredare av detta kontinuerliga arbete i laboratoriets Human Dynamic Dark Networks-program, som finansieras genom laboratoriets Teknikkontor. "Men, några av de pågående utmaningarna och forskningsområdena inkluderar att utöka vår förståelse av efterfrågeekonomin, störa utbudsekonomin, och få en bättre övergripande situationsmedvetenhet."
En bättre förståelse för hur utbud- och efterfrågekedjorna i den mörka webbekonomin fungerar kommer att hjälpa teamet att utveckla teknologier för att störa dessa kedjor. En del av målet är att öka riskerna med att delta i denna olagliga ekonomi; Att länka personas på den mörka webben till de på ytan på webben är en potentiellt kraftfull taktik.
"Denna snabbt växande olagliga ekonomi visades av DARPA för att finansiera terroristaktiviteter och visades av HTRU som en drivkraft för dagens slaveri. Att besegra terrorism och eliminera slaveri är nationella och humanitära behov, säger Joseph Campbell, ledare för Artifical Intelligence Technology and Systems Group. "Vår grupp har extraordinär expertis inom AI, maskininlärning, och analys av mänskliga nätverk baserat på information utvunnen från flerspråkigt tal, text, och video i kombination med nätverkskommunikation och aktiviteter. Den senaste tekniken som vi skapar, utveckla, och förskott överförs till våra sponsorer, som använder dem dagligen med en enorm inverkan för dessa nationella och humanitära behov."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.