Struktur för föreslagen modell. Kredit:Zhou et al.
Varje dag, miljontals artiklar publiceras på sociala medier och andra plattformar, får enorma mängder klick och delningar från användare som navigerar på webben. Många av dessa artiklar innehåller användbar information som, om det utvinns, skulle kunna användas för att sammanställa kunskapsdatabaser eller för att leverera kunskapsinhämtnings- och frågesvarstjänster.
Forskare vid den kinesiska vetenskapsakademin (CAS) har utvecklat en konvolutionellt neuralt nätverk (CNN)-baserad modell för att extrahera kunniga utdrag och kommentera dokument. Deras metod, beskrivs i ett papper som förpublicerats på arXiv, visade sig fungera bättre än befintliga verktyg, trots att man tränat under kortare perioder.
I deras tidning, forskarna definierar termen "kunnigt dokument" som "ett dokument som innehåller flera kunniga utdrag, som beskriver begrepp, enheters egenskaper, eller relationerna mellan enheter." Hittills, de flesta kunskapsbaser, såsom YAGO eller DBpedia, extrahera kunskap baserad på Wikipedia, WordNet, Geonamn, och andra onlineresurser. Dock, jämfört med sociala medieplattformar, dessa resurser innehåller ofta begränsad och oflexibel information.
"En annan ny kunskapsbas, Probas, med 2,7 miljoner koncept, utnyttjades automatiskt från den hittills största korpusen, bestående av 326 miljoner kunniga meningar extraherade från 1,68 miljarder webbsidor, " skrev forskarna i sin uppsats. "Men, dessa meningar extraheras endast av Hearst-mönstren. För att extrahera mer kunniga utdrag för att konstruera mer omfattande kunskapsbaser, semantiskt baserade metoder behövs för att komplettera de tidigare mönsterbaserade."
Exempel på kunnigt dokument. De blå och röda meningarna är kunniga respektive okunniga utdrag. Dokumentet introducerar de 25 tipsen för att köpa fastigheter. Kredit:Zhou et al.
Kunniga utdrag och artiklar kan också användas för att utveckla tjänster för kunskapsinhämtning och svar på frågor. Dessa tjänster skulle, till exempel, svara på frågor från användare som söker hjälp med ett visst problem. Med dessa applikationer i åtanke, forskarna vid CAS ville utveckla en CNN-baserad modell som kan analysera semantiken i ett dokument, avgöra om den är kunnig eller inte, och extrahera kunniga utdrag av information från den.
"Specifikt, vi föreslår SSNN, en gemensam CNN-baserad modell, att förstå det abstrakta begreppet dokument inom olika domäner i samarbete och bedöma om ett dokument är kunnigt eller inte, " förklarar forskarna i sin uppsats. "Mer i detalj, nätverksstrukturen för SSNN är "lågnivådelning, uppdelning på hög nivå, "där lågnivåskikten delas för olika domäner medan högnivåskikten bortom CNN tränas separat för att uppfatta skillnaderna mellan olika domäner."
Modellen som forskarna tagit fram erbjuder en helhetslösning för att kommentera dokument som inte medför omfattande och tidskrävande funktionsteknik. De utvecklade också manuella funktioner och tränade en SVM-klassificerare för att slutföra uppgiften.
Exempel på kunnigt dokument. De blå och röda meningarna är kunniga respektive okunniga utdrag. Dokumentet introducerar svängfärdigheterna vid körning. Kredit:Zhou et al.
Forskarna utvärderade effektiviteten av deras modell på en datauppsättning av verkliga dokument från tre innehållsdomäner på WeChat, ett kinesiskt meddelande, sociala medier och mobil betalningsplattform utvecklad av Tencent. Deras resultat var mycket lovande, med SSNN som genomgående presterar bättre än andra CNN-modeller, samtidigt som du sparar tid och minnesförbrukning tack vare kortare och effektivare träningsprocesser.
"Jämfört med att bygga flera domänspecifika CNN, denna gemensamma modell sparar inte bara träningstid, men förbättrar också prediktionsnoggrannheten synbart, " skrev forskarna i sin uppsats. "Överlägsenheten hos den föreslagna modellen visas i en riktig datauppsättning från Wechat offentliga plattformar."
I framtiden, den SSNN-modell som föreslås i denna studie skulle kunna användas för att bygga mer omfattande kunskapsdatabaser. Det kan också underlätta utvecklingen av innovativa tjänster som svarar på användarfrågor både snabbt och uttömmande i realtid.
© 2018 Tech Xplore