Kredit:CC0 Public Domain
Datautvinning och utvinning av kunskap från olika källor är big data, stora affärer. Men, hur klarar sökprogrammet med enheter som nämns där bara en del av deras namn används eller ett namn är avstavat när det normalt inte är det? Forskning publicerad i International Journal of Intelligent Information and Database Systems avslöjar detaljer om ett nytt tillvägagångssätt för att förbättra namngivna enheters igenkänning och disambiguering i nyhetsrubriker.
Jayendra Barua och Rajdeep Niyogi vid institutionen för datavetenskap och teknik, vid Indian Institute of Technology, i Roorkee, Uttarakhand, Indien, förklara att deras inställning till en sådan analys av aktuella nyhetsrubriker bygger på en tränad algoritm som har lärts ut för att ta bort bindestreck och kompletta ofullständiga namn för att ta bort oklarheter.
Teamets utvärdering av deras nya tillvägagångssätt visar att den fungerar med ungefär 10 procent större noggrannhet än konventionella system och kan därför förbättra den automatiska hämtningen av nyheter som är associerade med vissa företag, organisationer, evenemang, offentliga personer, och andra enheter av intresse för dem som datautvinner nyheterna. Systemet fungerar bra med nyhetsflöden, till exempel RSS-typen av nyhetsflöde som genereras av regelbundet uppdaterade webbplatser. Rubriker från sådana källor kan vanligtvis vara längre än vanliga tidningsrubriker men är ändå kortfattade, är vanligtvis tio eller färre ord långa. Varje ord kan då vara viktigt i ett datautvinningssammanhang och därför är disambiguering avgörande.