En faktisk vetenskaplig artikel (från KDD Cup-dataset) med kända citat användes för att demonstrera hur algoritmen kunde generera rekommendationer för forskare som söker information inom ett relaterat område. Bilden visar de 15 bästa citaten som rekommenderas av måtten. Av dessa 15 förutspådda citat, fem av dem (markerade med asterisker) var faktiska citat i artikeln. I jämförelse, andra metoder lyckades inte förutsäga någon av de faktiska citaten. De färgade segmenten i "ämnesproportionerna" indikerar sannolikheten att en artikel tillhör ett specifikt ämne. Kredit:Annals of Applied Statistics
En NUS-statistiker har utvecklat ett mått som automatiskt tar hänsyn till citeringsvariationer inom olika discipliner för att mäta vetenskapliga artiklars forskningsförtjänst.
Forskningsförtjänsten (inverkan) av vetenskapliga artiklar används ofta som en av parametrarna för att bedöma kvaliteten på forskningsresultat. Detta erhålls vanligtvis från citat från forskningsarbete som redan publicerats i tidskriften. Dock, olika akademiska discipliner har olika forskningsbeteenden och citeringsmetoder. Till exempel, artiklar inom vissa discipliner (t.ex. matematik) har generellt låga citeringar medan andra områden (t.ex. molekylärbiologi) i jämförelse har i genomsnitt fler citeringar. Därav, en jämförelse av forskningskvalitet över olika discipliner baserat på råa citeringsantal skulle inte återspegla forskningens meriter korrekt.
Prof Linda TAN från Institutionen för statistik och tillämpad sannolikhet, NUS har utvecklat ett mått på artikelnivå, kallad "ämnesjusterad synlighetsmått", som automatiskt kan redogöra för variationen i citeringsaktiviteter mellan olika forskningsområden. Den beräknar detta utan att använda befintliga fältklassificeringar taggade för den enskilda artikeln utan genom att använda ett komplext nätverk som innehåller attribut som hör till den valda artikeln. Varje artikel behöver inte tillhöra ett enda fält utan kan tillhöra flera fält med varierande grad. Detta kan ge en bättre mätare för att jämföra enskilda vetenskapliga publikationer inom olika områden. Forskargruppen har också utvecklat en effektiv beräkningsalgoritm som använder detta mått för att hjälpa akademiska forskare med artikelrekommendationer.
Prof Tan sa, "När vår metod tillämpas på KDD Cup 2003 (kunskapsupptäckt och datautvinning konkurrens) benchmarking dataset som har cirka 30, 000 högenergifysikuppsatser, den visade bättre prestanda för artikelrekommendationer genom att vara mer exakt i att förutsäga de faktiska citaten från testartiklar, jämfört med andra tillgängliga modeller."