Kredit:CC0 Public Domain
Ett internationellt team av forskare testade idén att gratis onlinebetyg är mindre pålitliga än de som kostar något för dem, drar från den ekologiska teorin som kallas "kostbar signaleringsteori".
Teorin antyder att om det kostar något att lämna en recension – oavsett om pengar eller tid eller energi – kommer det att resultera i mer exakta betyg. Inom ekologi, kostsam signalteori hävdar att visningar som "kostar" mer - som utarbetade påfågelsvansar, eller ansträngande uppvisningar av hunger från fågelungar – är mer benägna att spegla verkligheten. En färgglad svans betecknar en frisk påfågel, och en brud med full mage slösar inte bort energin på att skrika efter mer mat.
Men Princeton-sociologen Dalton Conley och hans kollegor är de första som tillämpar denna teori på Yelp eller Uber och deras betygssystem. Genom att testa en serie viktade betygsverktyg i ett videospels sammanhang, de fann att betyg med låg ansträngning var mindre exakta än de som kostar några extra sekunder att använda. De drog slutsatsen att e-handelssajter borde göra om sina gränssnitt för att lägga tidskostnader på bedömare av produkter eller tjänster.
"Enkelt uttryckt:gör det så enkelt som möjligt att betygsätta varor eller tjänster, som många e-handelssajter försöker göra, är kontraproduktivt, sa Conley, Princetons Henry Putnam University professor i sociologi och en fakultetsfilial vid Office of Population Research och Center for Health and Wellbeing, som är seniorförfattare på en ny artikel i Proceedings of the National Academies of Science. "Ditto för att tvinga alla att ge ett betyg. Betygen är mer korrekta istället när de kostar något att ge."
Han fortsatte:"Intuitionen hos Uber och andra e-handelssajter är sannolikt fel. Det finns en anledning till att påfågelns fjädrar är så dyra att producera:deras kostnad garanterar en ärlig signal om reproduktiv kondition."
Eller, som medförfattaren Lucas Parra uttryckte det:"Betyg online är värdelösa, är de inte? Såvida de inte ådrar sig en viss kostnad för bedömarna!" Parra är Harold Shames professor i biomedicinsk teknik vid City College i New York.
Conley, Parra och deras team av medförfattare hävdade att även om det finns liten motivation att fuska med onlinebetyg – så finns det inget uppenbart incitament att lämna en enstjärnig recension av en plats vi gillade, eller en femstjärnig recension av en soptipp – det finns, i bästa fall, liten direkt nytta för bedömare som ger korrekta bedömningar, antyder att människor sannolikt tillhandahåller information av låg kvalitet.
De bestämde sig för att testa teorin genom att lägga på en "kostnad" för att tillhandahålla information – och högre kostnader för extrema betyg – för att se om de kunde eliminera eller minska antalet oärliga, genomsnittliga snedvridna en- och femstjärniga betyg.
Så de skapade några tv-spel, och rekryterade spelare från Amazons Mechanical Turk.
I ett typiskt spel, spelare manövrerade en bil för att samla mynt, att veta att de skulle få en cent av verklig betalning för varje digitalt mynt som samlas in. Vägarna var åtskilda av sjöar som endast kunde passeras med färjor. De två första färjeturerna användes som träningsset, med fördröjningar på 20 sekunder och sedan 4 sekunder, att fastställa en gemensam baslinje för utvärderingar av färjeprestanda. Efter det, spelet varierade slumpmässigt färjetrafikens förseningar och hastigheter. De snabbaste färjorna anlände omedelbart och korsade sjön inom 2 sekunder, medan de långsammaste färjorna var både försenade i ankomsten och långsamma, tar totalt 40 sekunder att korsa en sjö.
I slutet av varje färjetur, spelare var tvungna att betygsätta färjetrafiken på en skala från 0 till 100 innan de kunde gå vidare. Dessa betyg blev data för forskargruppen. Betygsverktyget i spelet använde en viktad skjutreglage med digital "friktion" för varje poäng som en spelare flyttade bort från ett tidigare bestämt genomsnittligt betyg. Med andra ord, ju mer extrema din poäng, ju fler sekunder du spenderade på att trycka stången uppåt eller nedåt.
Totalt spelande var begränsat till 15 minuter, så spelare var motiverade att skicka in sina rankningar så snabbt som möjligt så att de kunde återgå till att samla in sina monetära belöningar. Spelare åkte i genomsnitt 17 färjor per match, tillåta forskarna att mäta sambanden mellan deras subjektiva betyg och färjornas objektiva service (mätt som total tid för att ta färjan), både inom och över ämnen.
De fann att deras viktade skjutreglage ledde till mer tillförlitliga uppskattningar av publiken av kvalitet än en oviktad klickbar, där alla poäng från 0 till 100 kunde ges genom ett omedelbart klick på skärmen – där alla betyg var lika "billiga".
Deras resultat har konsekvenser för de allestädes närvarande begäranden om betyg inom e-handel, och deras tillvägagångssätt kan generaliseras och testas i en mängd olika storskaliga onlinekommunikationssystem, sa forskarna.
Teamet hade inte gett sig ut för att testa betyg, sa Conley. De var ursprungligen intresserade av onlineinlärning, "men under experimentens gång insåg vi att betygsdata vi fick ... inte var särskilt bra, så vi försökte förbättra det problemet."
De blev förvånade över att sänka kostnaderna för betyg faktiskt slog tillbaka. Klassisk ekonomisk teori tyder på att minimering av kostnaden skulle ge de bästa resultaten, men deras data visar motsatsen.
Kortfattat, Uber måste sakta ner sitt betygsverktyg, sa Conley. "Konvertera klassificeringsenheten från ett enkelt klick till ett skjutreglage, där det blir svårt att ge mycket höga eller låga poäng på grund av att reglaget saktar ner när användaren kommer längre ut i endera riktningen, ger bättre poängfördelningar. Endast högmotiverade bedömare kommer att ge extrema poäng."