Kredit:Alvin Lee
I U.S. Securities and Exchange Commission (SEC) 10-K årsrapport som lämnats in för dess räkenskapsår som slutar 31 juli, 2008, Den amerikanska smyckeshandlaren Zale Corporation (”Zales”) nämnde orden "reklam" eller "reklam" 17 gånger. Ett år senare, samma ord dök upp mer än dubbelt så ofta vid 41 gånger.
Då, SEC hade påbörjat undersökningar efter att företaget försenat att publicera resultat för fjärde kvartalet. Zales visade sig därefter ha aktiverat tv-reklamkostnader på ett felaktigt sätt från 2004 till 2009, även om få hade lagt märke till vad som pågick.
I en metod som presenteras i ny forskning av SMU biträdande professor i redovisning Richard Crowley, denna avsiktliga felrapportering skulle ha fått varningsklockorna att ringa långt innan SEC började ställa frågor.
"De är 97:e percentilen eller högre i vår modell varje enskilt år från det andra året av felrapportering och framåt, " säger professor Crowley, hänvisar till maskininlärningstekniken som presenteras i artikeln "Vad säger du? Använder ämne för att upptäcka ekonomisk felrapportering". "97:e percentilen här betyder att deras poäng på vår felrapporteringsdetekteringsmodell var högre än 97 procent av amerikanska offentliga företag."
Han tillägger:"Modellen körs årligen, så det betyder att för varje år 2005, 2006, ... 2009, Zales fick ett högre felrapporteringspoäng än 97 procent av offentliga företag det året."
Vad är ordet?
Professor Crowley förklarar att forskningen helt ignorerar siffrorna - "Om chefer kommer att felrapportera siffrorna, de kommer att göra det på ett trovärdigt sätt" — och istället tittar på vad som står skrivet, som forskningen refererar till som "ämnet".
Tillsammans med professorerna Nerissa Brown och Brooke Elliott från Gies College of Business vid University of Illinois Urbana-Champaign, Professor Crowley analyserade över 3 miljarder ord i 10-K-anmälningar från 1994-2012 för att se hur tillförlitligt vissa ämnen förutspådde avsiktlig felrapportering. I vissa prover, forskningen förbättrade förutsägelsen av avsiktlig felrapportering med 59 procent.
"Den viktigaste skillnaden när du diskuterar saker när du ljuger är att du är väldigt avsiktlig när det gäller de ämnen du väljer att diskutera, "utvecklar han, pekar på exemplet med Enron.
"De pratar bara om inkomstökningar och de har en enorm diskussion om det, " konstaterar professor Crowley. Enrons årsrapport för 1999 fungerar som ett utmärkt exempel, citerar "acceleration av Enrons häpnadsväckande takt av kommersiell innovation" för en 28-procentig intäktsökning till 40 miljarder USD från ett år sedan, samt en ökning med 37 procent i nettoresultatet före poster av engångskaraktär till 957 miljoner USD.
Professor Crowley pekar ut en fras som Enron ofta använde i sina 10-K:s:"jämfört med". Han förklarar:
"Företag säger alltid saker som "Detta är vår inkomst 2011 jämfört med inkomsten 2010, och de ger alltid prognoser om inkomst, bruttomarginaler etc.
"Men då har du inkomstskatter, icke ränteintäkter, vinst, det är bara de allmänna fraserna som dyker upp. När vi valde ut de mest representativa meningarna för vart och ett av dessa ämnen, vi hittade fraser som "rörelsevinsten var 122,1 miljoner USD 2011 jämfört med 113,9 miljoner USD till 2010, en ökning med 7,8 procent.' Detta är en extremt vanlig struktur att se i dessa dokument.
"Så när vi pratar om Enron, de har sådana meningar, men de har mycket mer av dem än någon annan någonsin har gjort, både 1999 och genom hela historien för vårt prov."
Med tanke på det påstådda antalet affärer Enron hade som genererade alla dessa intäkter, Det kan vara mer meningsfullt att i sina årsrapporter läsa saker som att skaffa källor för sina energikontrakt, Professor Crowley konstaterar. Istället, det "talade till stor del om intäktssiffror och inkomstsiffror", observerar han.
Så finns det en vändpunkt för hur många gånger ett ämne dyker upp som är en röd flagga? Eller vilken typ av ord som används?
"Det finns ingen konstant sorts barometer för detta, " Professor Crowley säger till Office of Research and Tech Transfer. "Jag kan inte bara säga om de pratade om det X procent av tiden, vi fick dem. Det beror på många faktorer. Och många av dessa faktorer är branschspecifika, och vissa är företagsspecifika.
"[Det beror också på om] du är i en lågkonjunktur eller om du inte är i en lågkonjunktur. Likaså, om du är ett finansiellt företag kontra ett hälsovårdsföretag, eller ett telefonbolag kontra en ståltillverkare, [ämnena att leta efter] borde alla vara olika."
Du kan inte spela det du inte vet
Professor Crowley och hans medarbetare använde över 20 olika textbaserade variabler i sin prediktiva modell, inklusive användningen av Fog Index för läsbarhet.
Även om intuition skulle föreslå en lättläst 10-K för att vara transparent, Professor Crowley kontrar med att säga "det kan bero på att de utelämnade alla detaljer". Liknande, positiva känslor som de som uttrycks av Enron kan vara signaler om avsiktlig felrapportering, även om det är omöjligt att vara 100 procent säker.
"Det tar bara sex sekunder att köra igenom en 10-K med vår modell, " säger professor Crowley samtidigt som han noterar att SEC har antagit delar av hans modell för att avslöja avsiktlig felrapportering. Men frågan måste ställas:Kan företag som vill vilseleda marknaden studera algoritmen för att slå SEC i sitt eget spel?
"Det som är bra med den här algoritmen är att den ändras varje år, "utvecklar han, pekar på kombinationen av ord som utgör de ämnen som algoritmen arbetar med. "Företagen vet inte vad regulatorns mål skulle vara, även om de använder vår algoritm."
"Fördelen med det är att om du är ett företag som försöker manipulera, du vet inte heller vad målet är."