Kredit:CC0 Public Domain
Finansmarknaderna är bland de mest välstuderade och noggrant övervakade komplexa systemen som finns. Denna rika litteratur om marknadsmodellering och analys har lett till många viktiga innovationer, såsom automatiserade verktyg för att upptäcka marknadsmanipulation. Men det finns fortfarande en stor klyfta mellan dagens toppmoderna och de kraftfulla insikter som behövs för att till fullo förstå de komplexa dimensionerna av marknadsbeteende.
I sista hand, dessa modeller behöver enorma mängder data – utöver till och med vad som produceras från riktiga lagerordrar. Verkliga aktieorderdata erbjuder forskare endast en begränsad historisk syn på det beteende marknaden kan uppvisa. Modeller kräver också hypotetiska scenarier och förgreningsmöjligheter för att informera djupare forskning.
Ett team vid University of Michigan har gett ett svar på detta behov i form av automatiskt genererade, falska data. Laget, ledd av Lynn A. Conway professor i datavetenskap och teknik Michael Wellman, föreslår ett tillvägagångssätt för att generera realistisk och högtrogen aktiemarknadsdata baserad på en djupinlärningsteknik som kallas generativa motstridiga nätverk (GAN). De resulterande syntetiska orderströmmarna öppnar många dörrar för finansforskare i behov av enorma datauppsättningar för att studera de komplexa orsaks- och verkansförhållandena som utspelar sig varje dag på verkliga marknader.
I ett nötskal, GAN:er fungerar genom att placera två inlärningsmodeller mot varandra, den ena kallade "generatorn" och den andra "diskriminatorn". De två verkar i ett konkurrensförhållande, där generatorn lär sig hur man spottar ut syntetisk data baserat på vad den matas, medan diskriminatorn lär sig att se skillnaden mellan de verkliga och falska dataströmmarna.
När diskriminatorn blir bättre på att fånga förfalskningar, generatorn blir bättre på att göra sina förfalskningar mer övertygande. Slutresultatet är en generator som kan efterlikna måldatauppsättningarna mycket nära; I detta fall, lagerorderströmmar.
Kallas Stock-GAN, instansen som användes av Michigan-teamet tränades på två typer av datamängder bestående av aktieordrar:en från en agentbaserad marknadssimulator och en annan från en riktig aktiemarknad. De utvärderade sin genererade data med hjälp av en mängd olika statistik, såsom fördelningen av pris och kvantitet av beställningar, mellan ankomsttider för beställningar, och utvecklingen av det bästa budet och bästa fråga över tiden. Resultaten visade att deras genererade data nära överensstämde med motsvarande statistik i verklig data, för både simulerade och verkliga marknader.
Även om detta arbete bara är ett första steg mot att generera realistiska orderströmmar, säger Xintong Wang, en Ph.D. elev i laget, "att utföra denna uppgift kan hjälpa till att förbereda datauppsättningar som kan göra andra uppgifter möjliga."
Särskilt, nya maskininlärningsalgoritmer som är specialiserade på automatiserad handel kan tränas och valideras på de genererade datamängderna, och automatisk avvikelsedetektering kan göras möjlig genom att jämföra genererad data med den faktiska marknaden.
Som Wang uttrycker det, detta system tillåter i huvudsak finansforskare att genomföra alt-historia, eller kontrafaktisk, forskning – en teknik som inte är möjlig när den är begränsad till strömmar av verklig ordning.
"Verklig, historiska marknadsdata kan ses som en slut på många möjliga resultat realiserade av naturen, " förklarar hon, "och Stock-GAN kan generera många fler till låg kostnad."
Förutom att förändra historien, fullständigt realiserade syntetiska aktiedata kan också hjälpa finansforskare att utforska hypotetiska scenarier, infoga specifika data i ordningsströmmar och observera de resulterande permutationerna av framtida data.
"Detta tillåter oss i princip att injicera händelser i systemet och observera en kontrafaktisk utveckling av marknaden, "Wang säger, "vilket är något vi aldrig kan få ut av observationsdata direkt."
Förutom att upptäcka bedrägligt eller manipulativt beteende, modeller som utbildats på dessa data kan ge forskare insikt i de olika typerna av legitim handelspraxis som utövas på marknader och vilka resultat de ger.
"Vi skulle vilja kunna mer allmänt ta reda på vilka typer av strategier handlare använder, " säger Wellman. "Med den kunskapen, vi kan avgöra när en orderström innehåller vissa strategier."
Forskarna noterar också att att driva finansiell forskning på syntetisk data övervinner integritets- och säkerhetsproblemen som är förknippade med publicering av riktiga handelsdata.
"Övergripande, " skriver författarna, "vårt arbete ger grogrund för framtida forskning i skärningspunkten mellan djupt lärande och finans."
Denna forskning publicerades i tidningen "Generating Realistic Stock Market Order Streams" vid 2020 Association for the Advancement of Artificial Intelligence (AAAI) Conference.