Kredit:CC0 Public Domain
Prediktiv modellering av mycket stora datamängder, som miljömätningar, över ett brett område kan vara en mycket beräkningsintensiv övning. Dessa beräkningskrav kan reduceras avsevärt genom att tillämpa olika approximationer, men till vilken kostnad för noggrannheten? KAUST-forskare har nu utvecklat statistiska verktyg som hjälper till att ta bort gissningar från denna approximationsprocess.
"I rumslig statistik, det är extremt tidskrävande att anpassa en standardprocessmodell till stora datamängder med de mest exakta sannolikhetsbaserade metoderna, säger Yiping Hong, som ledde forskningen. "Approximationsmetoder kan minska beräkningstiden och beräkningsresurserna avsevärt."
Istället för att modellera förhållandet mellan varje observationspar explicit med hjälp av en standardprocessmodell, Approximationsmetoder försöker använda en alternativ modelleringsstruktur för att beskriva sambanden i data. Detta tillvägagångssätt är mindre exakt men mer beräkningsvänligt. Uppskattningsmetoden för kakel lågranking (TLR) utvecklad av KAUST, till exempel, tillämpar en blockvis approximation för att minska beräkningstiden.
"Således, man måste bestämma några inställningsparametrar, t.ex. hur många block som ska delas och precisionen för blockuppskattningen, " säger Hong. "För detta, vi utvecklade tre kriterier för att bedöma förlusten av förutsägelseeffektivitet, eller förlust av information, när modellen är ungefärlig."
Med brist på informativa åtgärder för att utvärdera effekten av approximation, Hong, tillsammans med beräkningsforskaren Sameh Abdulah och statistikerna Marc Genton och Ying Sun, utvecklat sina egna. De tre måtten - den genomsnittliga effektivitetsförlusten, medelfelspecifikationen och ett kvadratiskt medelvärde för medelfelspecifikationen – ger tillsammans insikt i "passningen" av approximationsparametrarna till datamängden, inklusive förutsägelsevariabilitet, och inte bara den punkt-för-punkt-utvärdering som ges av konventionella förutsägelsekriterier.
"Vi kan använda våra kriterier för att jämföra prediktionsprestandan för TLR-metoden med olika inställningsparametrar, som låter oss föreslå de bästa parametrarna att använda, säger Hong.
Teamet tillämpade metoden på en riktig datauppsättning av högupplösta markfuktighetsmätningar i Mississippi Basin. Genom att justera inställningsparametrar med de nya måtten, TLR-approximationen gav uppskattningar som ligger mycket nära de exakta maximala sannolikhetsuppskattningarna, med betydligt kortare beräkningstid.
"Våra kriterier, som utvecklades för att välja inställningsparametern för TLR, kan också användas för att ställa in andra approximationsmetoder, " säger Hong. "Vi planerar nu att jämföra prestandan för andra approximationsmetoder som utvecklats för stora rumsliga datamängder, som kommer att ge värdefull vägledning för analys av verkliga data."