• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  •  science >> Vetenskap >  >> Andra
    Enkel statistik kan vara bra nog

    Gaussiska distributioner är enkla och lätta att förstå, men för vissa data som nederbörd och vindhastighet, de kan resultera i fysiskt omöjliga svansar till negativa värden. Kredit:Marek Uliasz / Alamy Arkivfoto

    En studie av bristande överensstämmelse mellan rumsliga miljödata och en vanlig statistisk analys tyder på att enklare statistik är tillräcklig i många fall.

    Miljövetare och deras statistikerkollegor står inför ett vanligt dilemma:Karakteriserar enklare statistiska tester en datauppsättning korrekt? Och är det värt ansträngningen att härleda och tillämpa statistiska metoder som möjligen är bättre matchade men svårare att tolka? I de flesta fall vinner vägen för minsta motstånd, men valet av en enkel statistisk grund kan kasta ett litet tvivel om giltigheten av statistiskt härledda studieresultat.

    KAUST-forskaren Marc Genton och hans doktorand Yuan Yan utvecklade ett ramverk för att testa exakt hur inexakt en missmatchning mellan data och statistisk analys kan vara, och resultaten är överraskande.

    "Forskare tenderar att anpassa rumsliga data med en enkel Gaussisk modell - den klassiska symmetriska klockkurvan runt medelvärdet - även om data kan ha en asymmetrisk fördelning med egenskaper som avviker från Gaussiska, " säger Yan. "Vi undersökte effekten av datas 'icke-Gaussianitet' på statistisk uppskattning och förutsägelse under fel gaussiskt antagande."

    Gaussiska distributioner är i allmänhet intuitiva, med ett medelvärde och standardavvikelser från genomsnittet som innebär någon snäv eller bred fördelning av data. De är allmänt tillämpade och förstådda, både ur ett praktikerperspektiv och för icke-tekniska användare. Men, i många situationer, särskilt för miljödata, fördelningen av data är skev. Vindhastighet och nederbörd, till exempel, får inte vara mindre än noll, ändå kan en Gauss-fördelning med ett litet medelvärde men utökad fördelning till högre värden ha en svans i den nedre änden som sträcker sig till negativa värden – helt klart fel, men med hur mycket?

    Ett av de viktigaste begreppen i rumsliga statistiska analyser är hur starkt data påverkar varandra på ett visst avstånd, som ges av vad som kallas kovariansfunktionen. Genton och Yan satte sig för att systematiskt studera effekten av att tillämpa en Gaussmodell för att uppskatta kovariansfunktionen för icke-Gaussisk data.

    "Vi utvecklade ett skräddarsytt simuleringsschema för att generera icke-Gaussisk rumslig data med en given kovariansstruktur, " säger Genton. "Vi visade genom vår simuleringsstudie att när rumsliga data är icke-Gaussiska, den Gaussiska sannolikhetsestimatorn för kovariansparametrar presterar fortfarande bättre än en alternativ viktad minsta-kvadrat-estimator för data som inte är kraftigt skeva."

    Fyndet tyder på att den enkla gaussiska modellen faktiskt generellt sett är tillräcklig för parameteruppskattning för rumslig data i många fall, erbjuda lite tröst till rumsliga forskare om deras val av statistisk metod.


    © Vetenskap https://sv.scienceaq.com