Upphovsman:CC0 Public Domain
Tekniken rör sig i stora steg, och med det, den information som samhället arbetar dagligen med. Ändå, datamängden måste organiseras, analyseras och korreleras för att förutsäga vissa mönster. Detta är en av huvudfunktionerna för det som kallas Big Data.
Forskare i KIDS -forskargruppen från University of Cordobas institution för datavetenskap och numerisk analys kunde förbättra modellerna som förutsäger flera variabler samtidigt baserat på samma uppsättning inputvariabler, vilket minskar storleken på data som krävs för en korrekt prognos. Ett exempel på detta är en metod som förutsäger flera parametrar relaterade till markkvalitet baserat på en uppsättning variabler som grödor planterade, jordbearbetning och användning av bekämpningsmedel.
"När du har att göra med en stor datamängd, det finns två lösningar. Antingen ökar du datorns prestanda, vilket är väldigt dyrt, eller du minskar mängden information som behövs för att processen ska kunna utföras korrekt, säger forskaren Sebastian Ventura, en av författarna till forskningsartikeln.
När du bygger en förutsägbar modell, tillförlitliga resultat beror på två frågor:antalet variabler som spelar in och antalet exempel som matas in i systemet. Med tanken att mindre är mer, studien har kunnat minska antalet exempel genom att eliminera dem som är överflödiga eller "bullriga, "och som därför inte bidrar med någon användbar information för att skapa en bättre förutsägbar modell.
Som Oscar Reyes, forskningens huvudförfattare, påpekar "vi har utvecklat en teknik som kan berätta vilken uppsättning exempel du behöver så att prognosen inte bara är tillförlitlig utan till och med kan bli bättre." I vissa databaser, av de 18 som analyserades, de kunde minska mängden information med 80 procent utan att påverka förutsägbar prestanda, vilket betyder att mindre än hälften av de ursprungliga uppgifterna användes. Allt av det här, säger Reyes, "betyder att spara energi och pengar i byggandet av en modell, eftersom mindre datorkraft krävs. "Dessutom det innebär också att spara tid, vilket är intressant för applikationer som fungerar i realtid, eftersom "det inte är vettigt för en modell att ta en halvtimme att köra om du behöver en förutsägelse var femte minut."
System som förutsäger flera relaterade variabler samtidigt, känd som multi-output regressionsmodeller, får allt större betydelse på grund av det stora utbud av applikationer som kan analyseras under detta paradigm av automatisk inlärning, som de som rör hälso- och sjukvård, vattenkvalitet, kylsystem för byggnader och miljöstudier.