Kredit:Unsplash/CC0 Public Domain
För att hjälpa kämpande studenter innan det är för sent, fler och fler universitet använder sig av maskininlärningsmodeller för att identifiera studenter som riskerar att hoppa av.
Vilken information som går in i dessa modeller kan ha stor effekt på hur korrekta och rättvisa de är, särskilt när det gäller skyddade elevegenskaper som kön, ras och familjens inkomst. Men i en ny studie, den största revisionen av ett college AI-system hittills, forskare hittar inga bevis för att ta bort skyddade studentegenskaper från en modell förbättrar förutsägelsernas noggrannhet eller rättvisa.
Detta resultat kom som en överraskning för René Kizilcec, biträdande professor i informationsvetenskap och chef för Future of Learning Lab.
"Vi förväntade oss att ta bort sociodemografiska egenskaper skulle göra modellen mindre exakt, på grund av hur etablerade dessa egenskaper är vid studier av akademisk prestation, ", sa han. "Även om vi finner att lägga till dessa attribut inte ger någon empirisk fördel, vi rekommenderar att inkludera dem i modellen, eftersom det åtminstone erkänner förekomsten av utbildningsmässiga orättvisor som fortfarande är förknippade med dem."
Kizilcec är senior författare till "Ska förutsägelsemodeller för avhopp från college inkludera skyddade attribut?" att presenteras på den virtuella Association for Computing Machinery Conference on Learning at Scale, 22-25 juni. Verket har nominerats till konferensens pris för bästa papper.
Medförfattare är Future of Learning Lab-medlemmar Hannah Lee, en masterstudent inom området datavetenskap, och huvudförfattare Renzhe Yu, doktorand vid University of California, Irvine.
För detta arbete, Kizilcec och hans team undersökte data om studenter i både en högskolemiljö och ett helt onlineprogram. Institutionen i studien är ett stort offentligt universitet i sydvästra USA, som inte nämns i tidningen.
Genom att systematiskt jämföra prediktiva modeller med och utan skyddade attribut, forskarna syftade till att fastställa både hur inkluderingen av skyddade attribut påverkar noggrannheten i förutsägelser om avhopp från högskolor, och huruvida inkluderingen av skyddade attribut påverkar rättvisan i förutsägelser om avhopp från college.
Forskarnas datauppsättning var enorm:totalt 564, 104 privatkurser för 93, 457 unika studenter och 2, 877 unika kurser; och 81, 858 onlinekursrekord för 24, 198 unika studenter och 874 unika kurser.
Från datamängden, Kizilcecs team byggde 58 identifierande funktioner i fyra kategorier, inklusive fyra skyddade attribut – elevens kön; första generationens högskolestatus; medlem av en underrepresenterad minoritetsgrupp (definierad som varken asiatisk eller vit); och stort ekonomiskt behov. För att fastställa konsekvenserna av att använda skyddade attribut för att förutsäga avhopp, forskarna genererade två funktionsuppsättningar – en med skyddade attribut och en utan.
Deras huvudsakliga resultat:Att inkludera fyra viktiga skyddade attribut har inte någon signifikant effekt på tre vanliga mått på övergripande förutsägelseprestanda när vanliga funktioner används, inklusive akademiska rekord, finns redan i modellen.
"Det som är viktigt för att identifiera elever i riskzonen förklaras redan av andra egenskaper, " sa Kizilcec. "Skyddade attribut tillför inte mycket. Det kan finnas en könsskillnad eller en rasmässig klyfta, men dess samband med avhopp är försumbar jämfört med egenskaper som tidigare GPA."
Som sagt, Kizilcec och hans team förespråkar fortfarande för att inkludera skyddade attribut i prediktionsmodellering. De noterar att data från högre utbildning återspeglar långvariga orättvisor, och de citerar nyligen arbete i den bredare maskininlärningsgemenskapen som stöder begreppet "rättvisa genom medvetenhet."
"Det har funnits arbete som visar att hur vissa attribut, som akademisk rekord, påverka en elevs sannolikhet att fortsätta på college kan variera mellan olika skyddade attributgrupper, ", sa han. "Och så genom att inkludera elevegenskaper i modellen, vi kan ta hänsyn till denna variation mellan olika studentgrupper."
Författarna avslutade med att säga:"Vi hoppas att den här studien inspirerar fler forskare inom inlärningsanalys och pedagogiska datautvinningsgemenskaper att engagera sig i frågor om algoritmisk fördom och rättvisa i de modeller och system som de utvecklar och utvärderar."
Kizilcecs labb har arbetat mycket med algoritmisk rättvisa inom utbildning, vilket han sa är ett understuderat ämne.
"Det beror delvis på att algoritmerna [inom utbildning] inte är lika synliga, och de fungerar ofta på olika sätt jämfört med straffrätt eller medicin, " sa han. "Inom utbildning, det handlar inte om att skicka någon i fängelse, eller felaktigt diagnostiserats för cancer. Men för den enskilda eleven, det kan vara en stor sak att bli flaggad som i riskzonen."