Kredit:Pixabay/CC0 Public Domain
Föreställ dig ett team av läkare som använder ett neuralt nätverk för att upptäcka cancer i mammografibilder. Även om den här maskininlärningsmodellen verkar fungera bra, kan den fokusera på bildegenskaper som av misstag korreleras med tumörer, som en vattenstämpel eller tidsstämpel, snarare än faktiska tecken på tumörer.
För att testa dessa modeller använder forskare "feature-attribution methods", tekniker som är tänkta att berätta för dem vilka delar av bilden som är de viktigaste för det neurala nätverkets förutsägelse. Men vad händer om tillskrivningsmetoden missar funktioner som är viktiga för modellen? Eftersom forskarna inte vet vilka funktioner som är viktiga till att börja med har de ingen möjlighet att veta att deras utvärderingsmetod inte är effektiv.
För att hjälpa till att lösa detta problem har MIT-forskare utarbetat en process för att modifiera originaldata så att de kommer att vara säkra på vilka funktioner som faktiskt är viktiga för modellen. Sedan använder de denna modifierade datamängd för att utvärdera huruvida funktionstillskrivningsmetoder kan identifiera dessa viktiga funktioner korrekt.
De upptäcker att även de mest populära metoderna ofta missar de viktiga funktionerna i en bild, och vissa metoder lyckas knappt prestera så bra som en slumpmässig baslinje. Detta kan få stora konsekvenser, särskilt om neurala nätverk används i situationer med hög insats som medicinska diagnoser. Om nätverket inte fungerar som det ska och försöken att fånga sådana anomalier inte heller fungerar korrekt, kanske mänskliga experter inte har någon aning om att de är vilseledda av den felaktiga modellen, förklarar huvudförfattaren Yilun Zhou, en doktorand i elektroteknik och datavetenskap. i datavetenskap och artificiell intelligens Laboratory (CSAIL).
"Alla dessa metoder används mycket ofta, särskilt i vissa scenarier med mycket hög insats, som att upptäcka cancer från röntgenstrålar eller datortomografi. Men dessa funktionstillskrivningsmetoder kan vara fel i första hand. De kan lyfta fram något som gör det" t motsvarar den sanna egenskap som modellen använder för att göra en förutsägelse, vilket vi ofta fann vara fallet. Om du vill använda dessa funktionstillskrivningsmetoder för att motivera att en modell fungerar korrekt, säkerställer du bättre egenskapstillskrivningen metoden i sig fungerar korrekt i första hand, säger han.
Zhou skrev uppsatsen tillsammans med EECS-doktoranden Serena Booth, Microsoft Research-forskaren Marco Tulio Ribeiro och seniorförfattaren Julie Shah, som är MIT-professor i flygteknik och astronautik och chef för Interactive Robotics Group i CSAIL.
Fokusera på funktioner
I bildklassificering är varje pixel i en bild en funktion som det neurala nätverket kan använda för att göra förutsägelser, så det finns bokstavligen miljontals möjliga funktioner som det kan fokusera på. Om forskare vill designa en algoritm för att hjälpa blivande fotografer att förbättra sig, kan de till exempel träna en modell för att skilja bilder tagna av professionella fotografer från bilder tagna av tillfälliga turister. Denna modell kan användas för att bedöma hur mycket amatörbilderna liknar de professionella, och till och med ge specifik feedback om förbättringar. Forskare skulle vilja att denna modell fokuserar på att identifiera konstnärliga element i professionella foton under träning, såsom färgrymd, komposition och efterbearbetning. Men det råkar vara så att ett professionellt fotograferat foto sannolikt innehåller ett vattenmärke av fotografens namn, medan få turistbilder har det, så modellen kunde bara ta genvägen för att hitta vattenstämpeln.
"Självklart vill vi inte berätta för blivande fotografer att ett vattenstämpel är allt du behöver för en framgångsrik karriär, så vi vill se till att vår modell fokuserar på de konstnärliga dragen istället för närvaron av vattenstämpeln. Det är frestande att använda funktioner. tillskrivningsmetoder för att analysera vår modell, men i slutändan finns det ingen garanti för att de fungerar korrekt, eftersom modellen kan använda konstnärliga drag, vattenstämpeln eller andra kännetecken, säger Zhou.
"Vi vet inte vad de falska sambanden i datasetet är. Det kan finnas så många olika saker som kan vara helt omärkliga för en person, som upplösningen på en bild," tillägger Booth. "Även om det inte är märkbart för oss, kan ett neuralt nätverk sannolikt dra ut dessa funktioner och använda dem för att klassificera. Det är det underliggande problemet. Vi förstår inte våra datauppsättningar så bra, men det är också omöjligt att förstå våra datauppsättningar så bra."
Forskarna modifierade datamängden för att försvaga alla korrelationer mellan originalbilden och dataetiketterna, vilket garanterar att ingen av de ursprungliga funktionerna kommer att vara viktiga längre.
Sedan lägger de till en ny funktion till bilden som är så uppenbar att det neurala nätverket måste fokusera på den för att göra sin förutsägelse, som ljusa rektanglar i olika färger för olika bildklasser.
"Vi kan med tillförsikt hävda att varje modell som uppnår riktigt högt förtroende måste fokusera på den färgade rektangeln som vi lägger in. Sedan kan vi se om alla dessa funktionstillskrivningsmetoder skyndar sig att lyfta fram den platsen snarare än allt annat", säger Zhou.
Särskilt alarmerande resultat
De tillämpade denna teknik på ett antal olika funktionstillskrivningsmetoder. För bildklassificeringar producerar dessa metoder en så kallad saliency-karta, som visar koncentrationen av viktiga egenskaper spridda över hela bilden. Till exempel, om det neurala nätverket klassificerar bilder av fåglar, kan framträdande kartan visa att 80 procent av de viktiga funktionerna är koncentrerade runt fågelns näbb.
Efter att ha tagit bort alla korrelationer i bilddata manipulerade de bilderna på flera sätt, som att göra delar av bilden suddiga, justera ljusstyrkan eller lägga till en vattenstämpel. Om funktionstillskrivningsmetoden fungerar korrekt bör nästan 100 procent av de viktiga funktionerna finnas runt området som forskarna manipulerade.
Resultaten var inte uppmuntrande. Ingen av metoderna för funktionstillskrivning kom i närheten av målet på 100 procent, de flesta nådde knappt en slumpmässig baslinjenivå på 50 procent, och vissa presterade till och med sämre än baslinjen i vissa fall. Så även om den nya funktionen är den enda som modellen kan använda för att göra en förutsägelse, lyckas ibland inte funktionen att tillskriva det.
"None of these methods seem to be very reliable, across all different types of spurious correlations. This is especially alarming because, in natural datasets, we don't know which of those spurious correlations might apply," Zhou says. "It could be all sorts of factors. We thought that we could trust these methods to tell us, but in our experiment, it seems really hard to trust them."
All feature-attribution methods they studied were better at detecting an anomaly than the absence of an anomaly. In other words, these methods could find a watermark more easily than they could identify that an image does not contain a watermark. So, in this case, it would be more difficult for humans to trust a model that gives a negative prediction.
The team's work shows that it is critical to test feature-attribution methods before applying them to a real-world model, especially in high-stakes situations.
"Researchers and practitioners may employ explanation techniques like feature-attribution methods to engender a person's trust in a model, but that trust is not founded unless the explanation technique is first rigorously evaluated," Shah says. "An explanation technique may be used to help calibrate a person's trust in a model, but it is equally important to calibrate a person's trust in the explanations of the model."
Moving forward, the researchers want to use their evaluation procedure to study more subtle or realistic features that could lead to spurious correlations. Another area of work they want to explore is helping humans understand saliency maps so they can make better decisions based on a neural network's predictions.