Med tanke på bilden till vänster, två studiedeltagare gjorde rekonstruktionen till höger. Folk föredrog sin rekonstruktion framför bilden i mitten, en högkomprimerad version av originalet med en filstorlek som motsvarar mängden data som deltagarna använde för att göra sin rekonstruktion. Upphovsman:Ashutosh Bhown, Soham Mukherjee och Sean Yang
Din vän sms:ar dig ett foto av hunden som hon ska adoptera men allt du ser är en solbränna, vagt djurformat dis av pixlar. För att få en större bild, hon skickar länken till hundens adoptionsprofil eftersom hon är orolig för sin datagräns. Ett klick och din skärm fylls med mycket mer tillfredsställande beskrivningar och bilder på hennes blivande bästa vän.
Att skicka en länk istället för att ladda upp en massiv bild är bara ett trick som människor använder för att förmedla information utan att bränna igenom data. Faktiskt, dessa tricks kan inspirera en helt ny klass av bildkomprimeringsalgoritmer, enligt forskning från ett team av Stanford University -ingenjörer och gymnasieelever.
Forskarna bad människor att jämföra bilder som producerats av en traditionell komprimeringsalgoritm som krymper enorma bilder till pixilerade oskärpa till de som skapats av människor under databegränsade förhållanden-endast text-kommunikation, som kan innehålla länkar till offentliga bilder. I många fall, produkterna för bilddelning med människa drivs mer tillfredsställande än algoritmens arbete. Forskarna kommer att presentera sitt arbete den 28 mars vid datakomprimeringskonferensen 2019.
"Nästan varje bildkompressor vi har idag utvärderas med hjälp av mätvärden som inte nödvändigtvis representerar vad människor värderar i en bild, "sade Irena Fischer-Hwang, en doktorand i elektroteknik och medförfattare till uppsatsen. "Det visar sig att våra algoritmer har en lång väg att gå och kan lära sig mycket av hur människor delar information."
Projektet resulterade i ett samarbete mellan forskare under ledning av Tsachy Weissman, professor i elektroteknik, och tre gymnasieelever som praktiserade i hans labb.
"Ärligt, vi kom in i detta samarbete för att ge studenterna något som inte skulle distrahera alltför mycket från pågående forskning, "sa Weissman." Men de ville göra mer, och att chutzpah ledde till en uppsats och en helt ny forskningsinsats för gruppen. Det här kan mycket väl bli bland de mest spännande projekten jag någonsin varit med om. "
En mindre förlustbild
Konvertera bilder till ett komprimerat format, som en JPEG, gör dem betydligt mindre, men tappar lite detaljer - denna form av konvertering kallas ofta "lossy" av den anledningen. Den resulterande bilden är av lägre kvalitet eftersom algoritmen måste offra detaljer om färg och luminans för att konsumera mindre data. Även om algoritmerna behåller tillräckligt med detaljer för de flesta fall, Weissmans praktikanter trodde att de kunde göra det bättre.
I deras experiment, två elever arbetade på distans tillsammans för att återskapa bilder med hjälp av gratis fotoredigeringsprogram och offentliga bilder från internet. En person i paret hade referensbilden och vägledde den andra personen i rekonstruktionen av fotot. Båda människorna kunde se rekonstruktionen pågår men beskrivaren kunde bara kommunicera över text medan han lyssnade på sin partner som talade.
Den slutliga filstorleken för den rekonstruerade bilden var den komprimerade storleken på textmeddelandena som skickades av beskrivaren eftersom det är vad som skulle krävas för att återskapa den bilden. (Gruppen inkluderade inte ljudinformation.)
Eleverna ställde sedan de mänskliga rekonstruktionerna mot maskinkomprimerade bilder med filstorlekar som motsvarade dem för rekonstruktionstextfiler. Så, om ett mänskligt team skapade en bild med bara 2 kilobytes text, de komprimerade originalfilen till samma storlek. Med tillgång till originalbilderna, 100 personer utanför experimenten betygsatte den mänskliga rekonstruktionen bättre än den maskinbaserade komprimeringen på 10 av 13 bilder.
Suddiga ansikten OK
När originalbilderna passade nära offentliga bilder på internet, som en gatukorsning, de konstgjorda rekonstruktionerna fungerade särskilt bra. Även rekonstruktionerna som kombinerade olika bilder gjorde ofta bra, utom i fall som innehöll mänskliga ansikten. Forskarna bad inte sina domare att förklara sin rangordning, men de har några idéer om skillnaderna de fann.
"I vissa scenarier, som naturscener, folk hade inget emot om träden var lite annorlunda eller om giraffen var en annan giraff. De brydde sig mer om att bilden inte var suddig, vilket betyder att traditionell kompression rankas lägre, "sade Shubham Chandak, en doktorand i Weissmans grupp och medförfattare till uppsatsen. "Men för mänskliga ansikten, människor skulle hellre ha samma ansikte även om det är suddigt. "
Denna uppenbara svaghet i den människobaserade bilddelningen skulle förbättras när fler laddar upp bilder av sig själva till internet. Forskarna samarbetar också med en polisskissartist för att se hur hans expertis kan göra skillnad. Även om detta arbete visar värdet av mänsklig input, forskarna skulle så småningom försöka automatisera processen.
"Maskininlärning arbetar med bitar och delar av detta, och förhoppningsvis kan vi få dem att arbeta tillsammans snart, "sa Kedar Tatwawadi, en doktorand i Weissmans grupp och medförfattare till uppsatsen. "Det verkar som om en praktisk kompressor som arbetar med denna typ av ideologi inte är särskilt långt borta."
Ringer alla studenter
Weissman betonade värdet av gymnasieelevernas bidrag, även bortom detta papper.
"Tiotals om inte hundratusentals arbetskraftstimmar gick till att utforma en algoritm som tre gymnasieelever kom och sparkade i rumpan, "sa Weissman." Det är ödmjukt att tänka på hur långt vi är i vår teknik. "
På grund av framgången med detta samarbete, Weissman har skapat ett formellt sommarpraktikprogram i sitt labb för gymnasieelever. Föreställer mig hur en konstnär eller studenter som är intresserade av psykologi eller neurovetenskap kan bidra till detta arbete, han är särskilt angelägen om att få elever med olika intressen och bakgrund.