Ett av de viktigaste försvaret som används av dem som är optimistiska om AI-konstgeneratorer är att även om modellerna tränas på befintliga bilder är allt de skapar nytt. AI-evangelister ofta jämför dessa system med riktiga artister. Kreativa är inspirerade av alla som kom före dem, så varför kan inte AI framkalla tidigare arbete på samma sätt?
Ny forskning skulle kunna sätta en dämpare på detta argument och kan till och med bli ett stort problem flera pågående rättsprocesser angående AI-genererat innehåll och upphovsrätt. Forskare från industri och akademi har funnit att de mest populära och kommande AI-bildgeneratorerna kan “komma ihåg” bilder från den data de är utbildade på. Istället för att skapa något helt nytt, kommer vissa uppmaningar att tvinga AI:n att helt enkelt reproducera en bild. Vissa av dessa återskapade bilder kan vara upphovsrättsskyddade. Men ännu värre, moderna generativa AI-modeller har förmågan att memorera och reproducera känslig information som hämtas för användning i en AI-träningsset.
Studien genomfördes av forskare inom teknikindustrin, framför allt Google och DeepMind och vid universitet som Berkeley och Princeton. Samma team arbetade på en tidigare studie som identifierade ett liknande problem med AI-språkmodeller, särskilt GPT2, föregångaren till OpenAI Utomordentligt populär ChatGPT. Genom att sammanföra gruppen upptäckte forskare under ledning av Google Brain-forskaren Nicholas Carlini att Googles Imagen och den populära öppen källkod Stable Diffusion kunde reproducera bilder, av vilka några hade uppenbara antiupphovsrättsliga implikationer eller bildlicenser.
Den första bilden i denna tweet genererades med hjälp av bildtexten som listas i datasetet för Stable Diffusion, den skrapade bilddatabasen med flera terabyte känd som LAION. Teamet matade in bildtexten i Stable Diffusion-prompten och kom ut med exakt samma bild, om än något förvrängd av digitalt brus. Processen att hitta dessa dubbletter av bilder var relativt enkel. Teamet körde samma prompt flera gånger, och efter att ha fått samma resulterande bild kontrollerade forskarna manuellt om bilden fanns i träningsuppsättningen.
G/O Media kan få provision
Två av tidningens forskare, Eric Wallace, doktorand vid UC Berkeley, och Vikash Sehwag, doktorand vid Princeton University, sa till Gizmodo i en Zoom-intervju att bilddubblering var sällsynt. Deras team provade cirka 300 000 olika undertexter och hittade bara en återkallningsfrekvens på 0,03 %. Kopierade bilder var ännu sällsynta för modeller som Stable Diffusion som arbetade för att deduplicera bilder i sin träningsuppsättning, även om i slutändan alla diffusionsmodeller kommer att ha samma problem, i mer eller mindre grad höga. Forskarna fann att Imagen var perfekt kapabel att memorera bilder som bara fanns en gång i datamängden.
“Varningen här är att modellen är tänkt att generalisera, den är tänkt att generera nya bilder snarare än att spotta ut en memorerad version,” sa Sehwag.
Deras forskning visade att när AI-systemen själva blir större och mer sofistikerade, är det mer sannolikt att AI genererar kopierat material. En mindre modell som Stable Diffusion har helt enkelt inte samma mängd lagringsutrymme för att lagra det mesta av träningsdata. Den där kan förändras mycket under de närmaste åren.
“Kanske nästa år, oavsett vad den nya modellen är mycket större och mycket kraftfullare, så skulle potentiellt dessa typer av memoreringsrisker vara mycket högre än de är nu,” sa Wallace.
Genom en komplicerad process att förstöra träningsdata med brus innan man tar bort samma distorsion, skapar diffusionsbaserade maskininlärningsmodeller data, i det här fallet bilder, liknande de som de har skapats på. Diffusionsmodeller var en utveckling av generativa kontradiktoriska nätverk eller GAN-baserad maskininlärning.
Forskare har funnit att GAN-baserade modeller inte har samma problem med bildbevarande, men stora företag kommer sannolikt inte att gå längre än Diffusion om inte en ännu mer sofistikerad maskininlärningsmodell bara producerar ännu mer realistiska och högkvalitativa bilder.
Florian Tramèr, professor i datavetenskap vid ETH Zürich som deltog i forskningen, noterade hur många AI-företag som råder användare, både de av gratis- och betalversionerna, att skaffa en licens att dela eller till och med tjäna pengar på det AI-genererade innehållet. AI-företagen förbehåller sig också en del av rättigheterna till dessa bilder. Detta kan vara ett problem om AI genererar en bild som är exakt samma som en befintlig upphovsrätt.
Med endast en memoreringsgrad på 0,03 % kunde AI-utvecklare titta på denna studie och fastställa att det inte finns någon stor risk. Företag kan arbeta för att deduplicera bilder i träningsdata, vilket gör dem mindre benägna att memorera. Helvete, de kunde till och med utveckla AI-system som skulle upptäcka om en bild är en direkt kopia av en bild i träningsdatan och flagga den för radering. Detta maskerar dock den totala integritetsrisken som generativ AI utgör. Även Carlini och Tramèr deltog i en annan artikel nyligen som hävdade att även försök att filtrera data fortfarande inte hindrar träningsdata från att läcka genom modellen.
Och visst är risken stor att bilder som ingen vill ska kopieras hamnar på användarnas skärmar. Wallace frågade om en forskare ville generera en hel serie syntetiska medicinska data om till exempel människors röntgenstrålar. Vad ska hända om en sändningsbaserad AI memorerar och replikerar en persons faktiska journaler?
“Det är ganska sällsynt, så du kanske inte märker att det händer först, och sedan kan du distribuera den datamängden till webben,” sa UC Berkeley-studenten. “Hela poängen med det här arbetet är att typ förutse vilka typer av möjliga misstag som människor kan göra.”