AI-utvecklare släpper implementeringar med öppen källkod av ChatGPT-träningsalgoritmen

AI forskargrupper LION och CarperAI har publicerat OpenWizard och trlXöppen källkod implementeringar av Reinforcement Learning from Human Feedback (RLHF), algoritmen som används för att träna ChatGPT. Frilansande AI-utvecklare Phil Wang öppnade också en egen Genomförande av algoritmen.

LAION, Large-Scale Artificial Intelligence Open Network, är en ideell forskningsorganisation för maskininlärning som är dedikerad till att göra modeller, datauppsättningar och koder tillgängliga för allmänheten. AI. 2022 täckte InfoQ LAIONs release av LAION-5B, en AI-träningsdatauppsättning som innehåller över fem miljarder bild-text-par. LAIONs senaste projekt är OpenAssistant, som syftar till att “ge alla tillgång till en fantastisk chattbaserad språkmodell”. Den planerade MVP-implementeringen av OpenAssistant kommer att baseras på OpenAI:s InstructGPT-artikel: en datauppsättning av mänskligt genererade instruktioner, en datauppsättning av maskingenererade svar och deras mänskliga betyg, och en implementering av RLHF. Enligt LION:

Vi kommer inte att sluta med att replikera ChatGPT. Vi vill bygga framtidens assistent, som inte bara kan skriva e-postmeddelanden och personliga brev, utan också göra meningsfullt arbete, använda API:er, dynamiskt söka information och mycket mer, med möjligheten att anpassas och utökas av vem som helst. Och vi vill göra detta på ett öppet och tillgängligt sätt, vilket innebär att vi inte bara måste skapa en bra hjälpreda, utan också göra den liten och effektiv nog att köras på konsumenthårdvara.

CarperAI är ett nytt laboratorium inom EleutherAI forskargrupp, med uppgift “att förbättra prestandan och säkerheten för stora språkmodeller (LLM) med förstärkningsinlärning”. InfoQ täckte tidigare EleutherAI:s utveckling av en språkmodell med öppen källkod GPT-NeoX. I oktober 2022 tillkännagav laboratoriet en utbildnings- och spridningsprojekt modeller “inställda till instruktioner” med RLHF. Projektet är ett samarbete mellan flera organisationer, bl.a KramarFace, Klättraoch mänsklig loop. Som en del av detta projekt öppnade CarperAI Transformer Reinforcement Learning X (trlX), ett ramverk för att förfina HuggingFace-språkmodeller med RLHF.

Phil Wang, en artificiell intelligensutvecklare känd för sina implementeringar av öppen källkod av forskningsmodeller för djupinlärning som t.ex. Foto och Göra en videodelade hans pågående implementering av RLHF för handflatan språkmodell som kallas PaLM+RLHF. Wang konstaterar att det inte finns någon förutbildad modell, bara ett ramverk för användare att träna sina egna. Han rekommenderar också användare som är intresserade av att replikera ChatGPT att gå med i LAION discord kanal.

Även om dessa öppen källkodsprojekt inkluderar implementeringar av ChatGPTs träningsmetoder, har de för närvarande inga utbildade modeller. Wangs projekt FAQ antyder att utbildningen kan kräva “miljoner datorer + datadollar” för att genomföras. av LAION färdplan for OpenAssistant listar insatser för att samla in data och träna modeller, men anger inte tydligt när tränade modeller kan släppas. CarperAI Twitter-konto Noterat:

Vi har inte officiellt släppt några RLHF-modeller än, bara några små försök att replikera hh-RLHF, lära sig att summera, etc. i vår oenighet. Vi kan matcha resultatet som rapporteras i respektive artiklar om detta.

Flera framstående medlemmar av AI-communityn diskuterade dessa ansträngningar på sociala medier. På Twitter, Julien Chaumond, teknisk chef för HuggingFace förutspått att det om sex månader kommer att finnas “10 öppna reproduktioner av ChatGPT”. Sebastian Raschka, artificiell intelligensforskare svarade:

Överens om, det kommer att finnas många implementeringar av öppen källkod av ChatGPT. Men det blir inte många högkvalitativa modeller. Jag tror att vi underskattar hur mycket folk hatar att märka (eller ännu värre: att skriva ner) träningsdata för hand.

StabilityAI-grundaren Emad Mostaque twittrade det hans företag “jobbar på öppen chatGPT”. Han sa också:

Den svåraste delen med att skapa öppen chatGPT (bortsett från miljontals dollar för RL-biten) är förvaltningsaspekten… Det som är bra är att när all blodsvett och blodtårar har lagts ner på att skapa mallarna och ramarna, kan de föröka sig som en galning som en ny sorts primitiv dev.

Källkoden till OpenWizard, trlXoch PALM + RLHF är alla tillgängliga på GitHub.

Leave a Comment