Vytváření videa z textu

„Sora je model umělé inteligence, který dokáže z textových pokynů vytvářet realistické a imaginativní scény.

Všechna videa na této stránce byla vygenerována přímo Sorou bez úprav.

Učíme umělou inteligenci rozumět a simulovat fyzický svět v pohybu s cílem trénovat modely, které pomáhají lidem řešit problémy vyžadující interakci s reálným světem.

Představujeme Soru, náš model pro převod textu na video. Sora dokáže generovat videa až do délky jedné minuty, přičemž si zachovává vizuální kvalitu a věrnost zadání uživatele.

Dnes se Sora stává dostupnou pro red teamery k posouzení kritických oblastí pro potenciální škody nebo rizika. Zároveň poskytujeme přístup několika vizuálním umělcům, designérům a filmařům, abychom získali zpětnou vazbu, jak model dále rozvíjet, aby byl co nejprospěšnější pro kreativní profesionály.

Svoje výzkumné pokroky sdílíme již v rané fázi, abychom mohli začít spolupracovat a získávat zpětnou vazbu od lidí mimo OpenAI a dát veřejnosti představu o tom, jaké schopnosti AI jsou na obzoru.

Sora dokáže generovat složité scény s více postavami, konkrétními typy pohybu a přesnými detaily předmětu a pozadí. Model nejenže rozumí tomu, co uživatel požaduje v zadání, ale také tomu, jak tyto věci existují ve fyzickém světě.

Model má hluboké porozumění jazyku, což mu umožňuje přesně interpretovat zadání a generovat přesvědčivé postavy, které vyjadřují živé emoce. Sora také dokáže v jednom vygenerovaném videu vytvořit více záběrů, které přesně zachovávají postavy a vizuální styl.

Současný model má své slabiny. Může mít problémy s přesnou simulací fyziky složité scény a nemusí rozumět konkrétním případům příčiny a následku. Například, osoba si může vzít sousto z cookie, ale poté nemusí být na cookie vidět žádná stopy po soustu.

Model také může zaměňovat prostorové detaily zadání, například měnit levo a pravo, a může mít problémy s přesnými popisy událostí, které se odehrávají v čase, jako je sledování konkrétní trajektorie kamery.“

zdroj: openai.com/sora, překlad: chat.openai.com

Bezpečnost

„Před zpřístupněním Sory v produktech OpenAI podnikneme několik důležitých bezpečnostních kroků. Spolupracujeme s red teamery – odborníky v oblastech, jako je dezinformace, nenávistný obsah a předsudky – kteří budou model testovat v nepřátelském prostředí.

Rovněž vyvíjíme nástroje, které pomohou odhalovat zavádějící obsah, jako je detekční klasifikátor, který dokáže rozpoznat, kdy bylo video vygenerováno Sorou. Plánujeme v budoucnu zahrnout metadata C2PA, pokud model nasadíme v produktu OpenAI.

Kromě vývoje nových technik připravujících na nasazení využíváme také stávající bezpečnostní metody, které jsme vyvinuli pro naše produkty využívající DALL·E 3, a které jsou aplikovatelné i na Soru.

Například, jakmile bude Sora součástí produktu OpenAI, náš textový klasifikátor bude kontrolovat a odmítat textové vstupy, které porušují naše zásady používání, jako jsou ty, které požadují extrémní násilí, sexuální obsah, nenávistné obrazy, podobu celebrit nebo IP jiných. Vyvinuli jsme také robustní klasifikátory obrázků, které se používají k přezkoumání snímků každého vygenerovaného videa, aby se zajistilo, že dodržuje naše zásady používání, než bude uživateli zobrazeno.

Budeme se zapojovat s tvůrci politik, vzdělavateli a umělci po celém světě, abychom pochopili jejich obavy a identifikovali pozitivní případy použití této nové technologie. Přestože provádíme rozsáhlý výzkum a testování, nemůžeme předpovědět všechny prospěšné způsoby, jakými lidé budou naši technologii používat, ani všechny způsoby, jakými ji budou zneužívat. Proto věříme, že učení se z reálného použití je klíčovou součástí tvorby a uvolňování stále bezpečnějších systémů umělé inteligence v průběhu času.“

zdroj: openai.com/sora, překlad: chat.openai.com

Výzkumné techniky

„Sora je difúzní model, který generuje video tak, že začíná s něčím, co vypadá jako statický šum, a postupně ho transformuje odstraněním šumu v mnoha krocích.

Sora je schopna generovat celá videa najednou nebo rozšiřovat již vygenerovaná videa, aby byla delší. Tím, že modelu poskytneme předvídání mnoha snímků najednou, vyřešili jsme náročný problém udržet objekt stejný, i když dočasně vyjde z obrazu.

Podobně jako modely GPT, Sora využívá architekturu transformátoru, což umožňuje lepší škálovatelnost výkonu.

Videa a obrázky reprezentujeme jako kolekce menších jednotek dat nazývaných patche, z nichž každý je podobný tokenu v GPT. Díky sjednocení způsobu, jakým reprezentujeme data, můžeme na širší škálu vizuálních dat než dříve trénovat difúzní transformátory, zahrnující různé délky, rozlišení a poměry stran.

Sora staví na předchozím výzkumu v DALL·E a modelech GPT. Používá techniku přepisování z DALL·E 3, která zahrnuje generování vysoce popisných titulků pro vizuální tréninková data. V důsledku toho je model schopen více věrně následovat textové instrukce uživatele ve vygenerovaném videu.

Kromě schopnosti generovat video pouze z textových instrukcí, model dokáže vzít stávající stojící obrázek a generovat z něj video, animovat obsah obrázku s přesností a pozorností k malým detailům. Model také dokáže vzít stávající video a rozšířit ho nebo doplnit chybějící snímky. Dozvíte se více v naší technické zprávě.

Sora slouží jako základ pro modely, které dokážou rozumět a simulovat reálný svět, schopnost, o které věříme, že bude důležitým milníkem pro dosažení AGI (umělé obecné inteligence).“

zdroj: openai.com/sora, překlad: chat.openai.com