A | B | C | D | E | F | G | H | CH | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
Sora je generativní text-to-video model AI, vydaný společností OpenAI v únoru 2024. Sora je schopna tvořit filmy z textových pokynů pomocí kombinace AI technologií: pokročilých NLP modelů, GAN [1], VQ-VAE, sémantických a kontextových modelů, technik pro syntézu videa a animaci, a metod posíleného učení pro tvorbu videí z textových pokynů.[2][3][4]
Technologie
Přehled Sora
Sora je architektura založená na nejnovější generaci difúzních transformátorů. Začíná proces s inicializačním šumem a postupně provádí serii úprav, aby dosáhla přesného cílového videa. Významným prvkem teto technologie je implementace adaptivního vzorkování, které umožňuje modelu Sora dynamicky se přizpůsobit a optimalizovat pro různé kodeky, rozlišení a poměry videa. To je dosaženo pomocí pokročilého algoritmického řešení, které umožňují měnit úroveň podrobnosti ve procesu výběru vzorků a efektivně rekonfigurovat vstupní data tak, aby byla maximalizována kompatibilita s požadovanými výstupními formáty videa.[5][6]
Proces Generování Videa
Proces generování videa Sora zahrnuje tři hlavní kroky:
Zpočátku Sora komprimuje zdrojové video do reprezentace latentního prostoru, což zachytává interní vlastnosti dat. Tento vysoce dimenzionální prostor je využíván k abstrakci videodat, umožňující AI efektivněji manipulovat s složitými vzory v datech a generovat detailní, vysokokvalitní video výstupy.[5]
Po kompresi se tokenizovaná latentní reprezentace videa zpracovává pomocí Vision Transformer (ViT). Tento krok zlepšuje čistotu videa odstraněním šumu z abstraktní reprezentace.[7]
Nakonec Sora využíva mechanismus CLIP[8] (Contrastive Language–Image Pre-training), který umožňuje Sora porozumět a aplikovat textové popisy poskytnuté uživateli[9]. Tyto popysy mohou být vylepšeny pomocí velkých jazykových modelů (LLMs) pro větší jasnost a specifičnost a mohou zahrnovat i vizuální podněty. To řídí difúzní model při vytváření videí, která odpovídají požadovaným tématům nebo stylům.[7][10][11]
Po opakovaném aplikování kroků odstranění šumu je abstraktní video transformováno do své konečné formy. Toto video je poté dekódováno zpět do standardního video formátu a připraveného k prohlížení.[12][5]
Použití
Aplikace Sora má potenciál pro využití v různých oblastí včetně zábavy, vzdělávání, simulačního tréninku a dalších, kde může vytvářet přizpůsobený video obsah na základě konkrétních textových pokynů[5], ale v současné době ještě není k dispozici veřejnosti, protože ji vědci zkoumají pro společenskou bezpečnost.[13][14]
Reference
- ↑ ETECHBLOGCZ. Generative Adversarial Networks (GAN): Úvod . 2022-08-16 . Dostupné online.
- ↑ Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arxiv.org . . Dostupné online.
- ↑ Texture Synthesis by Non-parametric Sampling . . Dostupné online.
- ↑ Generative Adversarial Networks . . Dostupné online.
- ↑ a b c d Video generation models as world simulators. openai.com . . Dostupné online. (anglicky)
- ↑ Sora: OpenAI's Next-Generation Text-to-Video AI Tool. cybergen.com . . Dostupné online. (anglicky)
- ↑ a b GOU, Tom. Techniques behind OpenAI Sora . 2024-02-21 . Dostupné online. (anglicky)
- ↑ ZHOU, Jinghao; DONG, Li; GAN, Zhe. Non-Contrastive Learning Meets Language-Image Pre-Training. In: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). : IEEE, 2023-06. Dostupné online. DOI 10.1109/cvpr52729.2023.01061.
- ↑ ZHOU, Jinghao; DONG, Li; GAN, Zhe. Non-Contrastive Learning Meets Language-Image Pre-Training. In: 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). : IEEE, 2023-06. Dostupné online. DOI 10.1109/cvpr52729.2023.01061.
- ↑ Large language model. : Dostupné online. (anglicky) Page Version ID: 1216626260.
- ↑ Learning Transferable Visual Models From Natural Language Supervision . . Dostupné online.
- ↑ Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models. arxiv.org . cit. 2024-04-01. Dostupné online.
- ↑ Sora: Creating video from text. openai.com online. cit. 2024-04-01. Dostupné online. (anglicky)
- ↑ OpenAI Unveils A.I. That Instantly Generates Eye-Popping Videos. www.nytimes.com online. cit. 01.04.2024. Dostupné online.
Text je dostupný za podmienok Creative Commons Attribution/Share-Alike License 3.0 Unported; prípadne za ďalších podmienok. Podrobnejšie informácie nájdete na stránke Podmienky použitia.
Antropológia
Aplikované vedy
Bibliometria
Dejiny vedy
Encyklopédie
Filozofia vedy
Forenzné vedy
Humanitné vedy
Knižničná veda
Kryogenika
Kryptológia
Kulturológia
Literárna veda
Medzidisciplinárne oblasti
Metódy kvantitatívnej analýzy
Metavedy
Metodika
Text je dostupný za podmienok Creative
Commons Attribution/Share-Alike License 3.0 Unported; prípadne za ďalších
podmienok.
Podrobnejšie informácie nájdete na stránke Podmienky
použitia.
www.astronomia.sk | www.biologia.sk | www.botanika.sk | www.dejiny.sk | www.economy.sk | www.elektrotechnika.sk | www.estetika.sk | www.farmakologia.sk | www.filozofia.sk | Fyzika | www.futurologia.sk | www.genetika.sk | www.chemia.sk | www.lingvistika.sk | www.politologia.sk | www.psychologia.sk | www.sexuologia.sk | www.sociologia.sk | www.veda.sk I www.zoologia.sk