L’IA devient sérieusement créative, allant au-delà du simple texte et des images pour construire des mondes virtuels entiers que vous pouvez réellement explorer. Nous avons vu des expériences comme une démo de Quake générée par IA et même des versions de Minecraft alimentées par l’IA. Google DeepMind se lance également, construisant des modèles pour « simuler le monde ». Aujourd’hui, une nouvelle startup appelée Odyssey, soutenue par le cofondateur de Pixar Edwin Catmull, lance sa propre approche : quelque chose qu’elle appelle la « vidéo interactive », et elle permet aux gens de l’essayer dès aujourd’hui.
Contenu
Imaginez-le comme une vidéo dans laquelle vous pouvez littéralement vous promener, rêvée par l’IA en temps réel à mesure que vous vous déplacez. C’est un aperçu précoce de ce que pourrait être l’interaction avec des environnements entièrement générés, disponible maintenant sous forme d’aperçu de recherche.
Qu’est-ce que la « vidéo interactive » exactement ?
Odyssey la décrit comme « une vidéo que vous pouvez à la fois regarder et avec laquelle vous pouvez interagir, entièrement imaginée par l’IA en temps réel ». L’idée centrale est de vous permettre de vous déplacer dans un espace visuel généré à la première personne. Contrairement à un jeu vidéo traditionnel construit avec des modèles et des textures, ceci tente de générer la scène entière à la volée, visant quelque chose qui ressemble davantage au monde réel, ou du moins à une version floue et dynamique de celui-ci.
L’entreprise est assez ambitieuse, la présentant comme une « version précoce du Holodeck ». Cependant, elle est aussi franche quant à son état actuel, reconnaissant que cela ressemble à « l’exploration d’un rêve glitché — brut, instable, mais indéniablement nouveau ». Et cela fait partie du plaisir (et de l’étrangeté).
Plongée dans l’expérience de l’aperçu Odyssey
Plonger dans la vidéo interactive d’Odyssey donne un peu l’impression de naviguer dans une version très floue et en constante mutation de Google Street View. Vous contrôlez vos déplacements à l’aide des touches standard du clavier (WASD) comme dans de nombreux jeux PC. L’aperçu propose quelques environnements différents, y compris une zone boisée avec une structure, l’intérieur d’un centre commercial et un espace extérieur comme un parking.
Chaque fois que vous entrez ou changez d’environnement, les choses semblent un peu différentes car l’IA régénère en continu ce qui est dans votre champ de vision. La qualité visuelle est, pour l’instant, assez floue et manque de détails précis. Vous disposez d’environ deux minutes et demie par session dans l’aperçu avant qu’il ne se réinitialise, mais vous pouvez facilement recharger et y retourner.
Capture d'écran montrant une scène extérieure floue, générée par IA, avec des arbres et une cabane lointaine dans l'aperçu vidéo interactive d'Odyssey.
Capture d'écran rapprochée d'une texture de sol floue et abstraite et de feuillage générés par la vidéo interactive IA d'Odyssey.
La technologie derrière la magie (et les « glitches »)
Comment cela se produit-il ? Odyssey affirme utiliser de puissants clusters de GPU H100 – des puces informatiques spécialisées conçues pour les tâches d’IA – situés aux États-Unis et en Europe. Le système prend en compte votre entrée (comme avancer) et l’historique des images que vous avez vues, puis le modèle d’IA tente de prédire et de générer l’image suivante que vous devriez voir, la diffusant en temps réel vers vous. L’entreprise affirme que ce processus peut se produire en seulement 40 millisecondes.
Mais la génération d’IA en temps réel à cette échelle est encore incroyablement complexe, et l’aperçu actuel le montre. Les objets manquent souvent de « collision » – vous pourriez traverser un mur ou une maison que vous vous attendiez à trouver solide. Les environnements peuvent changer et se transformer de manière inattendue ; une porte pourrait soudainement se transformer en mur de briques solides à mesure que vous vous en approchez. Même en restant immobile, cela peut être étrange ; la vue tourne ou dérive parfois lentement d’elle-même. C’est plein du genre de « glitches » charmants (ou frustrants) que l’on voit dans les premières démos technologiques.
Le cofondateur de Pixar, Edwin Catmull, qui siège au conseil d’Odyssey, n’a pas donné de calendrier précis quant à l’amélioration de la qualité de l’image. Cependant, il a déclaré à The Verge qu’Odyssey est à la pointe de ce type de travail sur l’IA et que les améliorations sont constamment partagées au sein de la communauté IA au sens large. Il reconnaît que les images sont « bruitées » mais considère cela comme quelque chose qui peut être résolu en appliquant des filtres de réseaux neuronaux par la suite.
Intérieur d'un environnement de bâtiment généré par IA dans la vidéo interactive d'Odyssey, montrant des piliers et un plafond flous.
Scène extérieure générée par IA dans la vidéo interactive d'Odyssey, représentant une vue floue d'une rue ou d'un parking avec des bâtiments.
Qu’est-ce que cela signifie ? Potentiel et écueils
Soyons clairs : l’aperçu d’Odyssey ne remplacera pas votre jeu vidéo préféré de sitôt. Les « glitches » et le monde en constante évolution le rendent trop instable pour le gameplay traditionnel. Ce n’est pas non plus un remplacement pour regarder un film ; le morphing imprévisible est trop distrayant lorsque vous voulez simplement vous détendre et regarder une histoire se dérouler. Ce n’est pas vraiment un bon mélange des deux médiums non plus, du moins pas encore.
Cependant, même avec sa rugosité actuelle, expérimenter l’aperçu donne une idée tangible du potentiel. Voir un environnement se construire autour de vous à mesure que vous vous déplacez est une expérience véritablement nouvelle. Compte tenu de la rapidité avec laquelle la technologie de l’IA progresse, il n’est pas difficile d’imaginer une version future de cela beaucoup plus stable, détaillée et réactive.
Bien que la vidéo interactive d’Odyssey ne soit certainement pas encore le Holodeck de Star Trek, et qu’il y a un long chemin à parcourir, cet aperçu est un aperçu fascinant d’un futur possible où l’IA ne se contente pas de créer du contenu statique, mais construit des réalités dynamiques et explorables en temps réel.