La prochaine percée à prendre d’assaut le monde de l’IA pourrait être les générateurs de modèles 3D. Cette semaine, OpenAI a ouvert Point-E, un système d’apprentissage automatique qui crée un objet 3D à partir d’une invite textuelle.
Point-E peut produire des modèles 3D en une à deux minutes sur un seul GPU Nvidia V100.
Point-E ne crée pas d’objets 3D au sens traditionnel. Au lieu de cela, il génère des nuages de points ou des ensembles discrets de points de données dans l’espace qui représentent une forme 3D – d’où l’abréviation effrontée. (Le « E » dans Point-E est l’abréviation de « efficacité », car il est apparemment plus rapide que les approches de génération d’objets 3D précédentes.) Les nuages de points sont plus faciles à synthétiser d’un point de vue informatique, mais ils ne capturent pas le grain fin d’un objet. forme ou texture – une limitation clé de Point-E actuellement.
Pour contourner cette limitation, l’équipe de Point-E a formé un système d’IA supplémentaire pour convertir les nuages de points de Point-E en maillages. (Les maillages – les collections de sommets, d’arêtes et de faces qui définissent un objet – sont couramment utilisés dans la modélisation et la conception 3D.) Mais ils notent dans l’article que le modèle peut parfois manquer certaines parties d’objets, ce qui entraîne des formes en blocs ou déformées.
En dehors du modèle de génération de maillage, qui est autonome, Point-E se compose de deux modèles : un modèle texte-image et un modèle image-3D. Le modèle texte-image, similaire aux systèmes d’art génératif comme DALL-E 2 et Stable Diffusion d’OpenAI, a été formé sur des images étiquetées pour comprendre les associations entre les mots et les concepts visuels. Le modèle d’image en 3D, d’autre part, a été alimenté par un ensemble d’images associées à des objets 3D afin qu’il apprenne à se traduire efficacement entre les deux.
Lorsqu’on lui donne une invite de texte – par exemple, “un engrenage imprimable en 3D, un seul engrenage de 3 pouces de diamètre et d’un demi-pouce d’épaisseur” – le modèle texte-image de Point-E génère un objet rendu synthétique qui est envoyé à l’image-à- Modèle 3D, qui génère ensuite un nuage de points.
Après avoir formé les modèles sur un ensemble de données de “plusieurs millions” d’objets 3D et de métadonnées associées, Point-E pourrait produire des nuages de points colorés qui correspondaient fréquemment aux invites de texte, selon les chercheurs d’OpenAI. Ce n’est pas parfait – le modèle image en 3D de Point-E ne parvient parfois pas à comprendre l’image du modèle texte en image, ce qui entraîne une forme qui ne correspond pas à l’invite de texte. Pourtant, c’est des ordres de grandeur plus rapides que l’état de l’art précédent – du moins selon l’équipe OpenAI.
“Bien que notre méthode donne de moins bons résultats sur cette évaluation que les techniques de pointe, elle produit des échantillons en une petite fraction de temps”, ont-ils écrit dans l’article. “Cela pourrait le rendre plus pratique pour certaines applications, ou pourrait permettre la découverte d’objets 3D de meilleure qualité.”
Quelles sont les applications, exactement ? Eh bien, les chercheurs d’OpenAI soulignent que les nuages de points de Point-E pourraient être utilisés pour fabriquer des objets du monde réel, par exemple grâce à l’impression 3D. Avec le modèle de conversion de maillage supplémentaire, le système pourrait – une fois un peu plus raffiné – également trouver sa place dans les workflows de développement de jeux et d’animations.
OpenAI est peut-être la dernière entreprise à se lancer dans la mêlée des générateurs d’objets 3D, mais – comme mentionné précédemment – ce n’est certainement pas la première. Plus tôt cette année, Google a publié DreamFusion, une version étendue de Dream Fields, un système 3D génératif que la société a dévoilé en 2021. Contrairement à Dream Fields, DreamFusion ne nécessite aucune formation préalable, ce qui signifie qu’il peut générer des représentations 3D d’objets sans données 3D.
Alors que tous les regards sont tournés vers les générateurs d’art 2D à l’heure actuelle, l’IA de synthèse de modèles pourrait être le prochain grand perturbateur de l’industrie. Les modèles 3D sont largement utilisés dans le cinéma et la télévision, la décoration d’intérieur, l’architecture et divers domaines scientifiques. Les cabinets d’architectes les utilisent pour faire la démonstration de bâtiments et de paysages proposés, par exemple, tandis que les ingénieurs utilisent des modèles pour concevoir de nouveaux appareils, véhicules et structures.
Cependant, les modèles 3D prennent généralement un certain temps à créer, entre plusieurs heures et plusieurs jours. Une IA comme Point-E pourrait changer cela si les problèmes sont résolus un jour, et faire d’OpenAI un profit respectable en le faisant.