CRÉER

Présentation du modèle Aurora :
Rendu ultra-réaliste d' avatars réactifspiloté par l'audio

Modèle de transformateur de diffusion (DiT) de pointe conçu spécifiquement pour créer des publicités vidéo professionnelles de qualité studio, basées sur des avatars - disponible dès aujourd'hui sur Creatify.

ACCÈS ANTICIPÉ

Aurora - Audio-Driven Ultra-Realistic Rendering of Reactive Avatars - est une percée dans l'IA générative qui donne vie aux images, conçue spécifiquement pour les annonceurs, les spécialistes du marketing et les créateurs de contenu à la recherche d'une qualité vidéo professionnelle de niveau studio. Donnez à Aurora une simple photo d'une personne (réelle ou générée par l'IA) et un clip audio d'un discours ou d'une chanson, et il générera une vidéo haute-fidélité, de qualité studio, de cette personne parlant ou chantant. Ce modèle de base multimodal pour la synthèse d'avatars est construit en pensant à nos principaux utilisateurs - les publicitaires, les spécialistes du marketing et les créateurs de contenu - et fournit des avatars expressifs ultra-réalistes qui bougent et émettent comme de vrais humains.

Imaginez un portrait fixe qui sourit soudain, cligne des yeux et entonne une mélodie, le tout à partir d'une image et d'un fichier audio. Aurora rend cela possible, ouvrant une nouvelle frontière dans la création de contenu et la narration virtuelle.

En comparant d'autres méthodes, nous avons constaté qu'Aurora présentait les avantages suivants :

Réalisme des avatars à la pointe de la technologie : Offre une fidélité visuelle et un naturel exceptionnels, avec des expressions faciales, une synchronisation des lèvres, des nuances émotionnelles, une respiration, des clignements d'yeux, des gestes de la main et des mouvements de l'ensemble du corps d'une grande précision.
Expressivité émotionnelle et prise en compte du contexte : Interprète avec précision le ton et l'inflexion de la voix pour transmettre les expressions émotionnelles appropriées et synchroniser les gestes des mains, ce qui renforce l'authenticité de la performance de l'avatar.
Inférence audio évolutive et cohérente : Prend en charge les entrées audio de longue durée tout en maintenant une grande cohérence entre les personnages, ce qui garantit la cohérence visuelle et comportementale, même sur plusieurs minutes de dialogue.
Performances robustes dans tous les scénarios : Optimisé pour fonctionner de manière fiable dans une grande variété de cas d'utilisation, y compris les dialogues de type podcast, les présentations latérales, les performances musicales et les animations de personnages stylisés.

En comparant d'autres méthodes, nous avons constaté qu'Aurora présentait les avantages suivants :

Réalisme des avatars à la pointe de la technologie : Offre une fidélité visuelle et un naturel exceptionnels, avec des expressions faciales, une synchronisation des lèvres, des nuances émotionnelles, une respiration, des clignements d'yeux, des gestes de la main et des mouvements de l'ensemble du corps d'une grande précision.
Expressivité émotionnelle et prise en compte du contexte : Interprète avec précision le ton et l'inflexion de la voix pour transmettre les expressions émotionnelles appropriées et synchroniser les gestes des mains, ce qui renforce l'authenticité de la performance de l'avatar.
Inférence audio évolutive et cohérente : Prend en charge les entrées audio de longue durée tout en maintenant une grande cohérence entre les personnages, ce qui garantit la cohérence visuelle et comportementale, même sur plusieurs minutes de dialogue.
Performances robustes dans tous les scénarios : Optimisé pour fonctionner de manière fiable dans une grande variété de cas d'utilisation, y compris les dialogues de type podcast, les présentations latérales, les performances musicales et les animations de personnages stylisés.

En comparant d'autres méthodes, nous avons constaté qu'Aurora présentait les avantages suivants :

Réalisme des avatars à la pointe de la technologie : Offre une fidélité visuelle et un naturel exceptionnels, avec des expressions faciales, une synchronisation des lèvres, des nuances émotionnelles, une respiration, des clignements d'yeux, des gestes de la main et des mouvements de l'ensemble du corps d'une grande précision.
Expressivité émotionnelle et prise en compte du contexte : Interprète avec précision le ton et l'inflexion de la voix pour transmettre les expressions émotionnelles appropriées et synchroniser les gestes des mains, ce qui renforce l'authenticité de la performance de l'avatar.
Inférence audio évolutive et cohérente : Prend en charge les entrées audio de longue durée tout en maintenant une grande cohérence entre les personnages, ce qui garantit la cohérence visuelle et comportementale, même sur plusieurs minutes de dialogue.
Performances robustes dans tous les scénarios : Optimisé pour fonctionner de manière fiable dans une grande variété de cas d'utilisation, y compris les dialogues de type podcast, les présentations latérales, les performances musicales et les animations de personnages stylisés.

0:00/1:34

0:00/1:34

0:00/1:34

0:00/1:34

Le réalisme par diffusion

Au cœur d'Aurora se trouve un modèle de fondation multimodale basé sur la diffusion et conçu pour la synthèse générative d'avatars. Nous utilisons une nouvelle architecture qui comprend un encodeur d'images, un encodeur de texte et un encodeur audio pour traiter les informations provenant de différentes modalités. Nous fusionnons toutes ces informations pour générer un avatar dont les mouvements s'alignent sur les données audio et textuelles. Pour garantir une fusion efficace, nous avons conçu un canal spécial d'échange d'informations sur les modalités afin que toutes les modalités soient bien alignées et intégrées dans l'espace latent. Cette nouvelle architecture permet à notre modèle de capturer les détails subtils des expressions humaines. Il exploite les indices émotionnels de l'audio pour générer une sortie visuelle qui reflète les réactions humaines naturelles.

Les modèles de diffusion synthétisent la vidéo en affinant les images de manière itérative, ce qui permet à Aurora de conserver des détails photoréalistes et une cohérence temporelle dans chaque image. Il en résulte des mouvements fluides et naturels, sans les effets de surprise ou les artefacts non naturels qui affectaient les méthodes antérieures. Des clignements d'yeux subtils à la texture de la peau et des cheveux, le réalisme d'Aurora s'appuie sur une science générative de pointe. Les premiers testeurs ont été stupéfaits de constater à quel point les vidéos d'Aurora sont naturelles et expressives, même lorsqu'on les compare à des séquences réelles. Les avatars maintiennent le contact visuel et font des gestes au moment opportun, tout en ressemblant étroitement à la personne sur la photo originale. Pour les annonceurs comme pour les créateurs, ce niveau de réalisme est crucial : les spectateurs restent immergés et engagés lorsque les visuels semblent réels, ce qui est particulièrement bénéfique pour les vidéos de marketing.

Mouvements et gestes expressifs

La principale différence entre Aurora et les modèles de synchronisation labiale précédents est qu'Aurora ne se contente pas de faire de la synchronisation labiale : il intègre l'expressivité humaine complète dans l'avatar numérique. Les avatars générés présentent des expressions faciales, des mouvements de tête et même des gestes du haut du corps réalistes - par exemple, ils peuvent hausser un sourcil, hocher la tête ou utiliser leurs mains pour mettre l'accent pendant qu'ils parlent. Ces nuances donnent à la performance de l'avatar une impression d'authenticité et d'engagement.

Les générateurs traditionnels de têtes parlantes étaient souvent statiques ou ne bougeaient que la bouche, alors qu'Aurora anime l'ensemble du personnage. L'avatar peut déplacer son regard, cligner des yeux naturellement et effectuer des mouvements de main réalistes en synchronisation avec le discours. Ce niveau d'expressivité signifie que les avatars d'Aurora communiquent au-delà des mots, transmettant le ton et l'émotion par le langage corporel. Chaque sourire, froncement de sourcils ou haussement d'épaules est généré pour correspondre au contexte, de sorte que le résultat est un avatar qui se comporte comme une vraie personne devant la caméra plutôt que comme une marionnette animée. Avec des mouvements aussi réalistes, un avatar Aurora pourrait même servir de porte-parole convaincant à l'écran dans une publicité, transmettant le message d'une marque avec une authenticité proche de l'humain.

Une photo, une infinité de représentations

L'une des caractéristiques les plus remarquables d'Aurora est qu'il suffit d'une seule image pour créer une vidéo. Avec une seule photo comme référence, Aurora peut générer une vidéo cohérente et réaliste de la personne qui parle ou chante, tant que vous disposez d'un script audio ou textuel. Il n'est pas nécessaire de capturer plusieurs angles ou d'entraîner un modèle sur des heures d'images de la personne. Aurora fonctionne en mode zéro : il suffit de télécharger une image accompagnée d'un clip audio ou d'un script, et le modèle fait le reste.

Bien qu'il n'ait qu'une seule image, le modèle préserve l'identité et l'apparence du personnage sur chaque image. Le visage et le corps de l'avatar restent fidèles au modèle (pas de transformation en quelqu'un d'autre ni de dérive hors du modèle) grâce à la conception d'Aurora. Aucune configuration particulière n'est nécessaire ; une simple photo de smartphone ou même un portrait de personnage dessiné par l'IA suffisent pour libérer les capacités d'Aurora. Cela réduit considérablement les obstacles à la création de vidéos d'avatars de haute qualité pour tous, qu'il s'agisse de créateurs indépendants ou d'équipes de marketing. Il suffit de sélectionner une photo, d'ajouter un clip audio et de laisser Aurora générer la performance.

Débloquer de nouvelles possibilités créatives

Les avatars ultra-réalistes et audio d'Aurora ouvrent la voie à d'innombrables applications. Voici quelques exemples d'utilisation d'Aurora par les annonceurs, les spécialistes du marketing et les créateurs :

Publicité et marketing : Les spécialistes du marketing et les annonceurs peuvent générer sans effort des publicités vidéo de qualité professionnelle mettant en scène des avatars réalistes. Avec Aurora, une simple photo de produit ou l'image d'un porte-parole peut être transformée en une publicité dynamique pour les médias sociaux ou les campagnes numériques. Les avatars ultra-réalistes captent l'attention du public, rendant le contenu de la publicité plus attrayant et plus efficace.
Création de contenu : Les créateurs de vidéos peuvent rapidement transformer un script et une simple photo en une vidéo captivante. Cette solution est idéale pour les YouTubers, les conteurs ou les réalisateurs de films indépendants qui souhaitent animer des personnages sans avoir à engager des acteurs ou à louer un studio.
Humains virtuels : Créez des humains numériques interactifs pour la RV, les jeux ou le service client. Aurora peut alimenter des présentateurs virtuels, des streamers ou des influenceurs qui ressemblent et agissent comme de vraies personnes. Ils feront des gestes, émettront des émotions et converseront naturellement, améliorant ainsi l'immersion dans les environnements virtuels.
Doublage et localisation : Doubler des vidéos dans différentes langues tout en conservant la bouche et les expressions de l'orateur à l'écran parfaitement synchronisées avec le nouveau son. Aurora peut prendre une scène de film ou une présentation originale et régénérer la vidéo avec le dialogue dans une autre langue, rendant ainsi le contenu multilingue transparent.
Éducation : Donnez vie à des personnages historiques ou à des conférenciers à partir d'une seule image. Les élèves peuvent regarder Albert Einstein expliquer la relativité ou écouter un auteur célèbre lire son œuvre, avec une synchronisation labiale et des gestes expressifs qui rendent l'expérience mémorable. Aurora peut transformer des supports pédagogiques statiques en leçons visuelles attrayantes.
Avatars chantants et musique : Transformez la pochette d'un album ou la photo d'un chanteur en vidéo musicale. Les musiciens et les fans peuvent créer des avatars chantants qui interprètent n'importe quelle chanson, ce qui permet d'organiser des concerts virtuels ou des vidéos de paroles où le chanteur à l'écran est un avatar piloté par l'IA. Il s'agit d'une nouvelle façon de visualiser la musique, la performance de l'avatar étant entièrement pilotée par le son de la chanson.

Publicité et marketing : Les spécialistes du marketing et les annonceurs peuvent générer sans effort des publicités vidéo de qualité professionnelle mettant en scène des avatars réalistes. Avec Aurora, une simple photo de produit ou l'image d'un porte-parole peut être transformée en une publicité dynamique pour les médias sociaux ou les campagnes numériques. Les avatars ultra-réalistes captent l'attention du public, rendant le contenu de la publicité plus attrayant et plus efficace.
Création de contenu : Les créateurs de vidéos peuvent rapidement transformer un script et une simple photo en une vidéo captivante. Cette solution est idéale pour les YouTubers, les conteurs ou les réalisateurs de films indépendants qui souhaitent animer des personnages sans avoir à engager des acteurs ou à louer un studio.
Humains virtuels : Créez des humains numériques interactifs pour la RV, les jeux ou le service client. Aurora peut alimenter des présentateurs virtuels, des streamers ou des influenceurs qui ressemblent et agissent comme de vraies personnes. Ils feront des gestes, émettront des émotions et converseront naturellement, améliorant ainsi l'immersion dans les environnements virtuels.
Doublage et localisation : Doubler des vidéos dans différentes langues tout en conservant la bouche et les expressions de l'orateur à l'écran parfaitement synchronisées avec le nouveau son. Aurora peut prendre une scène de film ou une présentation originale et régénérer la vidéo avec le dialogue dans une autre langue, rendant ainsi le contenu multilingue transparent.
Éducation : Donnez vie à des personnages historiques ou à des conférenciers à partir d'une seule image. Les élèves peuvent regarder Albert Einstein expliquer la relativité ou écouter un auteur célèbre lire son œuvre, avec une synchronisation labiale et des gestes expressifs qui rendent l'expérience mémorable. Aurora peut transformer des supports pédagogiques statiques en leçons visuelles attrayantes.
Avatars chantants et musique : Transformez la pochette d'un album ou la photo d'un chanteur en vidéo musicale. Les musiciens et les fans peuvent créer des avatars chantants qui interprètent n'importe quelle chanson, ce qui permet d'organiser des concerts virtuels ou des vidéos de paroles où le chanteur à l'écran est un avatar piloté par l'IA. Il s'agit d'une nouvelle façon de visualiser la musique, la performance de l'avatar étant entièrement pilotée par le son de la chanson.

Publicité et marketing : Les spécialistes du marketing et les annonceurs peuvent générer sans effort des publicités vidéo de qualité professionnelle mettant en scène des avatars réalistes. Avec Aurora, une simple photo de produit ou l'image d'un porte-parole peut être transformée en une publicité dynamique pour les médias sociaux ou les campagnes numériques. Les avatars ultra-réalistes captent l'attention du public, rendant le contenu de la publicité plus attrayant et plus efficace.
Création de contenu : Les créateurs de vidéos peuvent rapidement transformer un script et une simple photo en une vidéo captivante. Cette solution est idéale pour les YouTubers, les conteurs ou les réalisateurs de films indépendants qui souhaitent animer des personnages sans avoir à engager des acteurs ou à louer un studio.
Humains virtuels : Créez des humains numériques interactifs pour la RV, les jeux ou le service client. Aurora peut alimenter des présentateurs virtuels, des streamers ou des influenceurs qui ressemblent et agissent comme de vraies personnes. Ils feront des gestes, émettront des émotions et converseront naturellement, améliorant ainsi l'immersion dans les environnements virtuels.
Doublage et localisation : Doubler des vidéos dans différentes langues tout en conservant la bouche et les expressions de l'orateur à l'écran parfaitement synchronisées avec le nouveau son. Aurora peut prendre une scène de film ou une présentation originale et régénérer la vidéo avec le dialogue dans une autre langue, rendant ainsi le contenu multilingue transparent.
Éducation : Donnez vie à des personnages historiques ou à des conférenciers à partir d'une seule image. Les élèves peuvent regarder Albert Einstein expliquer la relativité ou écouter un auteur célèbre lire son œuvre, avec une synchronisation labiale et des gestes expressifs qui rendent l'expérience mémorable. Aurora peut transformer des supports pédagogiques statiques en leçons visuelles attrayantes.
Avatars chantants et musique : Transformez la pochette d'un album ou la photo d'un chanteur en vidéo musicale. Les musiciens et les fans peuvent créer des avatars chantants qui interprètent n'importe quelle chanson, ce qui permet d'organiser des concerts virtuels ou des vidéos de paroles où le chanteur à l'écran est un avatar piloté par l'IA. Il s'agit d'une nouvelle façon de visualiser la musique, la performance de l'avatar étant entièrement pilotée par le son de la chanson.

Aurora inaugure une nouvelle ère où la création d'une vidéo parlante réaliste est aussi simple que d'avoir une photo et quelque chose à dire.

Notre objectif est de repousser les limites de l'animation ultra-réaliste des avatars, en donnant l'impression que la personne figurant sur l'image est véritablement vivante, expressive et communicante dans la vidéo. Nous sommes ravis de lancer Aurora pour les créateurs, les annonceurs et les spécialistes du marketing qui souhaitent exploiter cette capacité. Nous sommes convaincus qu'il s'agira d'un outil puissant pour la narration, la communication, le marketing numérique et l'innovation. Nous sommes impatients de voir ce que vous allez créer avec Aurora, et nous sommes impatients de continuer à améliorer le modèle grâce à vos commentaires.

La frontière entre le réel et le virtuel ne cesse de s'estomper, et avec Aurora, votre moi numérique peut s'exprimer aussi vivement que vous. Pour nos partenaires marketing, cela signifie être en mesure de fournir un contenu vidéo ultra-réaliste qui capte l'attention du public et stimule les performances de la campagne. Après tout, une vidéo de qualité supérieure se traduit souvent par une meilleure conversion dans les publicités. Bienvenue dans l'avenir des avatars naturels et expressifs !

Aurora inaugure une nouvelle ère où la création d'une vidéo parlante réaliste est aussi simple que d'avoir une photo et quelque chose à dire.

ACCÈS ANTICIPÉ