EMO i VASA-1, czyli śpiewające awatary AI

EMO, czyli nowy model od Alibaba

EMO (Emote Portrait Alive) od Alibaby to model sztucznej inteligencji, który potrafi ożywić dowolny pojedynczy portret i stworzyć realistyczny film wideo, na którym postać mówi i porusza głową w naturalny sposób.

W przeciwieństwie do tradycyjnych metod tworzenia „mówiących głów” EMO nie wykorzystuje skomplikowanych modeli 3D ani mapowania punktów charakterystycznych twarzy. Zamiast tego bezpośrednio syntetyzuje filmy z samego audio i pojedynczego zdjęcia wejściowego. Innymi słowy, kluczową innowacją jest wykorzystanie zaawansowanych modeli dyfuzyjnych do bezpośredniego przetwarzania audio na wideo. To kluczowa innowacja, która sprawia, że generowane animacje są znacznie bardziej ekspresyjne i zadziwiająco realistyczne w odzwierciedlaniu pełnego zakresu emocji i niuansów dźwięku.

Jak działa EMO?

Proces generowania filmu przez EMO składa się z dwóch głównych etapów. Najpierw sieć ReferenceNet analizuje zdjęcie wejściowe, wydobywając z niego kluczowe cechy twarzy. Następnie zaawansowany mechanizm dyfuzji przetwarza ścieżkę dźwiękową, łącząc ją z cechami twarzy w celu wytworzenia filmowego klipu wideo.

W samym sercu tego etapu działają dwa kluczowe komponenty: enkoder audio i mechanizmy uwagi (attention). Wstępnie wytrenowany enkoder pełni rolę dyrygenta przetwarzającego wejściowe audio i zapewniającego synchronizację ruchów ust z dźwiękiem.

Mechanizmy uwagi dbają z kolei o to, by generowana postać zachowywała stałą tożsamość przez cały film, a jej ruchy były modulowane zgodnie z dźwiękiem. Skutkuje to niezwykle płynnymi przejściami między klatkami i utrzymaniem spójnej osobowości animowanego awatara.

Aby to wszystko było możliwe, potrzebne są jeszcze moduły kontrolne:

lokalizator twarzy — zapewnia stabilność i centrowanie postaci na ekranie;
regulator prędkości ruchów głowy — kontroluje naturalność i płynność animacji;
zaawansowane moduły kontrolne — zwiększają spójność i realizm generowanych klipów.

Te innowacyjne rozwiązania sprawiają, że EMO może renderować zarówno swobodne rozmowy, jak i dynamiczne występy wokalne przy zachowaniu najwyższej jakości. Jest to coś, czego nie można osiągnąć przy użyciu żadnej z dotychczasowych technik.

Ponadto naukowcy z Alibaby wykorzystali ogromne zasoby danych treningowych, obejmujących ponad 250 godzin filmów i 150 milionów obrazów twarzy, projektując różnorodne scenariusze:

publiczne przemówienia,
sceny z filmów i seriali,
nagrania koncertowe w różnych językach.

Tak obszerna i zróżnicowana baza danych pozwoliła EMO na naukę rozpoznawania i odwzorowywania szerokiej gamy ludzkich emocji i niuansów wokalnych. Rezultat? Animacje, które niemal nie różnią się od rzeczywistości.

VASA-1, wideo na podstawie jednego zdjęcia od Microsoft

Pierwsza publikacja dotycząca VASA-1 rozpoczyna się od takiego skrótu:

„TL; DR: pojedyncze zdjęcie portretowe + nagranie mowy = hiperrealistyczny film mówiącej twarzy z precyzyjną synchronizacją ruchu warg, realistyczną mimiką i naturalnymi ruchami głowy, generowanymi w czasie rzeczywistym” („TL; DR: single portrait photo + speech audio = hiper-realistic talking face video with precise lip-audio sync, lifelike facial behaviour, and naturalistic head movements, generated in real time”, https://www.microsoft.com/en-us/research/project/vasa-1/)

Świetnie oddaje on możliwości VASA-1. Microsoft poszedł bowiem o krok dalej niż Alibaba — większy zakres mimiki podczas wypowiedzi, a przede wszystkim ruchy głowy sprawiają, że mówiąca postać jest naprawdę przekonująca. To naprawdę niesamowite, że Microsoft osiągnął taki poziom realizmu na podstawie jednej fotografii.

Jak działa VASA-1?

VASA-1 wykorzystuje zaawansowany model dyfuzyjny, który tworzy dynamikę twarzy i ruchy głowy w przestrzeni ukrytej (latent space), biorąc od razu pod uwagę:

sygnał audio, czyli nagranie mowy;
sygnały kontrolne, takie jak kierunek patrzenia, odległość głowy od kamery czy emocje (opcjonalne).

Kluczem do sukcesu tej metody jest efektywne uczenie się modelu na bazie dużej ilości nagrań wideo, umożliwiającej modelowanie złożonych ruchów twarzy i głowy.

Po wygenerowaniu kodów ruchu w przestrzeni ukrytej model dekoduje je na realistyczne klatki wideo. VASA-1 osiąga imponującą wydajność, generując wideo o rozdzielczości 512 × 512 pikseli z prędkością do 40 klatek na sekundę! To kamień milowy w kierunku angażujących interakcji z awatarami AI w czasie rzeczywistym.

Biznesowe zastosowania EMO i VASA-1

Na porównanie EMO vs VASA-1 musimy jeszcze trochę poczekać — modele do tworzenia wideo z jednego zdjęcia nie są jeszcze publicznie dostępne. Choć EMO i VASA-1 to na razie jedynie projekty badawcze, otwierają całkowicie nowe możliwości tworzenia angażujących treści cyfrowych generowanych w czasie rzeczywistym. Oto kluczowe korzyści, jakie ta nowa technologia może przynieść firmom:

animowane awatary i wirtualni prezenterzy — EMO i VASA-1 pozwalają na stworzenie zaangażowanego, cyfrowego prezentera o dowolnym wyglądzie, który będzie prowadził webinary, prezentacje produktów czy kursy online w naturalny, ekspresyjny sposób bez konieczności tworzenia trójwymiarowych modeli,
interaktywne filmy instruktażowe — zamiast statycznych zrzutów ekranu tutoriale mogą wykorzystywać ożywione awatary, reagujące na pytania i dostosowujące się do poziomu zrozumienia użytkownika.
spersonalizowane komunikaty — firmy mogą tworzyć dopasowane, angażujące wiadomości wideo z wizerunkiem znanych postaci lub celebrytów, którzy wydają się bezpośrednio mówić do odbiorcy,
gry i rozrywka — mówiące awatary mogą dodać dynamiki grom, zapewniając o wiele bardziej immersyjne i realistyczne doświadczenie.

A to dopiero początek — zastosowania biznesowe EMO i VASA-1 zależą od specyfiki branży, jednak z pewnością wiele firm mogłoby wykorzystać technologię tworzenia wideo na podstawie jednego zdjęcia, aby wyróżnić się na tle konkurencji i nawiązać głębszą więź z klientami.

Źródło: Github EMO (https://github.com/HumanAIGC/EMO)

Podsumowanie

EMO AI od Alibaby i VASA-1 od Microsoft to prawdziwie pionierskie technologie, które potrafią ożywić pojedyncze zdjęcie i stworzyć ekspresyjne filmy wideo, które dzięki użyciu zaawansowanych modeli dyfuzyjnych i mechanizmów uwagi są zsynchronizowane z dźwiękiem.

W przeciwieństwie do tradycyjnych metod EMO i VASA-1 nie wymagają skomplikowanych modeli 3D czy mapowania twarzy. Bezpośrednio przetwarzają audio na animacje, co znacznie zwiększa realizm i różnorodność wyrażanych emocji. Dzięki temu EMO i VASA-1 mogą znaleźć szerokie zastosowanie w biznesie — od tworzenia wirtualnych asystentów i prezenterów, przez spersonalizowane komunikaty, aż po bardziej immersyjne gry i materiały instruktażowe.

Wraz z kolejnymi postępami w dziedzinie uczenia maszynowego możliwości ożywiania statycznych obrazów będą tylko rosły. EMO i VASA-1 zapowiadają erę w pełni interaktywnych treści audiowizualnych, w której granice między rzeczywistością a cyfrowym światem zacierają się jeszcze bardziej.

Marta Matylda Kania

Założycielka Superpowered by AI. Opracowuje dla biznesu procesy tworzenia treści przez generatywną sztuczną inteligencję. Interesuje się przyszłością AI w biznesie, pisze zaawansowane prompty i prowadzi szkolenia z ChataGPT dla firm.