VASA-1 - fotorealistyczna animacja twarzy ze zdjęcia

Microsoft opublikował AI które zmienia statyczne zdjęcie i próbkę mowy w fotorealistyczny film zsynchronizowany z mową. Jakość synchronizacji mowy z ruchem warg jest lepsza... niż w rzeczywistych filmach. DeepFake na zupełnie nowym poziomie, MS oczywiście nie opublikuje modelu bo "responsible AI".

kwanty z dodany: 22.04.2024, 18:33:56

4
Odpowiedz

Komentarze (4)

najlepsze

Tomasz_zakopane

22.04.2024, 18:48:20 via Wykop

Świat zmieni się strasznie już w nic nie można wierzyć (╯︵╰,)

kwanty

22.04.2024, 19:04:24 via Wykop

Świat zmieni się strasznie już w nic nie można wierzyć

@Tomasz_zakopane: Po pierwszych deepfejkach to już było oczywiste. Kolejne lata (albo raczej miesiące) przyniosły super wysokiej jakości generatory mowy (text-2-speech), teraz to co na tych filmach.

Mnie najbardziej zaskoczyły niewielkie wymagania sprzętowe. Takie "fejki" będzie mógł sobie zrobić praktycznie każdy dzieciak (wystarczy darmowe konto na colabie/keglu).

Skoro tak ładnie wychodzą animacje twarzy generowane z zanurzenia (latent space) to za chwilę powinny

starnak

22.04.2024, 20:14:26 via Wykop

Można robić niewygodne montaże teściowej.

kwanty

22.04.2024, 18:48:58 via Wykop

Twarz "wykonuje" naturalne ruchy, wydaje się być dopasowana emocjonalnie do tekstu, synchronizacja jest perfekcyjna, jakość FullHD, dodatkowo można sterować gdzie obiekt ma się patrzeć, w którą stronę głowa ma być skierowana, można też regulować ekspresję twarzy.

Żeby było ciekawiej, taką jakość uzyskują real-time 512x512@45fps na konsumenckim GPU (RTX 4090). Potencjalne zastosowania to poprawianie video konferencji - można by w czasie rzeczywistym zmieniać punkt gdzie się patrzy. Można sobie na telco patrzeć w