VASA-1 - fotorealistyczna animacja twarzy ze zdjęcia
Microsoft opublikował AI które zmienia statyczne zdjęcie i próbkę mowy w fotorealistyczny film zsynchronizowany z mową. Jakość synchronizacji mowy z ruchem warg jest lepsza... niż w rzeczywistych filmach. DeepFake na zupełnie nowym poziomie, MS oczywiście nie opublikuje modelu bo "responsible AI".
kwanty z- #
- #
- #
- #
- #
- 4
- Odpowiedz
Komentarze (4)
najlepsze
@Tomasz_zakopane: Po pierwszych deepfejkach to już było oczywiste. Kolejne lata (albo raczej miesiące) przyniosły super wysokiej jakości generatory mowy (text-2-speech), teraz to co na tych filmach.
Mnie najbardziej zaskoczyły niewielkie wymagania sprzętowe. Takie "fejki" będzie mógł sobie zrobić praktycznie każdy dzieciak (wystarczy darmowe konto na colabie/keglu).
Skoro tak ładnie wychodzą animacje twarzy generowane z zanurzenia (latent space) to za chwilę powinny
Żeby było ciekawiej, taką jakość uzyskują real-time 512x512@45fps na konsumenckim GPU (RTX 4090). Potencjalne zastosowania to poprawianie video konferencji - można by w czasie rzeczywistym zmieniać punkt gdzie się patrzy. Można sobie na telco patrzeć w