نوشته و ویرایش شده توسط مجله به رنگ صبح
محققان چینی حوزه هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کردهاند که میتواند تنها با یک عکس پرتره ثابت، ویدیوهایی واقعگرایانه و قابل کنترل از چهرههای درحال سخن بگوییدکردن تشکیل کند. این مدل از یک معماری پیشرفته مبتنی بر Video Diffusion Transformer منفعت میبرد و با منفعت گیری از تکنیکهای هماهنگسازی صوتی-تصویری، هماهنگی دقیقی بین حرکات لب، حالات چهره، حرکات بدن و صدای ورودی تشکیل میکند.
مطابق توضیحات حاضر در صفحه Github این پروژه، در قلب آن یک استراتژی دو مرحلهای برای همگامسازی صوت و عکس وجود دارد.
نحوه تشکیل آواتار سخنگو توسط هوش مصنوعی FantasyTalking
در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و بعدعرصه را با صدای ورودی هماهنگ میکند. در مرحله دوم، جزئیات حرکات لب با دقت فریمبهفریم و با منفعت گیری از ماسکهای خاصی اصلاح میبشود تا تطابق کامل با صدا حاصل بشود.
یکی از چالشهای اساسی در حوزهی گرافیک و بینایی ماشین، تشکیل آواتارهای متحرک از یک عکس ثابت بوده است. زیاد تر راه حلهای قبلی برای نگه داری واقعگرایی و هماهنگی با صدا، از مدلهای سهبعدی میانجی همانند 3DMM یا FLAME منفعت گیری میکردند. اما این راه حلها در بازتولید حرکات ظریف صورت و انیمیشنهای طبیعی بی فایده بودند.
در ویدیو زیر میتوانید برخی مثالهای ساختهشده توسط این مدل و مدلهای دیگر را با یکدیگر قیاس کنید:
FantasyTalking این چنین از یک ماژول اختصاصی برای کنترل شدت حرکات منفعت گیری میکند که امکان تنظیم مقدار انیمیشن حالات چهره و بدن را فراهم میسازد. این ویژگی، تشکیل ویدیوهایی فراتر از حرکت لبها را ممکن میکند. برخلاف تعداد بسیاری از مدلهای دیگر، این سیستم برای نگه داری هویت چهره از یک مکانیزم مبتنی بر چهره منفعت گیری میکند که نتایج طبیعیتر و یکپارچهتری اراعه میدهد.
از دیگر توانمندیهای این مدل میتوان به تشکیل ویدیوهای سخنزدن شخصیتها با زوایای گوناگون (نمای نزدیک، نیمتنه، همهقد، از مواجه یا زاویهدار)، حمایتاز استایلهای گرافیکی گوناگون (واقعگرایانه یا کارتونی) و حتی متحرکسازی (Animate) حیوانات اشاره کرد.
در قیاس با راه حلهای بسته و گسترش یافتهای همانند OmniHuman-1، مدل FantasyTalking کیفیت بالاتری از نظر واقعگرایی، نگه داری هویت، انسجام حرکتی و تطابق صوتی-تصویری اراعه میدهد.
دسته بندی مطالب





