معارفه هوش مصنوعی FantasyTalking برای ساخت شخصیت‌های سخنگو! + ویدیو_به رنگ صبح

نوشته و ویرایش شده توسط مجله به رنگ صبح

محققان چینی حوزه هوش مصنوعی از مدلی نوآورانه با نام FantasyTalking رونمایی کرده‌اند که می‌تواند تنها با یک عکس پرتره ثابت، ویدیوهایی واقع‌گرایانه و قابل کنترل از چهره‌های درحال سخن بگویید‌کردن تشکیل کند. این مدل از یک معماری پیشرفته مبتنی بر Video Diffusion Transformer منفعت می‌برد و با منفعت گیری از تکنیک‌های هماهنگ‌سازی صوتی-تصویری، هماهنگی دقیقی بین حرکات لب، حالات چهره، حرکات بدن و صدای ورودی تشکیل می‌کند.

مطابق توضیحات حاضر در صفحه Github این پروژه، در قلب آن یک استراتژی دو مرحله‌ای برای همگام‌سازی صوت و عکس وجود دارد.

نحوه تشکیل آواتار سخنگو توسط هوش مصنوعی FantasyTalking

در مرحله اول، مدل با آموزش در سطح کلیپ، حرکات کلی صحنه شامل چهره، اشیای اطراف و بعد‌عرصه را با صدای ورودی هماهنگ می‌کند. در مرحله دوم، جزئیات حرکات لب با دقت فریم‌به‌فریم و با منفعت گیری از ماسک‌های خاصی اصلاح می‌بشود تا تطابق کامل با صدا حاصل بشود.

آخرین مطالب

یکی از چالش‌های اساسی در حوزه‌ی گرافیک و بینایی ماشین، تشکیل آواتارهای متحرک از یک عکس ثابت بوده است. زیاد تر راه حلهای قبلی برای نگه داری واقع‌گرایی و هماهنگی با صدا، از مدل‌های سه‌بعدی میانجی همانند 3DMM یا FLAME منفعت گیری می‌کردند. اما این راه حلها در بازتولید حرکات ظریف صورت و انیمیشن‌های طبیعی بی فایده بودند.

در ویدیو زیر می‌توانید برخی مثالهای ساخته‌شده توسط این مدل و مدل‌های دیگر را با یکدیگر قیاس کنید:

FantasyTalking این چنین از یک ماژول اختصاصی برای کنترل شدت حرکات منفعت گیری می‌کند که امکان تنظیم مقدار انیمیشن حالات چهره و بدن را فراهم می‌سازد. این ویژگی، تشکیل ویدیوهایی فراتر از حرکت لب‌ها را ممکن می‌کند. برخلاف تعداد بسیاری از مدل‌های دیگر، این سیستم برای نگه داری هویت چهره از یک مکانیزم مبتنی بر چهره منفعت گیری می‌کند که نتایج طبیعی‌تر و یکپارچه‌تری اراعه می‌دهد.

از دیگر توانمندیهای این مدل می‌توان به تشکیل ویدیوهای سخن‌زدن شخصیت‌ها با زوایای گوناگون (نمای نزدیک، نیم‌تنه، همه‌قد، از مواجه یا زاویه‌دار)، حمایتاز استایل‌های گرافیکی گوناگون (واقع‌گرایانه یا کارتونی) و حتی متحرک‌سازی (Animate) حیوانات اشاره کرد.

در قیاس با راه حلهای بسته و گسترش یافتهای همانند OmniHuman-1، مدل FantasyTalking کیفیت بالاتری از نظر واقع‌گرایی، نگه داری هویت، انسجام حرکتی و تطابق صوتی-تصویری اراعه می‌دهد.

دسته بندی مطالب