گوگل Veo 3.1 را برای رقابت با Sora 2 از OpenAI رونمایی کرد – اما آیا این کار کرده است؟

در کوتاه مدت Veo 3.1 نسل کامل صدا، دیالوگ و تولید صدای محیط را معرفی می‌کند. این راه‌اندازی پس از افزایش سریع Sora 2 به یک میلیون دانلود در عرض پنج روز انجام می‌شود. گوگل ویو را به عنوان یک گزینه...

کد خبر :9977 مهر 24, 1404

چاپ

8 بازدیدها

0 نظر

در کوتاه مدت

Veo 3.1 نسل کامل صدا، دیالوگ و تولید صدای محیط را معرفی می‌کند.
این راه‌اندازی پس از افزایش سریع Sora 2 به یک میلیون دانلود در عرض پنج روز انجام می‌شود.
گوگل ویو را به عنوان یک گزینه حرفه‌ای در بازار شلوغ ویدئوهای هوش مصنوعی معرفی می‌کند.

گوگل نسخه 3.1 ویو امروز منتشر شد نسخه به‌روزرسانی شده‌ای از تولید‌کننده ویدیوی هوش مصنوعی آن که صدا را در تمامی ویژگی‌ها اضافه می‌کند و قابلیت‌های ویرایش جدیدی را معرفی می‌کند که به creators کنترل بیشتری بر کلیپ‌هایشان می‌دهد.

این اعلام در حالی صورت می‌گیرد که اپلیکیشن رقیب اوپن‌ای‌آی، سُرا ۲، در نمودارهای فروشگاه اپلیکیشن بالا می‌رود و بحث‌هایی درباره محتوای تولید شده توسط هوش مصنوعی که به شبکه‌های اجتماعی سرازیر می‌شود، تحریک می‌کند.

این زمان‌بندی نشان می‌دهد که گوگل می‌خواهد Veo 3.1 را به عنوان گزینه حرفه‌ای برای رویکرد فید اجتماعی ویروسی Sora 2 معرفی کند. OpenAI Sora 2 را در 30 سپتامبر با یک رابط کاربری به سبک TikTok که به اشتراک‌گذاری و بازنویسی اولویت می‌دهد، راه‌اندازی کرد.

این اپلیکیشن در عرض پنج روز به یک میلیون دانلود رسید و به صدر فهرست اپ استور اپل دست یافت. متا نیز رویکرد مشابهی را در پیش گرفت و نوع خاصی از رسانه اجتماعی مجازی را که با ویدیوهای هوش مصنوعی قدرت‌گیری می‌شود، ارائه کرد.

کاربران اکنون می‌توانند با استفاده از “مواد به ویدیو”، ابزاری که چندین تصویر مرجع را در یک صحنه ترکیب می‌کند، ویدیوهایی با صدای محیط هماهنگ، دیالوگ و افکت‌های فولی ایجاد کنند.

ویژگی “فریم‌ها به ویدیو” انتقالاتی بین یک تصویر آغازین و پایانی ایجاد می‌کند، در حالی که “توسعه” کلیپ‌هایی با طول حداکثر یک دقیقه ایجاد می‌کند که حرکت را از ثانیه پایانی یک ویدیو موجود ادامه می‌دهد.

ابزارهای ویرایش جدید به کاربران اجازه می‌دهند تا عناصر را از صحنه‌های تولید شده اضافه یا حذف کنند و تنظیمات نور و سایه به طور خودکار انجام می‌شود. این مدل ویدیوها را با وضوح ۱۰۸۰p در نسبت‌های ابعادی افقی یا عمودی تولید می‌کند.

مدل از طریق Flow برای استفاده مصرف‌کننده، API Gemini برای توسعه‌دهندگان و Vertex AI برای مشتریان شرکتی در دسترس است. ویدیوهایی با طول حداکثر یک دقیقه می‌توانند با استفاده از ویژگی “کشش” ایجاد شوند که حرکت را از آخرین ثانیه یک کلیپ موجود ادامه می‌دهد.

بازار تولید ویدئو با هوش مصنوعی در سال ۲۰۲۵ شلوغ شده است، با مدل Gen-4 شرکت Runway که به فیلمسازان هدف‌گذاری شده، Luma Labs که تولید سریع برای رسانه‌های اجتماعی ارائه می‌دهد، Adobe که Firefly Video را به Creative Cloud یکپارچه کرده و به‌روزرسانی‌هایی از xAI، Kling، Meta و Google که به واقع‌گرایی، تولید صدا و پایبندی به دستورات هدف‌گذاری شده‌اند.

اما چقدر خوب است؟ ما این مدل را آزمایش کردیم و اینها برداشت‌های ما هستند.

آزمایش مدل

اگر می‌خواهید امتحانش کنید، بهتر است جیب‌های عمیقی داشته باشید. Veo 3.1 در حال حاضر گران‌ترین مدل تولید ویدئو است، در سطح Sora 2 و فقط پشت سر Sora 2 Pro که بیش از دو برابر هزینه تولید دارد.

کاربران رایگان ۱۰۰ اعتباری ماهانه برای تست سیستم دریافت می‌کنند که برای تولید حدود پنج ویدیو در ماه کافی است. از طریق API جمینی، هزینه Veo 3.1 تقریباً $0.40 در هر ثانیه ویدئوی تولید شده با صدا، در حالی که یک نسخه سریع‌تر به نام Veo 3.1 Fast هزینه‌اش ۰.۱۵ دلار به ازای هر ثانیه است.

برای کسانی که مایلند با آن قیمت از آن استفاده کنند، اینجا نقاط قوت و ضعف آن آورده شده است.

متن به ویدیو

Veo 3.1 به‌طوری واضحی نسبت به نسخه قبلی خود بهبود یافته است. این مدل به خوبی انسجام را مدیریت می‌کند و درک بهتری از محیط‌های متنی نشان می‌دهد.

این در سبک‌های مختلف کار می‌کند، از فتوواقع‌گرایی تا محتویات سبک‌دار.

از مدل خواستیم که صحنه را ترکیب کنید که به عنوان یک طراحی شروع شد و به فیلمبرداری زنده منتقل شد. این کار را بهتر از هر مدل دیگری که آزمایش کردیم، انجام داد.

بدون هیچ قاب مرجع، Veo 3.1 در حالت متن به ویدیو نتایج بهتری نسبت به زمانی که از همان درخواست با یک تصویر اولیه استفاده شد، تولید کرد که شگفت‌انگیز بود.

تجارت این است که سرعت حرکت را قربانی کنید. ویو ۳.۱ بر هم‌خوانی به جای سیالیت اولویت می‌دهد، که ایجاد اقدام‌های سریع را چالش‌برانگیز می‌کند.

عناصر با سرعت کمتری حرکت می‌کنند اما در طول کلیپ ثبات را حفظ می‌کنند. کِلینگ هنوز در حرکت سریع پیشتاز است، هرچند که نیاز به تلاش‌های بیشتری برای دستیابی به نتایج قابل استفاده دارد.

تصویر به ویدیو

ویو شهرت خود را بر اساس تولید تصویر به ویدیو بنا کرده است و نتایج همچنان ارائه می‌شوند – با احتیاط‌هایی. به نظر می‌رسد این بخش در بروزرسانی ضعیف‌تر شده است. هنگام استفاده از نسبت‌های مختلف بُعد به عنوان فریم‌های شروع، مدل در حفظ سطوح هم‌خوانی که قبلاً داشت، دچار مشکل شد.

اگر درخواست بیش از حد از آنچه که به طور منطقی باید پس از تصویر ورودی دنبال شود، منحرف شود، ویو ۳.۱ راهی برای تقلب پیدا می‌کند. این سیستم صحنه‌ها یا کلیپ‌های نامربوطی تولید می‌کند که پرش بین مکان‌ها تنظیمات یا عناصر کاملاً متفاوت.

این زمان و اعتبار را هدر می‌دهد، زیرا این کلیپ‌ها نمی‌توانند به توالی‌های طولانی‌تر ویرایش شوند چون با فرمت مطابقت ندارند.

زمانی که کار می‌کند، نتایج فوق‌العاده به نظر می‌رسند. رسیدن به آن ترکیبی است از مهارت و شانس—بیشتر شانس.

عناصر به ویدیو

این ویژگی مانند ترمیم در ویدیو عمل می‌کند و به کاربران این امکان را می‌دهد که عناصری را از یک صحنه وارد یا حذف کنند. با این حال، انتظار نداشته باشید که ثبات کامل را حفظ کند یا تصاویر مرجع دقیقتان را استفاده کند.

به عنوان مثال، ویدیوی زیر با استفاده از این سه مرجع و دستور زیر ایجاد شده است: مردی و زنی در حال دویدن در یک شهر آینده‌نگر بر یکدیگر برخورد می‌کنند، جایی که یک هولوگرام علامت بیت‌کوین در حال چرخش است. مرد به زن می‌گوید: “سریع، بیت‌کوین سقوط کرده! باید بیشتر بخریم!”

به عنوان شما می‌توانید ببینید نه شهر و نه شخصیت‌ها واقعاً وجود ندارند. اما شخصیت‌ها لباس‌های مرجع را به تن دارند، شهر مشابه شهری است که در تصویر است، و چیزها ایده عناصر را به تصویر می‌کشند، نه خود عناصر را.

Veo 3.1 عناصر بارگذاری شده را به عنوان منبع الهام در نظر می‌گیرد تا الگوهای سخت. این نرم‌افزار صحنه‌هایی را ایجاد می‌کند که از راهنما پیروی می‌کنند و شامل اشیائی هستند که شبیه به آنچه ارائه داده‌اید می‌باشند، اما وقت خود را صرف تلاش برای وارد کردن خود به یک فیلم نکنید – این کار نخواهد کرد.

یک راه‌حل: از Nanobanana یا Seedream برای بارگذاری عناصر و تولید یک فریم شروع منسجم ابتدا استفاده کنید. سپس آن تصویر را به Veo 3.1 بدهید، که ویدیویی تولید می‌کند که در آن شخصیت‌ها و اشیاء حداقل تغییر شکل را در سراسر صحنه نشان می‌دهند.

متن به ویدیو با دیالوگ

این نقطه قوت گوگل است. ویو 3.1 بهتر از هر مدل دیگری که در حال حاضر در دسترس است، هماهنگی لب را مدیریت می‌کند. در حالت تبدیل متن به ویدیو، این مدل تولید می‌کند. صوت محیطی متجانس که با عناصر صحنه مطابقت دارد.

گفتگو، تن صدا، صداها و احساسات دقیق هستند و از مدل‌های رقیب بهتر عمل می‌کنند.

دیگر ژنراتورها می‌توانند نویز محیطی تولید کنند، اما تنها سوره، ویو و گراک قادر به تولید کلمات واقعی هستند.

از آن سه، ویو ۳.۱ به کمترین تلاش برای به دست آوردن نتایج خوب در حالت متن به ویدیو نیاز دارد.

تصویر به ویدیو با دیالوگ

این جایی است که اوضاع خراب می‌شود. تبدیل تصویر به ویدیو با دیالوگ از همان مشکلات تبدیل تصویر به ویدیو استاندارد رنج می‌برد. ویو ۳.۱ تا حدی بر انسجام تمرکز کرده است که به رعایت پرامپت و تصاویر مرجع بی‌توجهی می‌کند.

به عنوان مثال، این صحنه این متن با استفاده از مرجع نمایش داده شده در بخش ویدئو ایجاد شده است.

همانطور که می‌بینید، تست ما موضوعی کاملاً متفاوت از تصویر مرجع تولید کرد. کیفیت ویدیو عالی بود—خطintonation و حرکات کاملاً درست بودند—اما این فردی نبود که ما بارگذاری کردیم و این نتیجه را بی‌فایده می‌کند.

ویژگی ریمیکس سورا بهترین گزینه برای این مورد استفاده است. ممکن است مدل سانسور شده باشد، اما قابلیت‌های آن در تبدیل تصویر به ویدیو، هم‌زمانی واقع‌گرایانه لب‌ها و تمرکز بر لحن، لهجه، احساس و واقع‌گرایی آن را به برنده واضح تبدیل می‌کند.

ژنراتور ویدیوی گراک در جایگاه دوم قرار دارد. این ابزار بهتر از ویدیو ۳.۱ و تصویر مرجع را رعایت کرد و نتایج بهتری تولید کرد. اینجا یک نسل است با استفاده از همان تصویر مرجع و درخواست.

اگر نمی‌خواهید با اپلیکیشن اجتماعی سارا سر و کار داشته باشید یا به آن دسترسی ندارید، گراک ممکن است گزینه‌ی بهتری باشد. این اپلیکیشن همچنین بدون سانسور اما با مدیریت است، بنابراین اگر به این رویکرد خاص نیاز دارید، ماسک به شما کمک کرده است.