دیپمایند، زیرمجموعه هوش مصنوعی گوگل، از فناوری جدیدی به نام V2A رونمایی کرد که میتواند به طور خودکار موسیقی متن، افکتهای صوتی و حتی دیالوگ به ویدیوها اضافه کند.
این فناوری که مخفف “Video to Audio” است، یک گام بزرگ در جهت تولید ویدیوهای کامل و جذاب با هوش مصنوعی به شمار میرود.
تا پیش از این، مدلهای هوش مصنوعی تولید ویدیو مانند Sora و Dream Machine، خروجیهای بیصدا ارائه میکردند. V2A با پر کردن این خلاء، ابزاری قدرتمند برای خلق محتوای ویدیویی با صداگذاریهای متناسب و دقیق به دست میدهد.
نحوه عملکرد V2A:
کاربر میتواند با توضیحات متنی ساده، نوع صدای مورد نظر خود را برای ویدیو مشخص کند. به عنوان مثال، میتوان برای یک ویدیوی زیر آب، صدای غوطهور شدن عروس دریایی در اقیانوس را درخواست کرد.
هوش مصنوعی V2A با استفاده از مجموعه دادههای عظیم شامل ویدیوها، صداها و متنهای دیالوگ، صدای مورد نظر را تولید میکند.
این مدل هوش مصنوعی به طور خودکار صدا را با فریمهای ویدیو همگامسازی میکند و خروجی نهایی، ویدیویی با صداگذاری کاملاً طبیعی و متناسب با تصاویر خواهد بود.
مزایای V2A:
ایجاد ویدیوهای جذاب و کامل با صداگذاریهای دقیق و متناسب
سهولت استفاده: کاربر میتواند با توضیحات متنی ساده، صدای مورد نظر خود را مشخص کند.
سرعت بالا: V2A میتواند در عرض چند ثانیه صداگذاری ویدیو را انجام دهد.
کاربردهای متنوع: V2A میتواند برای انواع مختلف ویدیوها از جمله فیلمهای کوتاه، تبلیغات، آموزش و سرگرمی مورد استفاده قرار گیرد.
هنوز مشخص نیست که دیپمایند از چه دادههایی برای آموزش V2A استفاده کرده و این دادهها کپیرایت دارند یا خیر.
با این حال، V2A یک پیشرفت قابل توجه در زمینه تولید ویدیو با هوش مصنوعی به شمار میرود و میتواند تحولات بزرگی را در این صنعت ایجاد کند.
علاوه بر دیپمایند، استارتاپهای دیگری مانند Stability AI و ElevenLabs نیز در حال توسعه ابزارهای مشابهی هستند. رقابت در این زمینه میتواند به نوآوریهای بیشتر و ارائه ابزارهای قدرتمندتر و کارآمدتر برای تولید ویدیو با هوش مصنوعی منجر شود.