اخیراً گوگل با افزودن قابلیت جستجوی ویدیویی و صوتی به گوگل لنز، گامی بزرگ در جهت هوشمندتر کردن جستجوهای بصری برداشته است. این قابلیت جدید، به کاربران اجازه میدهد تا با استفاده از دوربین گوشی خود، دنیای اطرافشان را بهتر درک کنند و به اطلاعات دقیقتری دسترسی پیدا کنند.
اضافه شدن قابلیت جستجوی ویدیویی و صوتی به گوگل لنز، نشان از تلاش گوگل برای ایجاد یک تجربه جستجوی جامعتر و هوشمندتر است. این قابلیت پتانسیل بالایی برای تغییر نحوه تعامل ما با اطلاعات و دنیای اطرافمان دارد.
با توجه به پیشرفتهای سریع در حوزه هوش مصنوعی، میتوان انتظار داشت که در آینده شاهد توسعه بیشتر این فناوری و کاربردهای جدید آن باشیم.
نحوه عملکرد جستجوی ویدیویی و صوتی در گوگل لنز
ضبط ویدیو: کاربر با استفاده از دوربین گوشی خود، ویدیویی از سوژه مورد نظر ضبط میکند.
تجزیه و تحلیل ویدیو: گوگل لنز با استفاده از هوش مصنوعی، ویدیو را به فریمهای جداگانه تقسیم کرده و هر فریم را به عنوان یک تصویر جداگانه پردازش میکند.
پردازش اطلاعات توسط Gemini AI: اطلاعات استخراج شده از ویدیو به مدل زبانی بزرگ Gemini AI ارسال میشود. این مدل با استفاده از دانش وسیعی که دارد، به سوالات کاربر پاسخ میدهد.
ارائه پاسخ: پاسخ نهایی به صورت متنی یا بصری به کاربر نمایش داده میشود.
مزایای این قابلیت:
جستجوی دقیقتر: با امکان پرسیدن سوالات صوتی، کاربران میتوانند جستجوهای دقیقتری انجام دهند و به اطلاعاتی که به دنبال آن هستند، سریعتر دسترسی پیدا کنند.
درک بهتر محتوا: گوگل لنز با تحلیل ویدیو، میتواند مفاهیم پیچیدهتری را درک کند و پاسخهای جامعتری ارائه دهد.
کاربردهای متنوع: این قابلیت در حوزههای مختلفی مانند آموزش، علم، و سرگرمی کاربرد دارد.
توسعه هوش مصنوعی: این ویژگی نشان میدهد که گوگل به طور جدی به توسعه هوش مصنوعی و کاربرد آن در محصولات خود میپردازد.
محدودیتهای فعلی:
زبان: در حال حاضر این قابلیت تنها از زبان انگلیسی پشتیبانی میکند.
تشخیص صدا: هنوز نمیتواند صداهای موجود در ویدیوها مانند صدای پرندگان را تشخیص دهد.
پیچیدگی سوالات: برای برخی سوالات پیچیده یا تخصصی، ممکن است پاسخهای کاملاً دقیقی ارائه ندهد.
آینده این فناوری:
با پیشرفتهای بیشتر در حوزه هوش مصنوعی، میتوان انتظار داشت که قابلیت جستجوی ویدیویی و صوتی گوگل لنز در آینده بهبود یابد و کاربردهای بیشتری پیدا کند. برخی از امکانات بالقوه عبارتند از:
ترجمه همزمان زبانها: امکان ترجمه همزمان زبانهای مختلف در ویدیوها
شناسایی اشیاء و افراد در ویدیو: تشخیص اشیاء و افراد موجود در ویدیو و ارائه اطلاعات بیشتر در مورد آنها
ایجاد ویدیوهای کوتاه: ایجاد ویدیوهای کوتاه با استفاده از هوش مصنوعی بر اساس جستجوهای کاربر