مایکروسافت اخیراً از مدل پیشرفته زبان هوش مصنوعی متن به گفتار VALL-E خود رونمایی کرده است که ادعا میکند میتواند هر صدایی – از جمله لحن احساسی، صدای صدا و حتی نویز پسزمینه – را پس از آموزش تنها با استفاده از سه ثانیه صدا تقلید کند.
محققان بر این باورند که VALL-E میتواند بهعنوان یک ترکیبکننده متن به گفتار با کیفیت بالا، و همچنین یک ویرایشگر گفتار که میتواند ضبطهای صوتی را برای شامل عباراتی که در ابتدا گفته نشده است، اصلاح کند. توسعه دهندگان می گویند که همراه با مدل های هوش مصنوعی مولد مانند GPT-3 OpenAI، از VALL-E حتی می توان در تولید محتوای صوتی اصلی استفاده کرد.
این توسعه باعث شده است که برخی از کارشناسان زنگ خطر را در مورد پیامدهای این فناوری برای استفاده نادرست به صدا در آورند. منابع می گویند که از طریق VALL-E و سایر برنامه های مولد هوش مصنوعی، عوامل مخرب می توانند اطلاعات نادرست مبتنی بر صوتی را در مقیاس های بی سابقه ای تولید کنند.
VALL-E چگونه کار می کند؟
برخلاف سینت سایزرهای گفتار قبلی، که اکثر آنها با تعدیل شکل موج ها برای صدایی شبیه به گفتار انسان کار می کنند، VALL-E با تجزیه و تحلیل یک نمونه صدای کوتاه عمل می کند تا محتمل ترین نمایشی از صدای آن صدا را براساس هزاران ساعت صدا ایجاد کند. داده های آموزشی، مقاله مایکروسافت را می خواند.
برای ارائه دادههای کافی برای مطابقت با هر نمونه صوتی قابل تصور، VALL-E با استفاده از کتابخانه صوتی LibriLight متا با 60000 ساعت گفتار از بیش از 7000 بلندگوی منحصر به فرد آموزش دید – در مقایسه، سیستمهای تبدیل متن به گفتار فعلی به طور متوسط کمتر از 600 است. نویسندگان نوشتند ساعت ها داده های آموزشی.
به گفته محققان، نتیجه مدلی است که از نظر «طبیعی بودن گفتار و شباهت گوینده» از مولدهای تبدیل متن به گفتار فعلی بهتر است.
نمونه هایی از قابلیت های این مدل به صورت آنلاین موجود است. در حالی که برخی از اعلانهای صوتی آشکارا جعلی به نظر میرسیدند، برخی دیگر به سخنانی با صدای طبیعی نزدیک شدند و حتی به آن رسیدند. از آنجایی که هوش مصنوعی با سرعت سرسام آوری به پیشرفت خود ادامه می دهد، برخی از کارشناسان معتقدند VALL-E به زودی می تواند تقلید تقریباً کاملی از صدای هر کسی ارائه دهد.
رونمایی VALL-E پیش از گزارشهایی بود مبنی بر اینکه مایکروسافت ظاهراً قصد دارد ۱۰ میلیارد دلار در OpenAI سرمایهگذاری کند، استارتآپی که توسط ایلان ماسک موسس است و GPT-3 (یکی از قویترین مدلهای زبان موجود) و برنامه چتبات مگا ویروسی آن، ChatGPT را ایجاد کرد. مشخص نیست که آیا توسعه VALL-E بر این تصمیم تأثیر گذاشته است یا خیر.
مایکروسافت درخواست ستاره برای اظهار نظر را رد کرد.
راحتی در استفاده
برت کاراوی، دانشیار اقتصاد رسانه در دانشگاه تورنتو، گفت که سینتی سایزرهای تقلید صدا در حال حاضر وجود دارند – اما برای ارائه سخنرانی قانع کننده به مقدار زیادی داده صوتی تمیز نیاز دارند.
با این حال، با فناوریهایی مانند VALL-E، هر کسی میتواند با چند ثانیه صدا به نتایج مشابهی دست یابد.
کاراوی گفت: “VALL-E آستانه یا مانع تکرار صدای دیگران را کاهش می دهد.” بنابراین، در آسانتر کردن این کار، خطر تکثیر محتوا را ایجاد میکند زیرا افراد بیشتری با منابع کمتر میتوانند آن را با سرعت بیشتری انجام دهند.»
این یک بحران واقعی در مدیریت کمپین های اطلاعات نادرست ایجاد خواهد کرد. تشخیص آن سخت تر خواهد بود و از نظر حجم اطلاعات نادرست به طور بالقوه بسیار زیاد خواهد بود.”
از دست دادن اعتماد
کاراوی ادامه داد که بازیگران بد میتوانند صدای تغییریافته را با ویدیوی ساخته شده جفت کنند تا به نظر برسد که هر کسی چیزی بگوید. تماسگیرندگان هرزنامه و کلاهبرداری میتوانند با افرادی که وانمود میکنند کسی نیستند تماس بگیرند. کلاهبرداران می توانند از آن برای دور زدن سیستم های شناسایی صوتی استفاده کنند – و این فقط نوک کوه یخ است. در نهایت، Caraway نگران است که “این می تواند اعتماد مردم را در سراسر صفحه از بین ببرد.”
آبیشک گوپتا، بنیانگذار و محقق اصلی در موسسه اخلاق هوش مصنوعی مونترال، با این موضوع موافق است. او در ایمیل نوشت: «این احتمال وجود دارد که باور ما به شهادت، شواهد و سایر گواهیهای ارائه شده از بین برود، زیرا همیشه این ادعا وجود دارد که کسی میتواند بگوید شبیه صدایش تکرار شده است و هیچیک از آنها را نگفتهاند. چیزهایی که به آنها نسبت داده می شود.
این امر سلامت اکوسیستم اطلاعاتی را بیشتر کاهش می دهد و اعتماد را به یک کالای بسیار ضعیف در جامعه تبدیل می کند.
گوپتا همچنین خاطرنشان کرد که هنرمندانی که برای امرار معاش به صدای خود متکی هستند میتوانند تحت تأثیر قرار گیرند، زیرا اکنون میتوان صدای هر کسی را برای استفاده در پروژههایی که قبلاً باید برای آنها پول پرداخت میکردید بدزدید.
چگونه می توانیم از آسیب جلوگیری کنیم؟
گوپتا معتقد است که زمان آن فرا رسیده است که “مجموعه ای چند رشته ای از ذینفعان که تخصص دامنه را در هوش مصنوعی، سیاست گذاری و تفکر آینده حمل می کنند” جمع آوری کنیم تا به جای واکنش ساده به هر پیشرفت جدید، فعالانه برای چالش های آینده آماده شوند.
او ادامه داد: «تکیه به تحقیقات موجود در زمینههای مسئولیتپذیری، شفافیت، انصاف، حریم خصوصی، امنیت و غیره که مربوط به هوش مصنوعی است، میتواند به کاهش شدت چالشهایی که ممکن است در این فضا با آنها مواجه شود، کمک کند.»
محققان مایکروسافت در نتیجه گیری خود به پتانسیل آسیب رساندن به VALL-E اذعان کردند و گفتند که توانایی های آن «ممکن است در استفاده نادرست از این مدل خطرات بالقوه ای داشته باشد، مانند جعل شناسایی صدا یا جعل هویت یک سخنران خاص. برای کاهش چنین خطراتی، می توان یک مدل تشخیص ساخت تا تشخیص دهد که آیا یک کلیپ صوتی توسط VALL-E ساخته شده است یا خیر.
در حالی که او موافقت کرد که می تواند کمک کند، Caraway تردید دارد که تنها اتکا به نرم افزار تشخیص هوش مصنوعی کافی است: همانطور که مدل های تشخیص پیشرفت می کنند، تکنیک های دور زدن تشخیص مذکور نیز افزایش می یابد. درعوض، او معتقد است که آموزش سواد رسانه ای بهترین راه حل است – آموزش به بچه ها از سنین پایین چگونه می توانند اطلاعات قابل اعتماد آنلاین را پیدا کنند.
او گفت: «یکی از مواردی که من طرفدار آن بودهام، تلاش برای ایجاد سواد رسانهای و سواد اطلاعاتی از پیش دبستانی است.
“من همچنین فکر می کنم یک جزء کلیدی در اینجا تعهد مجدد به روزنامه نگاری خوب است … نه فقط در بیان، بلکه از نظر سرمایه گذاری در روزنامه نگاری با کیفیت. اکنون بیش از هر زمان دیگری به آن نیاز داریم.»
به گفتگو بپیوندید