هوش مصنوعی جدید مایکروسافت می تواند هر صدایی را از یک ضبط 3 ثانیه ای تقلید کند

مایکروسافت اخیراً از مدل پیشرفته زبان هوش مصنوعی متن به گفتار VALL-E خود رونمایی کرده است که ادعا می‌کند می‌تواند هر صدایی – از جمله لحن احساسی، صدای صدا و حتی نویز پس‌زمینه – را پس از آموزش تنها با استفاده از سه ثانیه صدا تقلید کند.

محققان بر این باورند که VALL-E می‌تواند به‌عنوان یک ترکیب‌کننده متن به گفتار با کیفیت بالا، و همچنین یک ویرایشگر گفتار که می‌تواند ضبط‌های صوتی را برای شامل عباراتی که در ابتدا گفته نشده است، اصلاح کند. توسعه دهندگان می گویند که همراه با مدل های هوش مصنوعی مولد مانند GPT-3 OpenAI، از VALL-E حتی می توان در تولید محتوای صوتی اصلی استفاده کرد.

این توسعه باعث شده است که برخی از کارشناسان زنگ خطر را در مورد پیامدهای این فناوری برای استفاده نادرست به صدا در آورند. منابع می گویند که از طریق VALL-E و سایر برنامه های مولد هوش مصنوعی، عوامل مخرب می توانند اطلاعات نادرست مبتنی بر صوتی را در مقیاس های بی سابقه ای تولید کنند.

VALL-E چگونه کار می کند؟

نموداری که نمای کلی از خط لوله VALL-E را نشان می دهد.

برخلاف سینت سایزرهای گفتار قبلی، که اکثر آنها با تعدیل شکل موج ها برای صدایی شبیه به گفتار انسان کار می کنند، VALL-E با تجزیه و تحلیل یک نمونه صدای کوتاه عمل می کند تا محتمل ترین نمایشی از صدای آن صدا را براساس هزاران ساعت صدا ایجاد کند. داده های آموزشی، مقاله مایکروسافت را می خواند.

برای ارائه داده‌های کافی برای مطابقت با هر نمونه صوتی قابل تصور، VALL-E با استفاده از کتابخانه صوتی LibriLight متا با 60000 ساعت گفتار از بیش از 7000 بلندگوی منحصر به فرد آموزش دید – در مقایسه، سیستم‌های تبدیل متن به گفتار فعلی به طور متوسط ​​کمتر از 600 است. نویسندگان نوشتند ساعت ها داده های آموزشی.

به گفته محققان، نتیجه مدلی است که از نظر «طبیعی بودن گفتار و شباهت گوینده» از مولدهای تبدیل متن به گفتار فعلی بهتر است.

نمونه هایی از قابلیت های این مدل به صورت آنلاین موجود است. در حالی که برخی از اعلان‌های صوتی آشکارا جعلی به نظر می‌رسیدند، برخی دیگر به سخنانی با صدای طبیعی نزدیک شدند و حتی به آن رسیدند. از آنجایی که هوش مصنوعی با سرعت سرسام آوری به پیشرفت خود ادامه می دهد، برخی از کارشناسان معتقدند VALL-E به زودی می تواند تقلید تقریباً کاملی از صدای هر کسی ارائه دهد.

رونمایی VALL-E پیش از گزارش‌هایی بود مبنی بر اینکه مایکروسافت ظاهراً قصد دارد ۱۰ میلیارد دلار در OpenAI سرمایه‌گذاری کند، استارت‌آپی که توسط ایلان ماسک موسس است و GPT-3 (یکی از قوی‌ترین مدل‌های زبان موجود) و برنامه چت‌بات مگا ویروسی آن، ChatGPT را ایجاد کرد. مشخص نیست که آیا توسعه VALL-E بر این تصمیم تأثیر گذاشته است یا خیر.

مایکروسافت درخواست ستاره برای اظهار نظر را رد کرد.

راحتی در استفاده

برت کاراوی، دانشیار اقتصاد رسانه در دانشگاه تورنتو، گفت که سینتی سایزرهای تقلید صدا در حال حاضر وجود دارند – اما برای ارائه سخنرانی قانع کننده به مقدار زیادی داده صوتی تمیز نیاز دارند.

برت کاراوی، دانشیار اقتصاد رسانه در موسسه ارتباطات، فرهنگ، اطلاعات و فناوری دانشگاه تورنتو است.

با این حال، با فناوری‌هایی مانند VALL-E، هر کسی می‌تواند با چند ثانیه صدا به نتایج مشابهی دست یابد.

کاراوی گفت: “VALL-E آستانه یا مانع تکرار صدای دیگران را کاهش می دهد.” بنابراین، در آسان‌تر کردن این کار، خطر تکثیر محتوا را ایجاد می‌کند زیرا افراد بیشتری با منابع کمتر می‌توانند آن را با سرعت بیشتری انجام دهند.»

این یک بحران واقعی در مدیریت کمپین های اطلاعات نادرست ایجاد خواهد کرد. تشخیص آن سخت تر خواهد بود و از نظر حجم اطلاعات نادرست به طور بالقوه بسیار زیاد خواهد بود.”

از دست دادن اعتماد

کاراوی ادامه داد که بازیگران بد می‌توانند صدای تغییریافته را با ویدیوی ساخته شده جفت کنند تا به نظر برسد که هر کسی چیزی بگوید. تماس‌گیرندگان هرزنامه و کلاهبرداری می‌توانند با افرادی که وانمود می‌کنند کسی نیستند تماس بگیرند. کلاهبرداران می توانند از آن برای دور زدن سیستم های شناسایی صوتی استفاده کنند – و این فقط نوک کوه یخ است. در نهایت، Caraway نگران است که “این می تواند اعتماد مردم را در سراسر صفحه از بین ببرد.”

آبیشک گوپتا موسس و محقق اصلی موسسه اخلاق هوش مصنوعی مونترال، یک سازمان بین المللی غیرانتفاعی است.

آبیشک گوپتا، بنیانگذار و محقق اصلی در موسسه اخلاق هوش مصنوعی مونترال، با این موضوع موافق است. او در ایمیل نوشت: «این احتمال وجود دارد که باور ما به شهادت، شواهد و سایر گواهی‌های ارائه شده از بین برود، زیرا همیشه این ادعا وجود دارد که کسی می‌تواند بگوید شبیه صدایش تکرار شده است و هیچ‌یک از آنها را نگفته‌اند. چیزهایی که به آنها نسبت داده می شود.

این امر سلامت اکوسیستم اطلاعاتی را بیشتر کاهش می دهد و اعتماد را به یک کالای بسیار ضعیف در جامعه تبدیل می کند.

گوپتا همچنین خاطرنشان کرد که هنرمندانی که برای امرار معاش به صدای خود متکی هستند می‌توانند تحت تأثیر قرار گیرند، زیرا اکنون می‌توان صدای هر کسی را برای استفاده در پروژه‌هایی که قبلاً باید برای آن‌ها پول پرداخت می‌کردید بدزدید.

چگونه می توانیم از آسیب جلوگیری کنیم؟

گوپتا معتقد است که زمان آن فرا رسیده است که “مجموعه ای چند رشته ای از ذینفعان که تخصص دامنه را در هوش مصنوعی، سیاست گذاری و تفکر آینده حمل می کنند” جمع آوری کنیم تا به جای واکنش ساده به هر پیشرفت جدید، فعالانه برای چالش های آینده آماده شوند.

او ادامه داد: «تکیه به تحقیقات موجود در زمینه‌های مسئولیت‌پذیری، شفافیت، انصاف، حریم خصوصی، امنیت و غیره که مربوط به هوش مصنوعی است، می‌تواند به کاهش شدت چالش‌هایی که ممکن است در این فضا با آن‌ها مواجه شود، کمک کند.»

محققان مایکروسافت در نتیجه گیری خود به پتانسیل آسیب رساندن به VALL-E اذعان کردند و گفتند که توانایی های آن «ممکن است در استفاده نادرست از این مدل خطرات بالقوه ای داشته باشد، مانند جعل شناسایی صدا یا جعل هویت یک سخنران خاص. برای کاهش چنین خطراتی، می توان یک مدل تشخیص ساخت تا تشخیص دهد که آیا یک کلیپ صوتی توسط VALL-E ساخته شده است یا خیر.

در حالی که او موافقت کرد که می تواند کمک کند، Caraway تردید دارد که تنها اتکا به نرم افزار تشخیص هوش مصنوعی کافی است: همانطور که مدل های تشخیص پیشرفت می کنند، تکنیک های دور زدن تشخیص مذکور نیز افزایش می یابد. درعوض، او معتقد است که آموزش سواد رسانه ای بهترین راه حل است – آموزش به بچه ها از سنین پایین چگونه می توانند اطلاعات قابل اعتماد آنلاین را پیدا کنند.

او گفت: «یکی از مواردی که من طرفدار آن بوده‌ام، تلاش برای ایجاد سواد رسانه‌ای و سواد اطلاعاتی از پیش دبستانی است.

“من همچنین فکر می کنم یک جزء کلیدی در اینجا تعهد مجدد به روزنامه نگاری خوب است … نه فقط در بیان، بلکه از نظر سرمایه گذاری در روزنامه نگاری با کیفیت. اکنون بیش از هر زمان دیگری به آن نیاز داریم.»

به گفتگو بپیوندید

گفتگوها نظرات خوانندگان ما است و مشمول این است کد رفتار. ستاره این نظرات را تایید نمی کند.