Web Analytics Made Easy - Statcounter
به نقل از «خبرآنلاین»
2024-05-03@16:35:49 GMT

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

تاریخ انتشار: ۲۳ دی ۱۴۰۱ | کد خبر: ۳۶۸۳۵۹۹۵

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

محققان مایکروسافت یک مدل جدید هوش مصنوعیتبدیل متن به گفتار به‌نام VALL-E معرفی کرده‌اند که می‌تواند صدای افراد را با نمونه‌ی صوتی سه‌ثانیه‌ای از صدای آن‌ها، شبیه‌سازی کنند. این مدل پس‌از یادگیری صدای خاص، می‌تواند آن را با هر چیزی که می‌گویید ترکیب کند و این‌کار را به‌نحوی انجام می‌دهد که لحن احساسی گوینده‌ی اصلی حفظ شود.

بیشتر بخوانید: اخباری که در وبسایت منتشر نمی‌شوند!

سازندگان VALL-E حدس می‌زنند این مدل هوش مصنوعی می‌تواند برای برنامه‌های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه‌های ویرایش گفتار که در آن صدای ضبط‌شده‌ی یک شخص می‌تواند ویرایش شود مورد استفاده قرار گیرد. این مدل همچنین می‌تواند با ترکیب سایر مدل‌های هوش مصنوعی مثل GPT-3 برای ایجاد محتوای صوتی استفاده شود.

مایکروسافت VALL-E را «مدل زبان کدک عصبی» می‌نامد و از کدهای کدک صوتی EnCodec که متا آن را در اکتبر ۲۰۲۲ معرفی کرد، استفاده می‌کند. این فناوری اساساً حالت صدای یک شخص را تجزیه‌وتحلیل و اطلاعات به‌دست آمده را به اجزای جداگانه که توکن نامیده می‌شوند تبدیل می‌کند. در مرحله‌ی بعد از داده‌های آموزشی برای مطابقت با آن‌چه درمورد صدای شخص می‌داند بهره می‌برد. مایکروسافت می‌گوید:

VALL-E برای ترکیب گفتار شخصی‌شده نشانه‌های صوتی را از صدای سه‌ثانیه‌ای شخص موردنظر ثبت می‌کند و درنهایت از آن‌ها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره می‌برد.

مایکروسافت قابلیت سنتز گفتار VALL-E را روی کتابخانه‌ی صوتی LibriLight متا آموزش داد. این فرآیند شامل ۶۰ هزار ساعت سخنرانی به زبان انگلیسی از بیش‌از هفت هزار سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج‌ شده‌اند. برای اینکه VALL-E نتیجه‌ی خوبی ایجاد کند صدای نمونه‌ی سه ثانیه‌ای باید دقیقاً با صدای داده‌های آموزشی مطابقت داشته باشد.

مایکروسافت در وب‌سایت نمونه‌ی VALL-E، ده‌ها نمونه‌ی صوتی از مدل هوش مصنوعی، ارائه‌ داده است. در میان نمونه‌ها، Speaker Prompt صدای سه‌ثانیه‌ای ارائه‌شده به VALL-E است که باید از آن تقلید کند. در این وب‌سایت صدای سه‌ثانیه‌ای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان می‌کند. Baseline نمونه‌ای از سنتر است که با روش سنتز متن به‌ گفتار ارائه می‌شود و نمونه‌ی VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه می‌دهد.

به‌نوشته‌ی ArsTechnica، درحالی‌که از VALL-E برای ایجاد نتایج استفاده می‌شود، محققان فقط نمونه‌ی سه‌ ثانیه‌ای Speaker Prompt و یک رشته متن که می‌خواهند با آن صوت بیان شود را به VALL-E ارائه دادند. در برخی موارد، این دو نمونه بسیار نزدیک هستند. به‌نظر می‌رسد برخی از نتایج این هوش مصنوعی با رایانه ایجاد شده‌اند اما برخی دیگر به‌طور بالقوه می‌توانند با گفتار انسان اشتباه گرفته شوند که درواقع این مورد، هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه‌بر حفظ لحن صوتی و احساسی گوینده، می‌تواند از محیط آکوستیک نمونه‌ی صوتی نیز تقلید کند. به‌عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی‌های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشده‌ی خود شبیه‌سازی می‌کند و نمونه‌های مایکروسافت نشان می‌دهد VALL-E قادر است با تغییر دامنه‌ی تصادفی مورداستفاده در فرآیند تولید صدا، تغییراتی در تُن آن ایجاد کند.

شاید مایکروسافت به‌دلیل توانایی VALL-E در تحریک احتمالی شیطنت و فریب، کد آن را برای آزمایش به دیگران ارائه نداده است. بنابراین درحال‌حاضر نمی‌توان قابلیت‌های این هوش مصنوعی را آزمایش کرد. به‌نظر می‌رسد محققان از آسیب اجتماعی بالقوه‌ای که این فناوری می‌تواند به‌همراه داشته باشد آگاه هستند. در بخشی از نتیجه‌گیری این مقاله آمده است:

از آنجا که گفتار ایجاد شده با VALL-E می‌تواند هویت گوینده را حفظ کند، شاید خطرات بالقوه‌ای در استفاده‌ی نادرست از مدل وجود داشته باشد که از جمله می‌توان به جعل هویت صدا یا جعل هویت یک گوینده‌ی خاص اشاره کرد. برای کاهش چینین خطراتی می‌توان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب مشخص می‌شود آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین اصول هوش مصنوعی مایکروسافت را در توسعه‌ی بیشتر مدل‌های به‌کار خواهیم برد.

۲۲۷۲۲۷

کد خبر 1718712

منبع: خبرآنلاین

کلیدواژه: هوش مصنوعی جستجوی صوتی فناوری ی سه ثانیه ای هوش مصنوعی ایجاد شده نمونه ی ی صوتی

درخواست حذف خبر:

«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را به‌طور اتوماتیک از وبسایت www.khabaronline.ir دریافت کرده‌است، لذا منبع این خبر، وبسایت «خبرآنلاین» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۶۸۳۵۹۹۵ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتی‌که در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.

با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.

خبر بعدی:

وقتی در کمتر از یک ثانیه کارما به سراغت می‌آید! / فیلم

وقتی در کمتر از یک ثانیه کارما به سراغت می‌آید! / فیلم

دیگر خبرها

  • وقتی در کمتر از یک ثانیه کارما به سراغت می‌آید! / فیلم
  • اسلامی: شبیه‌سازی انتخابات الکترونیک یکشنبه در استان تهران برگزار می‌شود
  • پنج هفته دوم اوسمار شبیه پنج هفته ابتدایی یحیی
  • بومی‌سازی دوربین های ضد انفجار برای صنعت دریایی در شرکت دانش‌ بنیان
  • مغز انسان شبیه‌سازی شد
  • مغز انسان به شکلی بی‌نظیر شبیه‌سازی شد
  • آموزش افزایش صدای تلویزیون بدون استفاده از ساندبار یا سیستم صوتی
  • مجموعه خبری ۳۰۰ ثانیه
  • ایموجی صوتی؛ قابلیت بسیار عجیب نرم‌افزار تماس اندروید/ فیلم
  • هوش مصنوعی چگونه به معماران و طراحان کمک می‌کند؟