هوش مصنوعی مایکروسافت با یک فایل صوتی سه ثانیه ای صدای هر کسی را شبیه سازی می کند


محققان مایکروسافت مدل جدیدی از هوش مصنوعی تبدیل متن به گفتار به نام VALL-E معرفی کرده اند که می تواند صدای افراد را با یک نمونه صوتی سه ثانیه ای از صدای آنها شبیه سازی کند. پس از یادگیری یک صدای خاص، مدل می تواند آن را با هر آنچه شما می گویید مطابقت دهد و این کار را به گونه ای انجام می دهد که لحن احساسی گوینده اصلی را حفظ کند.

سازندگان VALL-E حدس می زنند که این مدل هوش مصنوعی می تواند برای برنامه های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه های ویرایش گفتار که در آن صدای ضبط شده یک فرد قابل ویرایش باشد، استفاده شود. همچنین می توان از این مدل در ترکیب با سایر مدل های هوش مصنوعی مانند GPT-3 برای تولید محتوای صوتی استفاده کرد.

مایکروسافت VALL-E را “مدل زبان کدک عصبی” می نامد و از کدک های صوتی EnCodec استفاده می کند که متا در اکتبر 2022 اعلام کرد. این فناوری اساساً وضعیت صدای افراد را تجزیه و تحلیل می کند و اطلاعات به دست آمده را به اجزای فردی به نام توکن تبدیل می کند. سپس، از داده های آموزشی برای مطابقت با آنچه در مورد صدای فرد می داند استفاده می کند. مایکروسافت می گوید:

برای سنتز گفتار شخصی، VALL-E سیگنال های صوتی را از صدای سه ثانیه ای شخص مورد نظر ضبط می کند و در نهایت از آنها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه استفاده می کند.مایکروسافت

مایکروسافت قابلیت سنتز گفتار VALL-E را در کتابخانه صوتی LibriLight Meta آموزش داد. این فرآیند شامل 60000 ساعت سخنرانی به زبان انگلیسی از بیش از 7000 سخنران است که عمدتاً از کتاب‌های صوتی عمومی LibriVox استخراج شده است. برای اینکه VALL-E نتیجه خوبی ایجاد کند، صدای نمونه سه ثانیه ای باید دقیقاً با صدای داده های آموزشی مطابقت داشته باشد.

مایکروسافت ده ها نمونه صوتی از مدل هوش مصنوعی را در وب سایت نمونه VALL-E ارائه کرده است. در میان مثال‌ها، Speaker Prompt یک صدای سه ثانیه‌ای است که برای شبیه‌سازی به VALL-E داده می‌شود. در این وب سایت، یک نمونه صوتی سه ثانیه ای از همان بلندگو است که یک عبارت خاص را برای اهداف آزمایشی بیان می کند. Baseline نمونه ای از Center است که با روش سنتز متن به گفتار ارائه می شود و مثال VALL-E خروجی ایجاد شده توسط هوش مصنوعی را ارائه می دهد.