استنساخ الصوت بالذكاء الاصطناعي مفتوح المصدر مع نموذج OpenVoice الجديد من MyShell

Abdullah Salah

4 يناير, 2024

الشركات الناشئة، بما في ذلك ElevenLabs المعروفة بشكل متزايد، قد جمعت ملايين الدولارات لتطوير خوارزمياتها الخاصة وبرمجيات الذكاء الاصطناعي لإنشاء نسخ صوتية - برامج صوتية تقلد أصوات المستخدمين.

لكن يأتي حلاً جديدًا، OpenVoice، تم تطويره من قبل باحثين في معهد ماساتشوستس للتكنولوجيا (MIT)، وجامعة تسينغهوا في بكين، الصين، وأعضاء من شركة MyShell الكندية للذكاء الاصطناعي، لتقديم تقنية استنساخ الأصوات مفتوحة المصدر وتقريبية تقريباً وتوفر تحكماً دقيقًا غير متوفر على منصات استنساخ الأصوات الأخرى.

"استنساخ الأصوات بدقة لا مثيل لها، مع تحكم دقيق في التوتر، من العاطفة إلى اللكنة، والإيقاع، والتوقفات، واللحن، باستخدام مقطع صوتي صغير فقط"، كتبت MyShell في منشور اليوم على حساب الشركة الرسمي على X.

Today, we proudly open source our OpenVoice algorithm, embracing our core ethos - AI for all.

Experience it now: https://t.co/zHJpeVpX3t. Clone voices with unparalleled precision, with granular control of tone, from emotion to accent, rhythm, pauses, and intonation, using just a… pic.twitter.com/RwmYajpxOt
— MyShell (@myshell_ai) January 2, 2024

شملت الشركة أيضًا رابطًا إلى ورقة البحث المراجعة مسبقًا التي تصف كيفية تطوير OpenVoice، وروابط إلى عدة أماكن يمكن للمستخدمين الوصول إليها وتجربتها، بما في ذلك واجهة تطبيق الويب MyShell (التي تتطلب حساب مستخدم للوصول إليها) و HuggingFace (التي يمكن الوصول إليها علنيًا بدون حساب).

وصل أحد الباحثين الرئيسيين، زينجي كين من MIT و MyShell، في رسالة بريد إلكتروني، إلى VentureBeat ليقول: "ترغب MyShell في الاستفادة من مجتمع البحث بأكمله. OpenVoice هو مجرد بداية. في المستقبل، سنقدم حتى منحًا ومجموعة بيانات وقوة حوسبة لدعم مجتمع البحث مفتوح المصدر. صدى MyShell الأساسي هو 'الذكاء الاصطناعي للجميع'."

أما بالنسبة لسبب بدء MyShell بنموذج استنساخ الأصوات المفتوح المصدر، كتب كين: "اللغة والرؤية والصوت هي الثلاث وسائط رئيسية للذكاء الاصطناعي المستقبلي العام (AGI). في المجال البحثي، على الرغم من أن للغة والرؤية بالفعل بعض النماذج المفتوحة المصدر الجيدة، إلا أنها تفتقر لنموذج جيد للصوت، خاصة بالنسبة لنموذج استنساخ صوت فوري قوي يسمح للجميع بتخصيص الصوت الذي تم إنشاؤه. لذا، قررنا القيام بذلك."

استخدام OpenVoice

في اختباراتي غير العلمية لنموذج استنساخ الأصوات الجديد على HuggingFace، تمكنت من إنشاء نسخة صوتية مقنعة نسبياً - وإن كان يبدو الصوت قليلاً روبوتياً - لصوتي الخاص بسرعة، خلال ثوانٍ، باستخدام خطاب عشوائي تمامًا.

على عكس تطبيقات استنساخ الأصوات الأخرى، لم أكن مضطرًا لقراءة جزء محدد من النص من أجل أن يستنسخ OpenVoice صوتي. ببساطة تكلمت بشكل عفوي لبضع ثوانٍ، وقام النموذج بإنشاء نسخة صوتية يمكنني سماعها تقريبًا فورًا، وهي تقرأ النص الذي قدمته.

كما تمكنت أيضًا من ضبط "الأسلوب" بين العديد من الافتراضيات - مبتهج، حزين، ودود، غاضب، وما إلى ذلك - باستخدام قائمة منسدلة، وسمعت التغيير الملحوظ في التوتر لمطابقة هذه المشاعر المختلفة.

إليك عينة من نسخة صوتي التي أنشأها OpenVoice من خلال HuggingFace وضبطها على نغمة "ودود".

كيف تم إنشاء OpenVoice ؟

في ورقتهم العلمية، يصف أربعة من صانعي OpenVoice - كين وونليانغ زاو وشومين يو من جامعة تسينغهوا، وشين سون من MyShell - نهجهم في إنشاء نموذج استنساخ الأصوات الذكاء الاصطناعي.

يتكون OpenVoice من نموذجين ذكاء اصطناعي مختلفين: نموذج للنص إلى الصوت (TTS) و "محول اللهجة".

يتحكم النموذج الأول في "معلمات الأسلوب واللغات"، وقد تم تدريبه على 30,000 جملة من "عينات الصوت من متحدثين انجليزيين (لهجات أمريكية وبريطانية)، ومتحدث صيني، ومتحدث ياباني"، حيث تم تسميتها وفقًا للعاطفة المعبرة فيها. تعلم أيضاً اللحن والإيقاع والتوقفات من هذه المقاطع.

في هذه الأثناء، تم تدريب نموذج محول اللهجة على أكثر من 300,000 عينة صوتية من أكثر من 20,000 متحدث مختلف.

في كلا الحالتين، تم تحويل صوت الكلام البشري إلى مقطعات صوتية - الأصوات الخاصة التي تميز الكلمات عن بعضها البعض - والتي تمثلها تضمينات فيكتور.

من خلال استخدام "المتحدث الأساسي" للنموذج TTS، ومن ثم دمجه مع اللهجة المستمدة من الصوت المسجل الذي قدمه المستخدم، يمكن للنموذجين معًا إعادة إنتاج صوت المستخدم، وكذلك تغيير "لون اللهجة"، أو التعبير العاطفي للنص المنطوق. إليك رسم بياني مدرج في ورقة العمل الخاصة بفريق OpenVoice يوضح كيفية عمل هذين النموذجين معًا:

تلاحظ الفريق أن نهجهم يعتبر بسيطاً نموذجياً تماماً. لكنه يعمل بشكل جيد ويمكنه استنساخ الأصوات باستخدام موارد الحوسبة بشكل أقل بكثير من الطرق الأخرى، بما في ذلك نموذج استنساخ الأصوات الذكاء الاصطناعي الذي ينافسه من Meta وهو Voicebox.

"أردنا تطوير أكثر نموذج فوري مرن لاستنساخ الأصوات حتى الآن"، لفت انتباه كين في بريد إلكتروني لـ VentureBeat. "المرونة هنا تعني التحكم المرن في الأنماط/العواطف/اللهجة وما إلى ذلك، ويمكن التكيف مع أي لغة. لم يستطع أحد القيام بذلك من قبل، لأنه صعب للغاية. قادت مجموعة من علماء الذكاء الاصطناعي المخضرمين وقضيت عدة أشهر للعثور على الحل. وجدنا أن هناك طريقة أنيقة جداً لفصل المهمة الصعبة إلى بعض المهام الفرعية التي يمكن القيام بها لتحقيق ما يبدو صعبًا جدًا ككل. أدى هذا النهج المفصول إلى أن يكون فعالًا للغاية ولكنه بسيط أيضًا."

من وراء OpenVoice؟

تأسست MyShell في عام 2023 في كالجاري، ألبرتا، وهي إحدى مقاطعات كندا، وقد حصلت على جولة بذرية بقيمة 5.6 ملايين دولار من قبل INCE Capital بالإضافة إلى استثمار إضافي

تصف الشركة الناشئة نفسها بأنها "منصة لا مركزية وشاملة لاكتشاف وإنشاء وتثبيت تطبيقات الذكاء الاصطناعي الأصلية."

بالإضافة إلى تقديم OpenVoice، تشمل تطبيقات الويب للشركة مجموعة متنوعة من الشخصيات والروبوتات الذكية المعتمدة على النصوص مع "شخصيات" مختلفة - مشابهة لشخصيات الذكاء الاصطناعي - بما في ذلك بعضها غير مناسب للعمل، وتشمل أيضًا منشئ صور GIF المتحركة وألعاب الأدوار المبنية على النصوص التي ينشئها المستخدم، وتضم بعضها خصائص محمية بحقوق الطبع والنشر مثل سلاسل هاري بوتر ومارفل.

كيف تعتزم MyShell كسب المال إذا كانت تجعل OpenVoice مفتوح المصدر؟ تفرض الشركة اشتراكًا شهريًا على مستخدمي تطبيقات الويب الخاصة بها، وأيضًا على منشئي الروبوتات الطرفية الذين يرغبون في الترويج لمنتجاتهم داخل التطبيق. كما تفرض رسومًا على بيانات تدريب الذكاء الاصطناعي.