شرح تركيب الصوت AI: TTS وتركيب الأصوات

تركيب الصوت AI هو إحدى تلك التقنيات التي انتقلت من الغرابة إلى المفيد حقا في حوالي أربع سنوات — ومعظم الناس الذين يستخدمونه ليس لديهم فكرة عن كيفية عمل خط الأنابيب فعليا. يفسر هذا المنشور بالضبط ما يحدث بين اللحظة التي يدخل فيها النص إلى نموذج واللحظة التي تسمع فيها كلاما يشبه الطبيعة، لماذا يختلف تركيب الصوت عن TTS العادي، وما يعنيه كل هذا لتطبيقات عملية مثل البث والإنشاء والألعاب.

الملخص السريع

TTS يحول النص إلى كلام من خلال ثلاث مراحل: تطبيع النص → نموذج صوتي → vocoder
أجهزة فك التشفير العصبية (فئة WaveNet) هي السبب في توقف الأصوات الاصطناعية عن البدء الآلي
يستخرج تركيب الصوت “بصمة صوت” من عينة صوتية قصيرة ويطبقها على أي كلام
يحول تحويل الصوت في الوقت الفعلي صوتك إلى هوية أخرى على الطاير، إطار بإطار
الكمون هو قيد صارم للاستخدام المباشر — اختيارات البنية تهم أكثر من جودة النموذج الخام
يتعامل VoxBooster مع كل من TTS وتحويل الصوت في الوقت الفعلي على Windows بدون برنامج تشغيل kernel

ما الذي يغطيه “تركيب الصوت AI” فعليا

يتم رمي المصطلح بشكل فضفاض، لذا دعنا نصل إليه. تركيب الصوت AI هو المظلة لأي نظام يستخدم تعلم الآلة لإنتاج كلام يشبه الإنسان. تحت تلك المظلة يكون لديك ثلاثة نهج متميزة على الأقل يتم الخلط فيها غالبا:

تحويل النص إلى كلام (TTS): الإدخال نص، الإخراج صوت. يجب أن يحدد النموذج النطق والإيقاع والتوقيت بالكامل من الشكل المكتوب. تطبيقات كلاسيكية تشمل قارئات الشاشة ومحفزات التنقل والمساعدات الافتراضية.

تحويل الصوت العصبي: الإدخال صوت (شخص حقيقي يتحدث)، الإخراج هو نفس الكلمات التي يتحدث بها صوت مختلف. يتم الحفاظ على محتوى الكلام؛ تم استبدال هوية المتحدث. هذا هو جوهر غيري الصوت في الوقت الفعلي.

تركيب الصوات: عملية من مرحلتين — أولا تستخرج تضمين المتحدث من عينة مرجعية، ثم تغذيها إما إلى نظام TTS (لذا يتحدث الصوت المستنسخ أي نص) أو إلى نظام تحويل (لذا أي صوت قادم يبدو وكأنه المتحدث المستهدف في الوقت الفعلي). تركيب الصوات هو مزيج من تعلم تمثيل المتحدث مع TTS أو تحويل.

يهم فهم فئة الأداة. لا يمكن لمنتج TTS فقط أن يأخذ إدخال الميكروفون الخاص بك وتحويله في الوقت الفعلي. لا يحتاج منتج تحويل الصوت إلى نص على الإطلاق. تدعم العديد من الأدوات الحديثة، بما فيها VoxBooster، كلا المسارين.

النهج	الإدخال	الإخراج	يتطلب صوت مرجعي؟	يعمل في الوقت الفعلي؟
TTS كلاسيكي	نص	كلام صوتي	لا (متحدث مدمج)	نعم، للقراءة بصوت عالي
TTS تركيب الصوات	نص + عينة صوت	الكلام بصوت الهدف	نعم	محدود بسرعة الاستدلال
تحويل الصوت في الوقت الفعلي	صوت الميكروفون المباشر	تيار صوتي محول	نعم	نعم، مع البنية الصحيحة
تحويل الصوت العصبي (بدون اتصال)	ملف صوتي	ملف صوتي بصوت الهدف	نعم	لا — المعالجة الدفعية

خط أنابيب TTS: من النص إلى شكل الموجة

نظام TTS كامل هو سلسلة من مراحل معالجة مميزة. تضغط البنى الحديثة من البداية إلى النهاية على بعض المراحل، لكن فهم السلسلة الأصلية يوضح لماذا توجد أوضاع فشل معينة — لماذا ينطق النموذج بأسماء دقيقة بشكل خاطئ، على سبيل المثال، أو لماذا تسقط الفواصل في الأماكن الخاطئة.

المرحلة 1 — تطبيع النص والتحليل اللغوي

النص الخام فوضوي. تحتوي “طلب الدكتور سميث 3 عناصر في الساعة 2:30 ظهرا في 5 يناير” على اختصارات وأرقام وتنسيقات وقت وأرقام تسلسلية تحتاج جميعها إلى التوسع في شكل قابل للتحدث قبل أن يرى النموذج الصوتي. تتعامل خطوة الواجهة الأمامية هذه مع:

تقسيم الجملة: تحديد أين ينتهي تعبير واحد والبداية التالية
تطبيع النص: “2:30 ظهرا” → “اثنين ثلاثين مساء”، “$45.99” → “خمسة وأربعون دولار وتسعة وتسعون سنتا”
تحويل الرسم البياني إلى الصوت (G2P): تعيين الأحرف المكتوبة إلى رموز الصوت التي يتوقعها النموذج الصوتي — حاسم للغات بهجاء غير منتظم مثل الإنجليزية (“اقرأ” مقابل “اقرأ”)
تنبؤ الإيقاع: تقدير حيث يجب أن تسقط التوتر وتغييرات الملعب والفواصل

ناتج هذه المرحلة هو تسلسل صوتي معلن بمدة وأهداف الملعب. تنتشر الأخطاء هنا عبر النظام بأكمله وغالبا ما تكون أكثر لاحظة للمستمعين من نواقص نموذج صوتي.

المرحلة 2 — النموذج الصوتي

يأخذ النموذج الصوتي تسلسل الصوت ويتنبأ بـ mel spectrogram — تمثيل مضغوط لكيفية تطور محتوى تردد الكلام عبر الوقت. فكر فيه كخريطة حرارية حيث يكون المحور السيني هو الوقت والمحور ص هو التردد (على مقياس mel يعكس الإدراك السمعي البشري)، والسطوع في كل خلية يمثل الطاقة.

الأساليب الإحصائية الأقدم (Hidden Markov Models، Gaussian Mixture Models) تنبأت بالميزات الطيفية إطار بإطار بدون سياق طويل المدى. كانت النتائج تبدو مسطحة وآلية لأنه لم تكن هناك آلية لحمل قصد الإيقاع عبر جملة كاملة.

غيرت نماذج sequence-to-sequence العصبية هذا بشكل كامل. البنى المبنية على آليات الانتباه، مثل Tacotron وخلفائها، تتعلم محاذاة تسلسل الصوت مع spectrogram الإخراج بدون قواعد مدة صريحة. ينتبه النموذج للسياق الصوتي الكامل أثناء توليد كل إطار spectrogram، ينتج إيقاع وتنغيم أكثر طبيعية.

تشعر البنى اللاحقة مثل FastSpeech و FastSpeech 2 بالاستدلال أسرع وأكثر استقرارا من خلال التنبؤ بالمدة والملعب والطاقة بشكل صريح كأهداف انحدار منفصلة بدلا من الاعتماد على محاذاة الانتباه الناعمة — مما جعل TTS في الوقت الفعلي عمليا بدون التضحية بالجودة.

المرحلة 3 — Vocoder: حيث يحدث السحر

يخبرك mel spectrogram ما الإشارة تبدو عليه، لكن لا يمكنك تشغيل spectrogram مباشرة. يحول vocoder هذا التمثيل مرة أخرى إلى موجة مجال زمني — عينات PCM الفعلية التي تنتج الصوت من السماعات الخاصة بك.

هنا انهار التركيب السابق للعصبي تماما. استخدمت أجهزة vocoder STRAIGHT و WORLD التقليدية نماذج مصدر الفلتر البارامترية التي افترضت فصل نظيف بين المصدر الحنجري (مصدر الصوت المزعج) وفلتر المسار الصوتي. الأصوات الحقيقية لا تعمل بهذا النظام، والقطع الأثرية — الصخب، تلطيخ صيغة الصوت — كانت معترف بها مباشرة.

WaveNet (DeepMind، 2016) كان تحول النموذج. إنها شبكة عصبية autoregressive تولد صوت عينة تلو عينة، بشرط كل عينة على جميع العينات السابقة وعلى إشارة التكييف (spectrogram). من خلال التعلم مباشرة من موجات الصوت الخام، التقطت البنية الدقيقة الدقيقة للكلام الحقيقي — الخشونة والرنين الصوتي والرنين الطبيعي للحلق البشري — التي لم تتمكن النماذج البارامترية أبدا من تمثيلها.

المشكلة مع الجيل autoregressive هي أنها بطيئة: توليد ثانية واحدة من صوت 24 kHz يتطلب 24000 تمرير أمامي متسلسل. هذا جيد للتركيب بدون اتصال لكن يقتل التطبيقات في الوقت الفعلي. عمل لاحق — Parallel WaveGAN، HiFi-GAN، WaveGlow — توازى الجيل من خلال تدريب نماذج توليدية يمكنها إنتاج عينات متعددة في وقت واحد، مما يجلب التركيب عالي الجودة إلى عالم الوقت الفعلي.

كان HiFi-GAN بالذات موظفا لأنظمة TTS الإنتاجية لأنها تجمع بين جودة إدراكية عالية جدا مع استدلال سريع كافي للعمل في الوقت الفعلي حتى على الأجهزة المتواضعة.

كيف يعمل تحويل الصوت العصبي

يتخذ تحويل الصوت نهجا مختلفا. بدلا من النص كمدخل، تبدأ برسالة صوتية من المتحدث A وتريد إنتاج نفس الكلمات المنطوقة في صوت المتحدث B.

التحدي الأساسي هو فك التشابك: تحتاج إلى فصل محتوى اللغة للكلام (ما يقال) عن هوية المتحدث (من يقول ذلك)، وتحويل الهوية، ثم إعادة التجميع. إذا كان فك التشابك غير مثالي، فإن تحويل المتحدث يفسد المحتوى أيضا — تحصل على الصوت الصحيح يقول شيئا مختلفا عن ما تم التحدث به بالفعل.

استخراج المحتوى

تستخدم أنظمة تحويل الصوت الحديثة مشفر لإنتاج تمثيل محتوى مستقل عن المتحدث قدر الإمكان. تستخدم بعض الأساليب ميزات التعرف على الكلام التلقائي (في الأساس تحويل إلى الصوتات كخطوة وسيطة)، بينما يدرب آخرون المشفرات مع أهداف كنسية تعاقب بشكل صريح ترميز معلومات المتحدث.

كلما زادت جودة هذا المشفر المحتوى، كلما بدا التحويل أكثر مثل “مبادلة صوت” نظيفة بدلا من تحويل محمل بقطع أثرية.

تضمين المتحدث

بشكل منفصل، يحتفظ النظام بتمثيل المتحدث المستهدف. قد يكون هذا تضمينا ثابتا يتم البحث عنه من جدول (تضمين واحد لكل متحدث مدرب)، أو — بطريقة أقوى — مشفر صوت يحسب تضمينا من أي عينة صوت في الوقت الفعلي. النهج الأخير هو الذي يمكّن تركيب الصوات: توفر 5-30 ثانية من صوت المتحدث المستهدف، يحسب مشفر الصوت تضمينهم، وينتج الفك حول تضمينهم.

تعلم مشفرات الصوت على مجموعات بيانات كبيرة من الأصوات المتنوعة التقاط “التوقيع” الصوتي لصوت — رنين المسار الصوتي، نطاق الملعب المعتاد، ترددات الصيغة، الخشونة — في ناقل مضغوط. التعميم على المتحدثين غير المرئيين في وقت الاستدلال هو الخاصية الأساسية التي تجعل تركيب الصوات يعمل بدون إعادة تدريب النموذج على كل متحدث جديد.

الفك

يأخذ الفك تمثيل المحتوى وتضمين المتحدث، وينتج إما spectrogram أو موجة خام. غالبا ما تشارك الهندسات الحديثة مرحلة vocoder مع أنظمة TTS، لأن المشكلة هي نفسها: الحصول من تمثيل طيفي إلى صوت عالي الجودة المدرك.

لماذا تبدو الأصوات الاصطناعية طبيعية الآن

إذا استخدمت TTS منذ عشر سنوات واستخدمته اليوم، الفرق الذاتي ضخم. هناك عدة أسباب مركبة لهذا التحسن.

مقياس بيانات التدريب: الأنظمة الحالية يتم تدريبها على آلاف الساعات من الكلام عالي الجودة المسجل عبر العديد من المتحدثين. تتعلم النماذج ليس فقط كيف تبدو الصوتيات ولكن كيفية توقف الإنسان الحقيقي والتنفس وتغيير السرعة واستخدام تغييرات الملعب الدقيقة لنقل الشعور والتركيز.

التعلم من البداية إلى النهاية: أنابيب أقدم كانت تحتوي على قواعد مهندسة يدويا في مراحل تطبيع النص والتنبؤ بالإيقاع. تتعلم الأنظمة الحديثة هذه التخطيطات من البيانات، مما يعني أن الصياغة غير المعتادة والجمل المعقدة والإيقاع الشعوري يتم التعامل معها بأناقة بدلا من إنتاج قطع أثرية انتهاك القواعد.

أجهزة فك التشفير العصبية: كما نوقش أعلاه، كان التحول من أجهزة فك التشفير البارامترية إلى أجهزة عصبية يزيل مصدر القطع الأثرية الإدراكي الأكبر. كانت “وادي غير مريح” من الكلام الاصطناعي تقريبا بالكامل في vocoder.

نمذجة الإيقاع: تتعلم النماذج الحديثة التبعيات الإيقاعية طويلة المدى — الطريقة التي يبدأ بها نمط ملعب السؤال ببناء مئات الملايين ثانية قبل كلمة السؤال، أو كيف تبدو جملة في قائمة مختلفة عن جملة تختتم فقرة. تلتقط آليات الانتباه والبنى تحويل هذا بطريقة طبيعية.

وظائف الخسارة الإدراكية: التدريب مع المميزات الإدراكية (المستعارة من تدريب GAN) تعلم النماذج التحسين لما يلاحظه المستمعون البشريون بالفعل بدلا من نسبة إشارة إلى ضوضاء خام لا ترتبط جيدا بالجودة المدركة.

لمسح تقني لتطور هندسة TTS العصبية، ورقة المسح من قبل Tan et al. (2021) على IEEE/ACM TASLP هو نقطة انطلاق منظمة جيدا.

القيود في الوقت الفعلي والكمون

للتطبيقات بدون اتصال — توليد ملف معلق، استنساخ صوت لبودكاست — سرعة الاستدلال راحة، وليست متطلب صارم. لبث مباشر، ألعاب، استدعاءات Discord، أو أي تطبيق تفاعلي، الكمون هو القيد الذي يحدد ما إذا كانت التكنولوجيا قابلة للاستخدام على الإطلاق.

عتبة إدراك الإنسان للتأخير الصوتي الملحوظ في المحادثة هي تقريبا 30 ms. فوق ذلك، يبدأ في الشعور بشيء غير صحيح قليلا. فوق 100 ms، يصبح محرجا. للتطبيقات أحادية الاتجاه مثل البث حيث تتحدث إلى غيّر صوت وجمهورك يسمع الإخراج، 50-100 ms يقبل عموما لأن المستمعين لا يملكون مرجع لما “يجب” أن تبدو عليه.

يقسم ميزانية الكمون على النحو التالي:

التقاط الصوت والتخزين المؤقت: التقاط صوت منخفض الكمون في الوضع الحصري على Windows يمكن أن يحقق أحجام بافر من 5-20 ms. الوضع المشترك يضيف المزيد.
استخراج الميزة: حساب التمثيل الإدخال (spectrogram، ميزات الصوت) — عادة 5-15 ms
استدلال النموذج: التكلفة السائدة؛ يعتمد على البنية والأجهزة؛ 10-80 ms على GPU حديث لنماذج الوقت الفعلي
تركيب شكل الموجة: 2-10 ms مع vocoder موازي سريع
التخزين المؤقت لتشغيل الصوت: 5-20 ms

الجولة الكاملة يمكن أن تبقى تحت 80 ms على GPU متوسط. استدلال CPU فقط عادة يضيف 50-150 ms. هذا هو السبب في أن VoxBooster يستخدم التقاط صوت منخفض الكمون بدلا من APIs صوتية أعلى كمونا، ولماذا منخفض الكمون الصوت غيّر مشاركة البنية توجه إلى تفصيل كيف يؤثر كل مرحلة من خط الأنابيب على التأخير المدرك.

تركيب الصوات مقابل TTS: فروق عملية لمنشئي المحتوى

إذا كنت بثا أو منشئ محتوى تقيم أدوات، يكون التمييز الفني له آثار عملية.

TTS هو ما تريده عندما:

تحتاج إلى توليد سرد، معلقة، أو حوار من سيناريو
تريد صوتا متسقا لا يتدهور مع الضوضاء المحيطة في العينة المرجعية
تبني شيء مثل نظام إشعارات صوتية أو سرد فيديو مؤتمت
لا تحتاج الإخراج إلى البدء بصوت شخص حقيقي معين

تركيب الصوات (مسار TTS) هو ما تريده عندما:

تريد نسخة اصطناعية من صوتك لسرد المحتوى بينما صوتك الحقيقي غير متاح
أنت تنتج دراما صوتية بصوت لشخصية معينة، وتريد الاتساق عبر الحلقات
تحتاج إلى توليد كلام بصوتك بلغة لا تتحدثها بطلاقة

تحويل الصوت في الوقت الفعلي هو ما تريده عندما:

أنت مباشر على Discord أو Twitch أو في اللعبة وتريد البدء مثل شخص آخر أو شخصية
أنت مستخدم محب للخصوصية يريد إخفاء صوتك الحقيقي بشكل متسق
تحتاج إلى الكمون تحت 100 ms وأنت على استعداد لقبول جودة أقل قليلا من التركيب بدون اتصال

يدعم VoxBooster كلا المسارين: تحويل صوت في الوقت الفعلي للاستخدام المباشر مع جهاز صوتي افتراضي (لا توجد برنامج تشغيل kernel، فقط التقاط صوت منخفض الكمون)، و TTS عبر محرك النص إلى الكلام المدمج للسرد والإنشاء الصوتي في التطبيق. يمكنك رؤية تفصيل الميزات الكاملة في /features/text-to-speech.

كيف تتمكن تضمينات المتحدث من استنساخ قليل القطع

أحد الأشياء الأكثر ملحوظة حول تركيب الصوات الحديث هو مدى قلة الصوت المرجعي المطلوب. كانت أنظمة تركيب الصوات المبكرة تتطلب عشرات الساعات من تسجيلات الاستوديو النظيفة. يمكن للمشفرات الصوت الحالية الإنتاج من 5-30 ثانية من الصوت — حتى الصوت المسجل على ميكروفون محمول مع بعض الضوضاء الخلفية.

هذا يعمل لأن مشفرات الصوت الحديثة، المدربة على مجموعات بيانات متعددة المتحدثين الكبيرة، تتعلم أولية غنية على مساحة الأصوات الممكنة. بدلا من حفظ صوت معين من أمثلة عديدة، يتعلمون ما نوع الخصائص الصوتية التي تميز المتحدثين بشكل عام، ثم استخدم تلك الأولية للعثور بسرعة حيث يسقط متحدث جديد في تلك المساحة من عدد قليل جدا من الأمثلة.

تسمى التقنية أحيانا تركيب الصوات قليل القطع أو تركيب صفر-قطع (صفر-قطع بمعنى أن التدريب الدقيق للنموذج الرئيسي للتركيب غير مطلوب لمتحدث جديد). يتكيف مشفر الصوت مع متحدث جديد؛ الفك الذي يحول التضمينات إلى صوت ثابت وأعيد استخدامه.

التقييد هو أن الأصوات غير المعتادة — أطفال صغار جدا، أمراض صوتية شديدة، لهجات إقليمية مميزة جدا لا تظهر في بيانات التدريب — قد يتم استنساخها بدقة أقل. لديك فضاء التضمين مناطق استكشفت جيدا (أصوات الكبار الشائعة) ومناطق متفرقة.

الأبعاد الأخلاقية لتكنولوجيا تركيب الصوات

لا شرح لتركيب الصوات مكتمل بدون الاعتراف بالواضح: نفس التكنولوجيا التي تتيح لمنشئ محتوى سرد صوتهم الخاص عندما لا يتمكنون من التسجيل أيضا تمكّن deepfakes الصوتية.

بعض المبادئ تستحق المعرفة:

الموافقة هي السطر. استنساخ صوتك الخاص، أو صوت لديك إذن صريح به (ممثل صوت منح ذلك، عقارات شخصية تاريخية رخصت تسجيلات)، هي حالة الاستخدام الشرعي. استنساخ صوت شخص ما بدون موافقة لانتحاله محرم ومتزايد غير قانوني ويمكن اكتشافه.

الكشف يلحق. البحث في الكشف عن الكلام الاصطناعي — مصنفات مدربة على التمييز بين الكلام الحقيقي والمركب — يتقدم جنبا إلى جنب مع جودة التركيب. تنشر المنصات هذه الأدوات. تعديل المحتوى للصوت deepfake مجال حقيقي وينمو.

شروط المنصة موجودة. تحظر معظم المنصات بث واجتماعية استخدام الأصوات الاصطناعية لانتحال أشخاص حقيقيين بدون كشف. تغطي سياسة الاستخدام الخاصة بـ VoxBooster: الأداة للترفيه والخصوصية وإنشاء المحتوى، وليس للخداع.

لمنظور أوسع، ورقة IEEE حول أخلاقيات تحويل الصوت (Smith & Watanabe، 2023) تستحق القراءة إذا أردت المنظور الأكاديمي.

جمع كل شيء معا: ما يحدث عندما تستخدم غيّر صوت في الوقت الفعلي

دعنا نمر من خلال ما يحدث عندما تفتح VoxBooster، وتحمل ملف تعريف صوتي، وتبدأ الكلام على Discord.

صوت الميكروفون الخاص بك يتم التقاطه عبر التقاط صوت منخفض الكمون في الوضع الحصري أو المشترك، مع حلقة حلقة صغيرة (عادة 20 ms).
استخراج الميزة يحول صوت PCM إلى التمثيل الإدخال الذي يتوقعه نموذج تحويل الصوت — في العديد من البنى، spectrogram mel أو مخرج مشفر محتوى.
ترميز المحتوى يستخرج تمثيل لغوي مستقل عن المتحدث من صوتك — بشكل أساسي، ما قلت، محرومة من من قال ذلك.
تكييف المتحدث يحمل تضمين الصوت المستهدف من ملف التعريف الصوتي المحمل ويمرره إلى الفك جنبا إلى جنب مع ترميز المحتوى.
الفك ينتج spectrogram mel للإخراج — نفس الكلمات التي تحدثت بها، لكن في خصائص صوتية الصوت المستهدف.
vocoder يحول spectrogram إلى عينات PCM.
الجهاز الصوتي الافتراضي (نقطة نهاية برنامج تشغيل صوت Windows) يقدم الإخراج كمصدر ميكروفون يمكن لـ Discord أو OBS أو أي تطبيق تحديده كإدخاله.

تعمل السلسلة الكاملة داخل حلقة بافر بث بحيث يتدفق الصوت المستمر بدون فجوات ملحوظة. يتم خط الخطوات 2-6 وتداخلها عبر إطارات البافر.

لتفاصيل الإعداد حول جعل هذا يعمل مع Discord، دليل إعداد غيّر الصوت Discord يرشد عبر خطوة تكوين الجهاز الصوتي الافتراضي خطوة بخطوة.

مقارنة نهج التركيب عبر الأبعاد

البعد	TTS المتسلسل	إحصائي بارامتري	TTS العصبي	تحويل عصبي في الوقت الفعلي
جودة الكلام	عالية للداخل	آلي، مسطح	طبيعي، تعبيري	طبيعي إذا كان مشفر المحتوى قويا
متحدثون جدد	يتطلب إعادة تسجيل	يمكن التكيف مع البيانات	قليل-قطع ممكن	نعم، مع مشفر الصوت
قابل للعمل في الوقت الفعلي	نعم	نعم	مع vocoders سريع	نعم
robustness خارج النطاق	سيء (ثغرات في المكتبة)	معتدل	جيد	يعتمد على تغطية التدريب
التحكم العاطفي	محدود	محدود	جيد مع السيطرة على الإيقاع	محدود بدون تكييف صريح

الأسئلة الشائعة بشكل متكرر

ما هو تركيب الصوت AI؟

تركيب الصوت AI هو عملية توليد كلام يشبه الإنسان من نص أو صوت باستخدام نماذج تعلم الآلة. يغطي كلا من تحويل النص إلى كلام (TTS)، الذي يحول الكلمات المكتوبة إلى صوت، وتحويل الصوت العصبي، الذي يحول صوت شخص واحد إلى آخر في الوقت الفعلي أو من التسجيلات.

كيف يعمل تحويل النص إلى كلام من الناحية الفنية؟

يقوم نظام TTS بتحويل النص الخام إلى تسلسلات صوتية، ويغذيها إلى نموذج صوتي يتنبأ بـ mel spectrogram، ثم يمررها عبر شبكة عصبية vocoder تولد شكل الموجة الصوتية النهائية. يمكن للنماذج الحديثة من طراز FastSpeech 2 تقليص بعض هذه المراحل إلى تمرير أمامي واحد.

ما الفرق بين TTS وتركيب الصوات؟

ينتج TTS كلاما من نص باستخدام صوت متحدث مدرب مسبقا. يذهب تركيب الصوت أبعد من ذلك: فهو يلتقط الخصائص الصوتية الفريدة لصوت شخص معين من عينة قصيرة، ثم يستخدم هذا الصوت للتحدث عن أي نص أو تحويل الصوت الوارد في الوقت الفعلي. يتطلب تركيب الصوت صوت مرجعي؛ TTS لا.

لماذا تبدو الأصوات الاصطناعية طبيعية الآن؟

كان التحول من تركيب المعاملات الإحصائية والطرق المتسلسلة إلى أجهزة فك التشفير العصبية مثل WaveNet كل شيء. تتعلم النماذج العصبية النسيج الطيفي الدقيق والفواصل الدقيقة وأنماط الإيقاع من مجموعات كبيرة من الكلام الحقيقي، مما ينتج موجات لا يمكن للنماذج الإحصائية أن تصل إليها أبدا.

هل يمكن لتركيب الصوت AI أن يعمل في الوقت الفعلي؟

نعم، مع البنية الصحيحة. تعالج نماذج TTS وتحويل الصوت القادرة على التدفق الصوت في أجزاء صغيرة، عادة إطارات 20-50 ms، مما يبقي زمن الانتظار من البداية إلى النهاية أقل من 100 ms على GPU حديث. استدلال CPU فقط أبطأ لكن ممكن لأوضاع جودة أقل. يستخدم VoxBooster التقاط صوت منخفض الكمون على Windows لتقليل كمون برنامج تشغيل الصوت فوق وقت استدلال النموذج.

هل تركيب الصوت في الوقت الفعلي قانوني؟

استخدام صوتك الخاص أو صوت لديك إذن صريح به لاستنساخه قانوني بشكل عام للاستخدام الشخصي والإبداعي. استنساخ صوت شخص آخر بدون موافقة للخداع أو التشهير أو الاحتيال غير قانوني في معظم الاختصاصات القضائية وينتهك شروط عمليا كل منصة. احصل دائما على إذن واستخدم التكنولوجيا بمسؤولية.

ما الأجهزة التي أحتاجها لتركيب الصوت في الوقت الفعلي؟

GPU منفصل (NVIDIA GTX 1060 أو أحدث) مثالي للكمون تحت 50 ms. يمكن تشغيل نماذج TTS العصبية الحديثة وتحويل الصوت على CPU، لكن قد تلاحظ كمون 100-200 ms بمعدلات عينات أقل. يستهدف VoxBooster Windows 10/11 مع التقاط صوت منخفض الكمون ويتم تحسينه للعمل بشكل جيد على الأجهزة المتوسطة بدون برنامج تشغيل kernel.

الخلاصة

سافر تركيب الصوت AI مسافة طويلة جدا من أحادي اللون الآلي لقارئات الشاشة المبكرة. الجمع بين النماذج الصوتية العصبية، أجهزة فك التشفير الموازية السريعة، ومشفرات الصوت المدربة على بيانات متنوعة أحضرت الكلام الاصطناعي إلى نقطة حيث قد تكون الفجوة بين الحقيقي والمولد في بعض الأحيان غير محسوسة. سواء كنت مطورا يحاول فهم ما بداخل الصندوق، بثا تقيم أدوات، أو فضول فقط لماذا توقفت الأصوات AI في تطبيقاتك عن البدء بالغرابة، خط الأنابيب يستحق الفهم — لأن معرفة حيث تقدم كل مرحلة قيودا تساعدك على استخدام التكنولوجيا بشكل أكثر فعالية.

إذا كنت تريد سماع ما يبدو عليه تحويل الصوت العصبي الحديث في الممارسة، VoxBooster هو مكان جيد للبدء. يعمل بالكامل على جهاز Windows الخاص بك بدون رحلات سحابية لتحويل الصوت، ويتعامل مع تحويل مباشر و توليد TTS، و التجربة المجانية تتيح لك اختبار إعداد أجهزتك المحددة قبل الالتزام.

تحميل VoxBooster — تجربة مجانية لمدة 3 أيام، Windows 10/11، لا يوجد برنامج تشغيل kernel مطلوب.