مُغيِّر صوت الأغنية: كيفية عمل نسخ الأغاني بتقنية الذكاء الاصطناعي

لقد جعلت تقنية مُغيِّر صوت الأغاني نسخ الأغاني بالذكاء الاصطناعي متاحة لأي شخص لديه كمبيوتر Windows وبضع دقائق. ما كان يتطلب استوديو احترافي وفنان مأجور أصبح الآن يحتاج فقط إلى فاصل مسارات ونموذج صوت بالذكاء الاصطناعي وبعض الصبر. يرشدك هذا الدليل عبر كيفية عمل ذلك بالضبط - الأدوات وسير العمل وعوامل الجودة وأسئلة حقوق النشر التي يجب ألا تتجاهلها قبل نشر أي شيء علناً.

الخلاصة

تستبدل نسخة الأغنية بالذكاء الاصطناعي صوت الغناء في مسار موجود باستخدام فصل المسارات + تحويل الصوت بالذكاء الاصطناعي
الخطوة الأولى دائماً هي عزل الصوت عن الموسيقى باستخدام أداة مثل Demucs
يحول تحويل الصوت بالذكاء الاصطناعي الصوت المعزول إلى صوت الهدف مع الحفاظ على الألحان والإيقاع
تعمل مُغيِّرات الصوت في الوقت الفعلي للغناء المباشر؛ المعالجة غير المتصلة بالإنترنت للأغاني المسجلة
يتم تحديد الجودة من خلال نموذج الصوت ونظافة فصل المسارات الخاصة بك وإعدادات الصوت الخاصة بك
استخدام تشابه صوتي للآخرين أو أغنية محمية بحقوق النشر يحمل مخاطر قانونية حقيقية - اقرأ قسم حقوق النشر

ما هو مُغيِّر صوت الأغنية؟

مُغيِّر صوت الأغنية هو برنامج يستبدل أو يحول صوت الغناء في مسار صوتي. على عكس تأثيرات تغيير طبقة الصوت التي ترفع أو تخفض الطبقة فقط، فإن مُغيِّر صوت الموسيقى الحديث يستخدم تحويل الصوت بالذكاء الاصطناعي - على وجه التحديد فئة من النماذج تسمى تحويل الصوت بالذكاء الاصطناعي - لربط خصائص الصوت لشخص على اللحن الذي يؤديه آخر. النتيجة هي نسخة من الأغنية مغناة بصوت مختلف مع الحفاظ على التوقيت والعبارات والملمس العاطفي للأداء الأصلي.

كيف تعمل نسخ الأغاني بالذكاء الاصطناعي فعلياً

فهم خط أنابيب المعالجة يساعدك على اتخاذ قرارات أفضل في كل خطوة.

فصل المسارات: سحب الصوت بعيداً

الأغنية المكتملة هي مزيج من العديد من مصادر الصوت المرصوصة معاً. لتغيير صوت الغناء فقط، تحتاج أولاً إلى عزله. هذه هي مهمة فصل المسارات - يسمى أيضاً فصل المصدر على ويكيبيديا.

أدوات مثل Demucs (مفتوحة المصدر، تعمل محلياً) تقسم ملف صوت إلى مسارات فردية: أصوات وطبول وباص وآلات أخرى. تقدم المسار المختلط الكامل وتستقبل ملفات منفصلة لكل مكون. المسار الصوتي هو ما تسلمه لنموذج تحويل الصوت؛ المسار الموسيقي هو ما تمزجه مرة أخرى في النهاية.

لا يوجد فاصل مثالي. الإنتاجات الغنية بالصدى والترتيبات الكثيفة والماسترات المضغوطة كل ذلك ينشئ تسرباً صوتياً - آثار من الآلات تتسرب إلى المسار الصوتي والعكس بالعكس. هذا التسرب الصوتي لا يزيله تحويل الصوت؛ يصبح ضوضاء في النتيجة. الفصل الأنظف يساوي غطاء ذكاء اصطناعي أنظف.

تحويل الصوت بالذكاء الاصطناعي: المحرك وراء نسخ الذكاء الاصطناعي

تحويل الصوت بالذكاء الاصطناعي هو التقنية التي تقوم بتبديل الصوت الفعلي. يعمل من خلال تدريب شبكة عصبية صغيرة على صوت مرجعي لصوت الهدف - غناء شخص آخر أو صوتك الخاص أو شخصية خيالية - ثم تطبيق ملمس الصوت المتعلم على أداء جديد.

عندما تشغل مسار صوتي معزول من خلال نموذج صوت بالذكاء الاصطناعي، يحافظ النموذج على طبقة الصوت والتوقيت والعبارات من المغني الأصلي مع إعادة تشكيل الجرس والنبرة والشخصية الصوتية لمطابقة الهدف. يعتبر مشروع تحويل الصوت بالذكاء الاصطناعي مفتوح المصدر على GitHub هو الأساس الذي تبني عليه معظم الأدوات.

تعتمد جودة هذه الخطوة على:

نظافة المسار الصوتي المدخلات (التسرب الصوتي يضعف النتيجة)
جودة نموذج الصوت (كم عدد صوت التدريب النظيف المستخدم)
إعداد تصحيح طبقة الصوت (مدى عدوانية انجذاب النموذج إلى اللحن الأصلي)

إعادة المزج: إعادة دمج المسارات

بعد التحويل، لديك ملف صوتي جديد ومسار موسيقي غير لمس. تحمل كلاهما في DAW أو محرر صوتي، وتحاذي بدقة، وتضبط المستويات، وتصدّر. النتيجة هي أغنية ذكاء اصطناعي تبدو وكأن صوت الهدف أدى المسار الأصلي.

سير العمل خطوة بخطوة: كيفية تغيير الصوت في الأغنية

إليك العملية الكاملة من البداية إلى النهاية.

اختر المسار المصدر الخاص بك. ابدأ بأغنية تم إصدارها تجارياً أو بأغنية لديك حقوق فيها. ملفات بدون فقدان (FLAC وWAV) تنتج فصلاً أفضل من الدفقات المضغوطة.
قم بتشغيل فصل المسارات. افتح Demucs (سطر أوامر أو غلاف رسومي) أو خدمة تجارية وصدّر المسارات الصوتية والموسيقية. احفظ كليهما بصيغة WAV 32-بت عائمة بـ 44.1 كيلوهرتز.
فحص المسار الصوتي. استمع بعناية. لاحظ أي تسرب للآلات أو تشوهات. التسرب الكبير يعني أن النتيجة سيكون لها ضوضاء مسموعة. قد تحتاج إلى تجربة نموذج فاصل مختلف أو تنظيف المسار يدوياً في محرر صوتي.
حدد أو درّب نموذج صوت. ابحث عن نموذج توافق تحويل صوت بالذكاء الاصطناعي لصوت الهدف، أو درّب نموذجك الخاص باستخدام صوت مرجعي نظيف. إذا كنت تدرب، اطلع على كيفية تدريب نموذج صوت مخصص للإعدادات المسجلة الموصى بها ومتطلبات البيانات.
قم بتشغيل تحويل الصوت بالذكاء الاصطناعي. حمّل المسار الصوتي والنموذج المختار في أداة التحويل. اضبط تحول طبقة الصوت (إذا كان المغني المصدر والصوت الهدف في سجلات مختلفة، قد تحتاج إلى تحول ±2-6 نغمات نصفية). قم بتشغيل التحويل.
استمع وكرر. صدّر الصوت المحول. استمع للتشوهات أو تذبذب طبقة الصوت أو الإفراط في التنعيم. اضبط قوة تصحيح طبقة الصوت وحاول مرة أخرى إذا لزم الأمر.
امزج وصدّر. استورد الصوت المحول والمسار الموسيقي إلى DAW أو محرر صوتي. حاذِ وطابق المستويات وأضف اختياريًا صدى خفيف لمزج الصوت في المزيج وصدّر ملف النهائي.

مُغيِّر صوت الأغنية بالذكاء الاصطناعي: المعالجة في الوقت الفعلي مقابل المعالجة غير المتصلة بالإنترنت

هذان حالا استخدام متميزتان يخلط بينهما الناس غالباً.

الوضع	الصوت المصدر	الكمون	الأفضل لـ
في الوقت الفعلي	صوتك المباشر (ميكروفون)	30-100 ميلي ثانية	البث والأداء المباشر والتسجيل بنبرة مختلفة
غير متصل	ملف مسجل مسبقاً (مسار صوتي)	بدون (دفعة)	نسخ أغاني بالذكاء الاصطناعي من مسارات موجودة

يعالج مُغيِّر صوت الأغنية بالذكاء الاصطناعي في الوقت الفعلي مدخلات الميكروفون ويحولها على الفور. تغني في الميكروفون؛ يسمع الجمهور أو التسجيل صوت الهدف. هذا مفيد إذا كنت تريد أن تؤدي أغنية بأسلوب صوتي لشخص آخر مباشرة، أو تسجل نفسك وأنت تغني بصوت محول. يتعامل VoxBooster مع هذا باستخدام تحويل في الوقت الفعلي قائم على الذكاء الاصطناعي بدون متطلب برنامج التشغيل، مما يعني تدخل نظام أقل وأداء أكثر استقراراً خلال الجلسات الطويلة.

الوضع غير المتصل بالإنترنت هو ما تستخدمه لصنع نسخ من أغاني لا تغنيها بنفسك. تفصل المسارات وتشغل تحويلاً دفعياً على ملف الصوت وتمزج النتيجة. يقبل وضع المعالجة غير المتصلة بالإنترنت في VoxBooster مدخلات WAV و MP3 ويتعامل مع خط أنابيب التحويل محلياً - لا يترك صوت جهازك، وهذا مهم عند العمل مع مادة غير منشورة.

الاختيار بين في الوقت الفعلي وغير متصل ليس عن الجودة - غير متصل عادة ما ينتج نتائج أنظف لأنه لا توجد ضغوط كمون - لكن حول نوع الصوت المصدر الذي تبدأ به.

ما الذي يحدد جودة غطاء الذكاء الاصطناعي؟

ثلاثة عوامل أهم من أي شيء آخر.

1. نموذج الصوت

نموذج صوت مدرب على 10 دقائق من الأصوات النظيفة المعزولة سيتفوق دائماً على نموذج مدرب على 3 دقائق من الصوت مع ضوضاء خلفية وصدى. يتعلم النموذج خصائص صوت الهدف من بيانات التدريب. غذِّه بيانات منخفضة الجودة وسيتعلم تمثيلات منخفضة الجودة.

إذا كنت تدرب نموذج صوت مخصص، فسجل في بيئة هادئة قريبة من الميكروفون بدون معالجة ثقيلة. تقوم خط أنابيب تدريب تحويل الصوت بالذكاء الاصطناعي بمعالجة مسبقة، لكن الإدخال السيء يعني الإخراج السيء.

تختلف النماذج المشاركة بالمجتمع على نطاق واسع. تعتبر النماذج المدربة على أصوات استوديو معزولة احترافياً (تسجيلات a cappella ومسارات صوتية المسربة أو المسارات المعزولة من إعادة التصنيع الرسمية) بشكل عام أفضل ما ستجده.

2. نظافة فصل المسارات

هذه هي الخطوة التي يقلل معظم المبتدئين من تقديرها. سيؤدي المسار الصوتي الذي يحتوي على 10% من تسرب الآلات إلى إخراج محول مع تشوهات مسموعة لا تزيله أي كمية من المعالجة اللاحقة تماماً. قضِ الوقت هنا. قارن نماذج فاصل مختلفة - يُعتبر نموذج Demucs’s htdemucs_ft بشكل عام الخيار مفتوح المصدر الأقوى للموسيقى.

3. إعدادات طبقة الصوت

تؤدي نماذج الصوت بالذكاء الاصطناعي بشكل أفضل عندما يكون الصوت المصدر والهدف في نفس السجل. إذا كنت تحول صوت باريتون إلى نموذج صوت سوبرانو، فتحتاج إلى تحويل المدخل عدة نغمات نصفية قبل أو أثناء التحويل. تعرض معظم أدوات تحويل الصوت بالذكاء الاصطناعي معامل تصحيح طبقة الصوت (يسمى أحياناً “طبقة صوت f0” أو ببساطة تحول طبقة الصوت بالنغمات النصفية). تجرب؛ التعديلات الصغيرة تُحدث فرقاً كبيراً.

حقوق النشر والحقوق: ما يجب عليك معرفته

هذا القسم ليس مشورة قانونية. إنها ملخص دقيق لكيفية عمل منظر الحقوق في الواقع، لأن صنع نسخ أغاني بالذكاء الاصطناعي بدون فهمه هو كيف يحصل الناس على إنهاء حساباتهم أو يتلقون إخطارات قانونية.

التكوين مقابل التسجيل

كل أغنية لديها حقا نشر منفصل كما هو موضح في نظرة عامة على ويكيبيديا لنسخ الأغاني:

التكوين الموسيقي - اللحن والكلمات، مملوكة من قبل الملحن أو الناشر
تسجيل الصوت (ماستر) - الأداء المسجل المحدد، مملوك من قبل دار التسجيل أو الفنان

عندما تصنع نسخة، فأنت تنشئ تسجيل صوتي جديداً لتكوين شخص آخر. تحتاج إلى ترخيص ميكانيكي للتكوين. في الولايات المتحدة، يمكنك الحصول على واحد من خلال خدمات مثل Songfile أو ميزات ترخيص أغاني النسخ المدمجة في منصات التوزيع. لا تحتاج إلى إذن من دار التسجيل التي تمتلك الماستر الأصلي - لا تستخدم تسجيلهم.

ومع ذلك، عندما تستخدم تحويل الصوت بالذكاء الاصطناعي على مسار الصوت الأصلي، فأنت تبدأ من تسجيل الماستر الأصلي. يغير ذلك التحليل. فصل المسارات بالإضافة إلى تحويل الصوت لا يعزلك عن حقوق الماستر - استخرجت هذا الصوت من تسجيل محمي بحقوق النشر.

استخدام نموذج صوت فنان

يرفع تدريب نموذج صوت بالذكاء الاصطناعي على صوت فنان حقيقي واستخدامه لصنع نسخ مسألة مختلفة: حق الشهرة وبشكل متزايد تشريعات خاصة بصوت الذكاء الاصطناعي. لقد أقرت عدة ولايات أمريكية قوانين تحمي الأفراد ضد الاستخدام غير المصرح به لتشابههم الصوتي في محتوى ينتجه الذكاء الاصطناعي. تتضمن قانون الاتحاد الأوروبي للذكاء الاصطناعي أحكاماً في هذا المجال. تحقق من أساسيات حقوق النشر الموسيقي على ويكيبيديا للسياق الأساسي.

كمسألة عملية: نشر غطاء ذكاء اصطناعي يستخدم نموذج صوت فنان معروف بدون إذنهم على YouTube أو Spotify أو TikTok سيؤدي على الأرجح إلى مطالبة بالمحتوى أو حذف أو ضربة حسابية. تستخدم الموزعون وأصحاب الحقوق أدوات كشف آلية.

قواعد المنصة في الممارسة

YouTube: المحتوى الذي يستخدم ماستر أصلي (حتى محول) قد يُطالب به بموجب Content ID. يحصل صاحب الحقوق على إيرادات الإعلانات؛ تحصل على التعرض أو حذف اعتماداً على سياستهم.
Spotify / التوزيع: يتطلب معظم الموزعين عليك أن تشهد أن لديك حقوق لجميع الصوت. تقديم غطاء ذكاء اصطناعي مصنوع من مسار دار تسجيل كبرى بدون موافقة ينتهك شروط الموزع.
TikTok و Instagram: أنظمة Content ID مشابهة. تُوضع نسخ من تسجيلات الماستر الأصلية في الحجب التلقائي.

الطريق الأكثر أماناً للإصدار العام: استخدم التكوين الأصلي بموجب ترخيص ميكانيكي وسجل موسيقاك الخاصة (أو استخدم مسار دعم مرخص) واستخدم نموذج صوت بالذكاء الاصطناعي مدرب على صوتك الخاص أو على صوت من شخص يصرح بشكل صريح باستخدامه.

اختيار مولد غطاء الذكاء الاصطناعي: ما الذي تبحث عنه

يغطي المصطلح “مولد غطاء أغنية ذكاء اصطناعي” كل شيء من تطبيقات ويب سحابية إلى أدوات محلية. إليك ما يجب تقييمه.

موقع المعالجة: الأدوات السحابية مريحة لكنها تقدم كمون ومخاوف الخصوصية ورسوم لكل تحويل. تعمل الأدوات المحلية مثل VoxBooster أو برامج استنساخ الأصوات مفتوحة المصدر بالكامل على جهازك - لا يتم تحميل صوت، وهذا مهم للمواد غير المنشورة أو المحتوى الحساس.

توافق النموذج: تستخدم معظم الأدوات الجادة صيغ نماذج متوافقة مع تحويل الصوت بالذكاء الاصطناعي (ملفات .pth). تُشارك نماذج المجتمع على نطاق واسع والنظام البيئي كبير. الأدوات المقفلة لتنسيقات النماذج المملوكة تحد من خياراتك.

القدرة غير المتصلة بالإنترنت: إذا كنت تسافر أو تعمل في بيئات مقيدة أو ببساطة لا تريد الاعتماد السحابي، فإن المعالجة غير المتصلة بالإنترنت ضرورية. يعمل VoxBooster بدون إمكانية الوصول إلى الإنترنت بعد التثبيت.

تكامل فصل المسارات: بعض الأدوات تتطلب فصل المسارات بنفسك وإحضار الصوت فقط؛ البعض الآخر يتعامل مع خط أنابيب كامل. تقلل أدوات النهاية إلى النهاية من الاحتكاك لكنك تتحكم بشكل أقل في كل خطوة.

دعم في الوقت الفعلي: إذا كانت الأداء المباشر أو البث جزءاً من سير عملك، فأنت تحتاج إلى أداة بوضع في الوقت الفعلي منخفض الكمون - ليس فقط المعالجة الدفعية.

نصائح للحصول على نتائج أفضل

عيّر المسار الصوتي الخاص بك إلى حوالي -3 ديسيبل في النطاق الكامل قبل التحويل لتجنب تشوهات القص
تجنب الصدى الثقيل على المدخل؛ يعامل النموذج الصدى كجزء من الصوت، مما يشوش التحويل
جرب تحويل طبقة الصوت بخطوات نصف نغمة بدلاً من النغمات الكاملة للحصول على دقة أكثر
قارن النتيجة على إعدادات حنجرية متعددة إذا كانت أداتك توضح تحويل حنجري - أحياناً تحول حنجري صعودي صغير يجعل النتيجة أقل “روبوتية”
معالجة مقاطع اختبار قصيرة (30 ثانية) أولاً لضبط الإعدادات قبل تشغيل المسار الكامل
استخدم ميزات VoxBooster مُغيِّر صوت الذكاء الاصطناعي لإضافة معالجة إضافية على الصوت المحول في الوقت الفعلي إذا كنت تريد إضافة تأثيرات الشخصية على رأس التحويل الأساسي

الأسئلة الشائعة

ما أفضل مُغيِّر صوت للأغاني لصنع نسخ بالذكاء الاصطناعي؟ لا توجد إجابة واحدة وحيدة - فهذا يعتمد على سير عملك. بالنسبة لمستخدمي Windows الذين يريدون معالجة غير متصلة بالإنترنت بدون رسوم سحابية، يجمع VoxBooster بين تحويل الصوت المستند إلى الذكاء الاصطناعي وفصل المسارات المدمج. للتجريب البحت، تُعتبر برامج استنساخ الأصوات مفتوحة المصدر الخيار الأكثر مرونة. تعتمد الجودة أكثر على نموذج الصوت ونظافة فصل المسارات من تطبيق الواجهة.

هل أحتاج إلى وحدة معالجة رسومات لصنع نسخ أغاني بالذكاء الاصطناعي؟ تسرع وحدة معالجة الرسومات الأمور بشكل كبير - يمكن لبطاقة NVIDIA حديثة معالجة صوت مدته ثلاث دقائق في أقل من دقيقة. تعمل المعالجة على المعالج فقط لكنها بطيئة (5-15 دقيقة لكل مسار). بالنسبة للتحويل غير المتصل بالإنترنت باستخدام أدوات مثل VoxBooster أو برامج استنساخ الأصوات مفتوحة المصدر، فإن NVIDIA CUDA يعطي أفضل النتائج؛ AMD ROCm يعمل أيضاً مع التكوينات المتوافقة.

هل من القانوني تحميل نسخ أغاني بالذكاء الاصطناعي على YouTube أو Spotify؟ هذا يعتمد على وضعك من الحقوق. تحتاج إلى ترخيص ميكانيكي للتكوين الأساسي. إذا استخدمت مسار الصوت من التسجيل الأصلي كمصدرك، فإن حق الماستر أيضاً في اللعبة. إذا استخدمت نموذج صوت بالذكاء الاصطناعي بناءً على فنان حقيقي، فقد يطالب الموزع أو صاحب الحقوق بالفيديو أو قد يحجبه. تأكد دائماً من حقوقك قبل تحقيق الدخل أو التوزيع. هذا ليس مشورة قانونية.

كيف يمكنني فصل الأصوات عن أغنية؟ أدوات فصل المسارات مثل Demucs (مفتوحة المصدر) أو الخدمات التجارية تقسم ملف صوت مختلط إلى أصوات وطبول وباص وآلات أخرى. تقدم الأغنية كاملة وتستقبل مسارات معزولة. تحسنت الجودة بشكل كبير لكن بعض التسرب الصوتي طبيعي، خاصة في الترتيبات الكثيفة أو المضغوطة بشدة. نموذج Demucs htdemucs_ft هو نقطة انطلاق قوية.

هل يمكنني تغيير الصوت في الأغنية في الوقت الفعلي؟ يعمل تحويل الصوت في الوقت الفعلي للغناء المباشر والبث - تغني في الميكروفون وينقل نموذج الصوت بالذكاء الاصطناعي صوتك على الفور. بالنسبة للأغاني المسجلة، فإن المعالجة غير المتصلة بالإنترنت بعد فصل المسارات هي سير العمل الصحيح. يخدم الأسلوبان أغراضاً مختلفة وليسا قابلين للتبديل.

كم من الصوت أحتاج لتدريب نموذج صوت مخصص؟ تتطلب معظم أدوات استنساخ الأصوات بالذكاء الاصطناعي من 3 إلى 10 دقائق من الأصوات النظيفة المعزولة لنموذج قابل للاستخدام. عموماً تتفوق البيانات النظيفة الأكثر على البيانات الإجمالية الأكثر. الضوضاء الخلفية والصدى والتسرب من الآلات كل ذلك يقلل من دقة النموذج، لذا فإن العزل الصوتي عالي الجودة حاسم قبل التدريب.

ما صيغة الصوت التي يجب استخدامها للحصول على أفضل جودة غطاء بالذكاء الاصطناعي؟ صدّر المسارات بصيغة WAV 32-بت عائمة بـ 44.1 كيلوهرتز أو 48 كيلوهرتز. تجنب الضغط الثقيل - MP3 أقل من 256 كيلوبت/ث يقدم تشوهات يضخمها نموذج تحويل الصوت. غذِّ نموذج تحويل الصوت بالذكاء الاصطناعي بصوت بدون فقدان أو قريب من بدون فقدان للحصول على أنظف مخرجات.

الخاتمة

صنع غطاء أغنية بالذكاء الاصطناعي هو حرفة متعددة الخطوات: فصل المسارات واختيار نموذج الصوت وتحويل الصوت بالذكاء الاصطناعي والمزج. لكل خطوة رافعات جودة خاصة بها، والنتائج تتحسن بسرعة بمجرد أن تفهم مكان التركيز. منظر حقوق النشر حقيقي ويستحق الأخذ به على محمل الجد قبل نشر أي شيء علناً.

إذا كنت تريد أن تجرب محلياً بدون تحميل صوت على خدمات سحابية، حمّل VoxBooster وجرب خط أنابيب تحويل الصوت غير المتصل بالإنترنت - يعمل بالكامل على جهاز Windows PC الخاص بك، ويتعامل مع المعالجة في الوقت الفعلي وغير المتصلة بالإنترنت، ويدعم النطاق الكامل من نماذج الصوت بالذكاء الاصطناعي للمجتمع. تحقق من صفحة التسعير لتفاصيل الخطة، أو اقرأ المزيد حول استنساخ الصوت لفهم كيفية الاستفادة القصوى من النماذج المخصصة.