مولد صوت الذكاء الاصطناعي لأنظمة PA محطات القطار

قطع صوت ذكاء اصطناعي محطة القطار من المختبر البحثي إلى النشر المباشر أسرع من أي تطبيق PA عام آخر تقريباً. في كل مرة يعلن مكبر صوت منصة المترو عن قطار يقترب أو يحذر من تأخير الإشارة أو يتتابع موجه متعدد اللغات لمدة ثلاث دقائق تحت أربع ثوان، هناك احتمال جيد أن محرك توليف عصبي يفعل العمل - وليس بنك مقاطع وليس مشغل بشري وليس حلقة تسجيل من عام 1997. يشرح هذا الدليل كيفية عمل مولدات PA صوت النقل من البداية إلى النهاية ويغطي مشكلة النشر متعدد اللغات ويشرح سبب كون تجنب الأصوات المتفجرة هو مصدر قلق هندسة الصوتيات الأساسية ويوضح كيف أن نفس تكنولوجيا صوت الذكاء الاصطناعي المتاحة لسلطات النقل متاحة الآن للمنشئين والمطورين المستقلين.

الملخص السريع

يستخدم النقل الحديث PA توليف عصبي تحويل نصوص إلى كلام وليس بنوك مقاطع - مما يتيح مفردات غير محدودة وبروسودي طبيعي.
تندرج إعلانات المنصة في أربعة أنواع: قطار يقترب وآخر محطة وتنبيه التأخير والتنبيه الأمني - لكل منها صياغة مميزة وضبط استعجالية.
يتطلب النشر متعدد اللغات (نيويورك: EN/ES/ZH؛ طوكيو: JP/EN) نماذج صوت منفصلة لكل لغة بالإضافة إلى قاموس فونيم لاسم المحطة ثنائي اللغة.
تحمل الأصوات المتفجرة سائقي بوابة PA في محطات رنانة - يعالج مصممو الأصوات ونماذج الذكاء الاصطناعي هذا على مستوى البرنامج النصي وباستخدام DSP إزالة المتفجرات.
يمكن لنفس تكنولوجيا توليف صوت الذكاء الاصطناعي الأساسي إنشاء صوت PA واقعي لمحطة قطار للألعاب والأفلام والمحاكيات ومحتوى إنشاء.

ما هو مولد صوت PA لمحطة القطار؟

مولد صوت PA بمترو الأنفاق هو خط أنابيب تحويل نصوص إلى كلام محسّن بشكل خاص للنشر في بيئات النقل العام. يختلف عن نظام TTS عام في عدة طرق: يتم تدريب نموذج الصوت أو ضبطه بدقة على صوت مذيع متخصص مع بروسودي مناسب لـ PA؛ يتم تصفية المخرجات EQ لمطابقة استجابة التردد لسائقي البوقي وأعمدة المكبرات؛ والنظام يجب أن يعمل بكمون منخفض جداً - يفضل أقل من 500 ملي ثانية من لحظة حدث كشف قطار إلى اللحظة التي يصل فيها الصوت إلى مكبر الصوت بالمنصة.

على المستوى التقني، عادة ما يبدو كومة النقل TTS الحديثة مثل هذا:

مصدر الحدث - نظام الإشراف على القطارات المؤتمتة (ATS) يكتشف قطاراً يدخل كتلة أو يصل إلى محطة.
منسق الرسالة - محرك القواعد يحول بيانات ATS (معرف القطار والخط والاتجاه والمنصة وكود التأخير) إلى سلسلة نصية منظمة.
محرك TTS - نموذج توليف عصبي يحول النص إلى موجة صوتية، مع تطبيق معايرة السرعة واقتران الكسب بشكل اختياري.
سلسلة DSP - معالج أجهزة أو برنامج يطبق EQ والضغط والحد المضبوط لأجهزة PA المحددة على تلك المحطة.
وحدة تحكم PA - تسير الصوت إلى مناطق السماعات الصحيحة (أعمدة حافة المنصة والممر والدرج المتحرك والهبوط).

عادة ما يكون نموذج الصوت نفسه مدرباً على ممثل صوت متخصص أو بث يتم توظيفه بشكل خاص من قبل سلطة النقل، ثم يتم ضبطه بدقة لوضوح الكلام في بيئات عالية الضوضاء ورنانة. تضمن نماذج البروسودي على مستوى الجملة أنه حتى الإعلان الجديد - واحد يجمع بين رقم مسار واسم محطة ووقت لم يتم التحدث به أبداً في بيانات التدريب - لا يزال يبدو مثل نفس الشخص يقرأ بشكل طبيعي.

أنواع الإعلانات الأساسية الأربعة

فهم كيفية استخدام مولدات صوت المترو في الميدان يعني فهم فئات الإعلانات الرئيسية الأربع، لكل منها متطلبات مختلفة من التوقيت والاستعجالية والصياغة.

1. تحذير القطار يقترب

يتم تشغيله عندما يدخل قطار كتلة المحطة، عادة 20-60 ثانية قبل وصوله إلى حافة المنصة. الشرط الأساسي هو التوليد السريع - يفضل أقل من 200 ملي ثانية - والنطق الواضح للخط والاتجاه في بداية العبارة جداً.

نمط البرنامج النصي مثال: “قطار [اسم الخط] [الاتجاه/الطرف الموصل] يصل على [المسار/جانب المنصة]. ابعد عن الحافة.”

ضبط الصوت للتحذيرات القريبة يرفع معدل التحدث قليلاً (حوالي +5 إلى +10 بالمقارنة مع الإعلانات المعلوماتية) ويزيد من وجود التردد المنخفض للقطع من خلال ضوضاء حشد المنصة.

2. تنبيه التأخير بالمنصة

يتم تشغيله من خلال كشف ATS للتأخير أو إدخال المشغل اليدوي. هذه تتطلب أكثر توليد نص ديناميكي لأن أسباب التأخير تختلف - مشاكل الإشارة والمشاكل الميكانيكية والنشاط الشرطي والطوارئ للركاب - ويجب توصيل السبب المحدد بوضوح دون التسبب في الذعر.

مثال: “نحن نشهد تأخيرات على [اسم الخط] بسبب مشكلة الإشارة شمال [اسم المحطة]. السماح بوقت إضافي لرحلتك.”

عادة ما يتم إبطاء نموذج صوت تنبيه التأخير قليلاً مقارنة بالإعلانات القياسية، مع فترات صامتة بين العبارات الإضافية لإعطاء الراكبين وقتاً لمعالجة المعلومات والقرار بإعادة التوجيه.

3. الإعلان الأخير / نهاية الخط

يتم تشغيله في محطة النهاية، على كل من الإنترفون داخل القطار وفي المنصة. يتطلب وضوح كلام عالي جداً لأن الركاب الذين تعاموا في النعاس أو منشغلون يجب أن يستيقظوا ويتخذوا إجراء. تستخدم بعض الأنظمة بادئة صوتية متميزة (جرس نغمتان) قبل الصوت لجذب الانتباه.

مثال: “وصل هذا القطار إلى محطته الأخيرة. يجب على جميع الركاب الخروج. هذا هو [اسم المحطة].“

4. تنبيهات الأمان وإمكانية الوصول

رسائل الأمان الدائمة يتم تشغيلها في جدول زمني أو يتم تشغيلها بواسطة أحداث استشعار (كاشفات الفجوات بالمنصة وكاشفات الدخان وكثافة الحشود). هذه تتضمن موجه “انتبه من الفجوة” الشهير وإشعارات انقطاع المصعد وتعليمات الإخلاء في حالات الطوارئ.

ضبط الصوت لتنبيهات الأمان غالباً ما يزيد معدل التحدث قليلاً ويعزز الوجود في النطاق الأوسط (1-3 كيلو هرتز) لأقصى وضوح كلام في ظروف الطوارئ، باتباع إرشادات معيار ITU-T P.50 للأصوات الاصطناعية.

النشر متعدد اللغات: نيويورك وطوكيو وما وراءها

الجانب الأكثر تعقيداً تقنياً من توليد صوت PA لمترو الأنفاق اليوم هو النشر متعدد اللغات. أنظمة النقل تخدم عدد سكان متزايد التنوع وتقديم الإعلانات بلغات متعددة هو متطلب قابلية وصول قانوني وإجراء سلامة عملي.

مترو نيويورك: الإنجليزية والإسبانية والماندرين

ينقل مترو نيويورك أكثر من مليوني راكب يومياً عبر 472 محطة و 27 خطاً. تغطي مبادرة MTA متعددة اللغات لـ PA ثلاث لغات - الإنجليزية (الأساسية) والإسبانية والماندرين الصينية - على خطوط مختارة مع أثقل ركوب غير إنجليزي.

تتطلب كل لغة نموذج صوت منفصل تماماً:

متحدث إنجليزي أصلي مدرب على بث أمريكي قياسي
متحدث إسباني أصلي (بشكل خاص مع لهجة محايدة لاتينية أمريكية لخدمة أوسع عدد سكان)
متحدث ماندرين أصلي (بوتونجوا قياسية)

التحدي ليس فقط توليف الصوت بل تصحيح أسماء المحطات. أسماء المحطات مثل “Myrtle-Wyckoff” و “Canarsie” و “Pelham Bay Park” هي أسماء خاصة إنجليزية بدون نطق طبيعي بالماندرين أو الإسبانية. يجب على سلطة النقل إنشاء قاموس فونيم مخصص لكل اسم محطة بكل لغة مستهدفة، غالباً بالتشاور مع علماء اللغة المجتمعية المحليين.

اللغة	نموذج الصوت	نهج اسم المحطة	طول الإعلان النموذجي
الإنجليزية	مذيع مدرب، معيار أمريكي	نطق أصلي	8-12 ثانية
الإسبانية	لهجة محايدة لاتينية أمريكية	التكيف الفونيمي	10-14 ثانية
الماندرين	معيار Putonghua	الترجمة + علامات النبرات	12-16 ثانية
اليابانية (طوكيو)	Hyojungo قياسية	أصلية + كلمات إنجليزية مستعارة	8-12 ثانية
الإنجليزية (طوكيو)	بث محايد	أسماء خاصة أصلية محتفظ بها	6-10 ثواني

طوكيو ميترو: اليابانية والإنجليزية

شبكة مترو وسكة حديد الركاب بطوكيو هي واحدة من أكثر الشبكات المكتظة بالإعلانات في العالم. يحتوي خط Yamanote وحده على 30 محطة، وتؤدي كل محطة إلى سلسلة من 6-8 إعلانات متميزة: قطار يقترب والأبواب تغلق والمحطة التالية ومعلومات الاتصال والتذكير الأمني وجرس المغادرة. مع تشغيل القطارات كل 2-4 دقائق، هذا تحدٍ إنتاج صوت فعلي يعمل بشكل مستمر أثناء ساعات التشغيل.

تستخدم قطارات طوكيو مكدس أربع لغات على قطارات Shinkansen النقذة: اليابانية والإنجليزية والصينية والكورية. يتم تدريب كل نموذج صوت بشكل منفصل وتكييفه فونيمياً لأسماء محطات وقطارات يابانية (التي يجب على نماذج اللغة الإنجليزية والماندرين والكورية أن تعرضها كلمات مستعارة باستخدام نطق مشتق من الكاتاكانا).

تم استخدام نماذج الأصوات اليابانية على خطوط JR East منذ أوائل عام 2010 - بعض من أوائل النشرات واسعة النطاق لتوليف الصوت العصبي في سياق نقل عام، رغم أن الإصدارات السابقة استخدمت توليف اختيار الوحدة بدلاً من النماذج العصبية الحديثة الشاملة.

تجنب الأصوات المتفجرة في تصميم صوت PA

تجنب الأصوات المتفجرة هو مصدر قلق تقني يعرفه مهندسو الأصوات الذين يعملون في صوت PA النقل جيداً ولكن نادراً ما يتم شرحه للغرباء. فهمه يوضح لماذا يتم صياغة إعلانات PA بالطريقة التي يتم بها - ولماذا يجب على مصممي صوت الذكاء الاصطناعي حسابه أثناء تدريب النموذج وكتابة البرنامج النصي.

ما هو صوت متفجر؟

صوت متفجر هو حرف ساكن ينتج عن توقف كامل لتدفق الهواء متبوعاً بفرقعة ضغط - الحروف P و B و T و D و K و G باللغة الإنجليزية. في بيئة ميكروفون الاستوديو، ينتج عن الأصوات المتفجرة نبض منخفض التردد يتم تصفيته عادة بواسطة فلتر البوب. في بيئة مكبر صوت PA، تضرب نفس طاقة الفرقعة سائق بوقي مباشرة، مما ينتج عنها صراخ حاد أو فرقعة مسموعة عبر المحطة بأكملها.

تعتبر مكبرات الصوت البوقية - النمط المستخدم في معظم تطبيقات PA للنقل - حساسة بشكل خاص لانفجارات الأصوات المتفجرة لأن تصميم البوق الأسي يضخم الطاقة متوسطة التردد بكفاءة ولكن ليس لديها نفس خصائص امتصاص الصدمة مثل مكبرات الصوت الخطية في خزانة مختومة.

كيف يعالج تصميم صوت PA للنقل الأصوات المتفجرة

تجنب على مستوى البرنامج النصي: يختار كتاب البرامج النصية المتخصصة في PA صياغة توزع الطاقة بشكل متساوٍ. يُفضل “الانتباه الراكبين” على “يرجى الانتباه”؛ “الرجاء الخطوة للخلف” يتجنب مزيج K+B الذي تنتجه “ابقوا للخلف”؛ “شكراً لك على الركوب” يحل محل “يرجى الاعتناء” في بعض المواضع.

تدريب إزالة المتفجرات على مستوى النموذج: نماذج صوت الذكاء الاصطناعي للنقل غالباً ما يتم تدريبها باستخدام قاموس نطق مخصص يخفف قليلاً من طاقة الانفجار من الفونيمات المتفجرة - في الأساس خبز خطوة معالجة إزالة المتفجرات معتدلة في التوليف العصبي نفسه.

معالجة سلسلة DSP: حتى بعد توليف الذكاء الاصطناعي، ينتقل الصوت عبر سلسلة DSP للأجهزة أو البرنامج التي تتضمن فلتر تمرير عالي (عادة قطع أقل من 80-120 هرتز) وضاغط/محدد وغالباً محطة قمعية انفجارية مخصصة تمسك بطاقة الانفجار المتبقية قبل وصولها إلى سائق البوقي.

معايرة معدل التحدث: معدلات التحدث الأبطأ تقلل طاقة تأثير الأصوات المتفجرة. معظم أصوات PA للنقل تعمل بحوالي 140-160 كلمة في الدقيقة مقارنة بالكلام المحادث بـ 180-200 كلمة في الدقيقة. الوقت الإضافي بين الفونيمات يعطي الأصوات المتفجرة مساحة للاضمحلال قبل وصول الصوت التالي.

كيف حل توليف صوت الذكاء الاصطناعي محل بنوك المقاطع

قبل توليف صوت عصبي، استخدمت أنظمة PA للنقل توليف اختيار الوحدة أو ربط بنك المقاطع. كلا الأسلوبين متطلبات تسجيل مئات أو آلاف من الكلمات والأرقام والعبارات القصيرة من قبل ممثل صوت، ثم تجميعها معاً في وقت التشغيل.

بنوك المقاطع لها عدة مشاكل معروفة جيداً:

عدم تطابق مستويات الصوت بين المقاطع المسجلة في جلسات أو أيام مختلفة
إيقاع آلي لأن البروسودي لا يمكن أن يمتد عبر حدود المقاطع بشكل طبيعي
مفردات محدودة - أسماء محطات جديدة أو أرقام مسارات جديدة أو وصف تأخيرات غير عادية تتطلب جلسات تسجيل مكلفة
عبء الصيانة - أي تحديث للصوت تطلب التنسيق مع ممثل الصوت الأصلي

يحل توليف الصوت العصبي كل هذا. يمكن لنموذج مدرب على 2-4 ساعات من الصوت المصدر من ممثل صوت متخصص أن ينتج أي نص تعسفي بنفس جودة طبيعية مع جهارة متسقة وبروسودي طبيعي ومفردات غير محدودة. يمكن لسلطة النقل تحديث نص سبب التأخير وإضافة أسماء محطات جديدة أو تغيير صياغة الرسائل الأمنية برسالة برنامج - لا توجد جلسة تسجيل مطلوبة.

تسارعت الانتقال من بنوك المقاطع إلى توليف عصبي في أنظمة النقل الرئيسية بين 2018 و 2024. خط Elizabeth التابع لمترو أنفاق لندن، الذي افتتح في عام 2022، تم إطلاقه بصوت ذكاء اصطناعي بالكامل توليفي لإعلانات المنصة والركاب. تعهدت خط RER B بضاحية باريس بمشروع إعادة توليف صوت كامل استبدل 14000 مقطع مسجل مسبقاً بنموذج AI يولد في الوقت الفعلي.

بناء صوت PA على غرار النقل للمشاريع الإبداعية

نفس تكنولوجيا صوت الذكاء الاصطناعي التي تشغل إعلانات PA لمترو الأنفاق متاحة الآن للمنشئين المستقلين - مطورو الألعاب والمشهد السينمائي ومصممو الحدائق الترفيهية وهوايات المحاكاة ومنشئي المحتوى الذين يريدون صوت PA نقل واقعي دون توظيف ممثل صوت واستئجار استوديو PA.

بالنسبة لإنتاج البرنامج القائم على الأجهزة على Windows، يبدو سير العمل على النحو التالي:

الخطوة 1 - اختيار الصوت المصدر. اختر صوتاً بنطق واضح وحد أدنى من الصفير وحيادية اللهجة لمنطقتك الجغرافية المستهدفة. إذا كنت تكرر نظام عالم حقيقي محدد، استمع إلى تسجيلات إعلانات هذا النظام لتحديد شخصية الصوت.

الخطوة 2 - تدريب نموذج الصوت. تأخذ أداة استنساخ صوت ذكاء اصطناعي 2-4 دقائق من الصوت المصدر النظيف وتدرب نموذج توليف. بالنسبة لعمل النقل، يفضل جودة الصوت على السرعة - نموذج أنظف يدر إخراج أكثر وضوحاً من خلال تصفية EQ الثقيلة التي تتبع. يتعامل خط استنساخ صوت الذكاء الاصطناعي بـ VoxBooster مع هذه الخطوة محلياً على أجهزة Windows، مما يحافظ على سلسلة الصوت الكاملة على جهازك.

الخطوة 3 - تحضير البرنامج النصي. اكتب برامج الإعلانات مع تجنب الأصوات المتفجرة في الذهن. حافظ على الجمل أقل من 20 كلمة. استخدم الزمن الحالي المستمر (“القطار يصل الآن”) بدلاً من الأمر (“وصول القطار”) لتوليد بروسودي أكثر طبيعية. تجنب الاختصارات التي سيخطئ فيها النموذج - تهجئة “Avenue” بدلاً من “Ave.”

الخطوة 4 - إنشاء وتطبيع. وليد كل إعلان إلى WAV بـ 44.1 كيلو هرتز، 16-بت. معايرة إلى -18 ديسيبل LUFS (معيار البث للعام) بدلاً من -23 LUFS (بث التلفزيون/الراديو)، نظراً لأن أنظمة PA تطبق كسب كبير قبل السماعة.

الخطوة 5 - محاكاة EQ مكبر صوت PA. طبق EQ حد النطاق المركز على 500-3500 هرتز مع منحدرات لطيفة - هذا يحاكي استجابة التردد لمكبر صوت البوقي ويصفي الجزء السفلي من الجهير والثلج العالي الذي لا يمكن لمكبرات الصوت الحقيقية للنقل إعادة إنتاجه. غرفة غفو خفيفة (RT60 من 0.8-1.2 ثانية) مع تأخير قصير قبل (25-40 ملي ثانية) محاكاة بيئة محطة مكسية بالبلاط.

الخطوة 6 - التصدير والتكامل. صدر إلى WAV أو FLAC. لمحركات الألعاب (Unity و Unreal)، تنخفض هذه مباشرة في أنظمة أحداث الصوت. لإنتاج الفيديو، ارفعها إلى NLE وقم بضبط التوقيت مقابل الإشارات البصرية.

بالنسبة لتطبيق ذي صلة لمولدات صوت الذكاء الاصطناعي في السياقات العامة للعنوان، راجع دليلنا حول مولد صوت ذكاء اصطناعي لإعلانات بوابة المطار و مولد صوت ذكاء اصطناعي لمكبرات الصوت في متاجر البقالة، التي تغطي تحديات صوتية مماثلة في بيئات مختلفة.

سلسلة معالجة الصوت لجودة PA للنقل

الفرق بين إعلان PA المنزلي وإعلان جودة النقل الاحترافية هو تقريباً بالكامل في سلسلة المعالجة. فيما يلي خطوات DSP الرئيسية بالترتيب الصحيح:

المرحلة	المعالجة	الإعدادات
فلتر تمرير عالي	إزالة الجهير السفلي أقل من 100 هرتز	2 ترتيب Butterworth، 100 هرتز
إزالة المتفجرات	قمع فرقعات انفجارية	الهجوم 1ms، الإفراج 50ms، العتبة -6 ديسيبل
الضغط	محاذاة الديناميكية	نسبة 4:1، عتبة -18 ديسيبل، هجوم 10ms
EQ (دفع الوجود)	عزز وضوح الكلام	رف +3 ديسيبل عند 1.5-3.5 كيلو هرتز
فلتر قطع عالي	إزالة ثلج قاسي	قطع فوق 6-8 كيلو هرتز
تحديد	سقف صعب لسائقي PA	ذروة حقيقية -3 ديسيبل
غرفة صدى	محاكاة صوتية محطة	RT60 0.8-1.2s، تأخير قبل 30ms

يمكن تكرار هذه السلسلة في أي DAW أو أداة معالجة صوت. مرحلة إزالة المتفجرات هي الأهم لإخراج جودة النقل والأكثر شيوعاً في المشاريع الهواة.

نماذج الأصوات عبر بيئات النقل المختلفة

لا تستخدم جميع بيئات النقل نفس شخصية الصوت. البيئة الصوتية وعلم النفس الراكب يخبران خيارات ضبط صوت مختلفة:

مترو ثقيل (تحت الأرض عميقة): معدل تحدث أبطأ (140 wpm)، منتصف سفلي أكثر بروزاً لتعويض الرنين النفق، نبرة هادئة سلطوية. أمثلة: مترو أنفاق لندن وخط باريس ميترو 1 وخطوط MTA IND بنيويورك.

القطار الخفيف / الترام (خارجي/شبه مغلق): معدل تحدث أسرع (155-165 wpm)، حضور تردد عالي أكثر للقطع من خلال ضوضاء حضرية محيطة، نبرة أكثر دفئاً. أمثلة: أقسام سطح San Francisco Muni Metro وترامات أمستردام.

قطار الركاب (لمسافات أطول، راكبون جالسون): أبطأ معدل تحدث (130-140 wpm)، أكثر بروسودي طبيعياً ودفئاً - الراكبون لديهم وقت لمعالجة الجمل الكاملة. الأقرب إلى صوت مذيع راديو تقليدي. أمثلة: خدمات NJ Transit و SNCF TER الإقليمية.

اتصالات السكك الحديدية للمطار (ARL و Heathrow Express): أولوية وضوح أعلى؛ نطق واضح جداً وسجل رسمي وغالباً الأكثر متعددة اللغات. النطق الأكثر وضوحاً جداً لأن فقدان اتصال بسبب إعلان مسموع بشكل خاطئ هو فشل بمخاطر عالية.

هذه خيارات شخصية الصوت ليست عشوائية - تعكس الاختبار الصوتي في كل نوع بيئة والبحث النفسي الصوتي حول كيفية معالجة الركاب بحالات انتباه مختلفة (مركزة مقابل منشغلة مقابل نائمة) لصوت PA.

تطبيقات مولدة صوت ذكاء اصطناعي ذات صلة

تتشارك حالة استخدام PA لمحطة القطار التكنولوجيا والمنهجية مع عدة تطبيقات عامة PA أخرى. للحصول على عرض أوسع لكيفية استخدام مولدات صوت الذكاء الاصطناعي في البيئات المبنية:

مولد صوت ذكاء اصطناعي لإعلانات طابق المصعد — نفس قيود مكبر صوت سائق واحد، جمل أقصر بكثير، معدل تكرار عالي جداً
مولد صوت ذكاء اصطناعي لجولات الصوت في المتاحف — التحدي الصوتي المعاكس: الألفة على حساب الوضوح، الدفء على القوة
استنساخ الصوت للعمل الصوتي — سير العمل الاحترافي لممثلي الصوت والمنتجين الذين يستخدمون نماذج صوت الذكاء الاصطناعي تجارياً

الأسئلة المتكررة

ما هو صوت ذكاء اصطناعي لمحطة القطار؟

صوت ذكاء اصطناعي محطة القطار هو نظام تحويل نصوص إلى كلام مدرب على صوت ممثل مرجعي ومنشور على أجهزة PA المؤتمتة. يحول النص الحي أو المجدول - أوقات الوصول وتغييرات المنصة والتنبيهات الأمنية - إلى كلام طبيعي بزمن استجابة أقل من ثانية واحدة، مما يحل محل بنوك المقاطع المسجلة مسبقاً وإعلانات المشغل اليدوي.

أي أنظمة مترو تستخدم إعلانات توليفية؟

نظام نقل مترو نيويورك MTA وأنفاق لندن وخطوط باريس RATP وطوكيو ميترو من بين الأكثر بروزاً. قامت نيويورك مؤخراً بدمج أصوات ذكاء اصطناعي متعددة اللغات للغة الإنجليزية والإسبانية والماندرين على خطوط مختارة. يستخدم خط Yamanote في طوكيو إعلانات توليفية بالية واليابانية والإنجليزية عبر جميع المحطات الثلاثين.

كيف يتعامل مولد صوت PA في مترو الأنفاق مع الإعلانات متعددة اللغات؟

تتطلب كل لغة نموذج صوت منفصل مدرب على متحدث أصلي بتلك اللغة. يرسل وحدة تحكم PA نفس البيانات الدلالية - رقم المسار واسم المحطة وسبب التأخير - إلى كل محرك لغة بالتوازي، ثم يشغل المخرجات بالتسلسل أو في نفس الوقت على مناطق منصة مختلفة.

لماذا تتجنب أصوات PA الأصوات المتفجرة مثل P و B؟

ينتج عن الأصوات المتفجرة اندفاعات مفاجئة لضغط الهواء التي تحمل سائقي بوابة PA وتسبب “بوب” مسموع في بيئات محطة رنانة. يطبق مصممو الأصوات ومهندسو صوت الذكاء الاصطناعي مرشحات إزالة المتفجرات المدمجة ويختارون صياغة البرنامج النصي التي توزع الطاقة بشكل متساوٍ - على سبيل المثال “انتبه الراكبين” بدلاً من “يرجى الانتباه”.

هل يمكنني إنشاء صوت PA بأسلوب النقل باستخدام برنامج سطح المكتب؟

نعم. تتيح أدوات مثل VoxBooster استنساخ صوت من تسجيل مرجعي قصير وتطبيق إعدادات EQ التي تحاكي خاصية النطاق الترددي للهاتف من مكبرات صوت PA لمحطة القطار. بالاقتران مع خط أنابيب تحويل نصوص إلى كلام، يمكنك إنتاج إعلانات نقل واقعية للمحاكاة والأفلام والألعاب دون حجز استوديو تسجيل.

ما صيغة الصوت التي تستخدمها أنظمة PA لمحطات القطار؟

تقبل معظم أنظمة PA الحديثة WAV (PCM 16-bit، 22.05 كيلو هرتز أو 44.1 كيلو هرتز) أو MP3 المسلمة عبر وحدة تحكم صوت LAN/IP. يرسل التوليف في الوقت الفعلي PCM غير مضغوط مباشرة إلى خلاط DSP؛ يتم تخزين المكتبات المسجلة مسبقاً كـ FLAC أو MP3 عالي البت على الخادم لموازنة الجودة مع التخزين.

كيف يحسن توليف صوت الذكاء الاصطناعي على بنوك المقاطع المسجلة مسبقاً لـ PA النقل؟

تسلسل الأنظمة التقليدية PA مئات من تسجيلات الكلمات والأرقام الفردية، مما ينتج عنه إيقاع آلي وعدم تطابق مستويات الصوت بين المقاطع. يولد توليف عصبي ذكاء اصطناعي كل إعلان كموجة دائمة مستمرة، مع بروسودي طبيعي وجهارة متسقة ومفردات غير محدودة - بما في ذلك أسماء محطات جديدة وتواريخ وأرقام مسارات لم يتم تسجيلها بواسطة ممثل الصوت الأصلي أبداً.

الخلاصة

حل صوت ذكاء اصطناعي لمحطة القطار مشكلة تشغيلية حقيقية لسلطات النقل في جميع أنحاء العالم - عدم القدرة على بنوك المقاطع المسجلة مسبقاً على التعامل مع الطلب العام ومتعدد اللغات والمحدث بشكل دائم. نفس مبادئ توليف عصبي التي تسمح لمترو نيويورك بالإعلان عن التأخيرات بثلاث لغات أو خط Yamanote في طوكيو بتشغيل 60+ إعلان يومي لكل محطة بلغتين معبأة الآن في أدوات متاحة لسطح المكتب.

بالنسبة للمنشئين الذين يحتاجون إلى صوت PA بجودة النقل للألعاب والأفلام والمحاكيات أو المحتوى - سير العمل واضح: استنساخ صوت نظيف وبرنامج نصي مكتوب بعناية مع تجنب الأصوات المتفجرة وسلسلة معالجة تحاكي صوتيات مكبر صوت البوقي. VoxBooster يغطي جانب استنساخ الصوت والتوليف من هذا خط الأنابيب على Windows 10/11، مع تجربة مجانية لمدة 3 أيام بدون بطاقة ائتمان مطلوبة. يمكن تطبيق سلسلة المعالجة الصوتية - EQ والضغط والصدى - في أي DAW أو محرر صوت بعد التوليف.

إذا كنت تبني محاكاة نقل أو تنتج فيلم قصير مع مشاهد مترو أو تطور بيئة لعبة تحتاج إلى صوت PA قابل للتصديق، فإن الفجوة بين الجودة الهواة والمهنية تعود تقريباً بالكامل إلى خطوات سلسلة DSP تلك والكتابة الواعية بالأصوات المتفجرة - كلاهما قابل للتعلم وكلاهما قابل للتحقيق دون إعداد استوديو تسجيل كامل.

تحميل VoxBooster — تجربة مجانية لمدة 3 أيام، لا توجد بطاقة ائتمان مطلوبة.