مولد الصوت بالذكاء الاصطناعي لرسائل أجهزة الصراف الآلي والبنوك

نظام الصوت الذكي للصراف الآلي ونظام الصوت الذكي لبهو البنك يشتركان في مشكلة يتجاهلها معظم أدلة تحويل النص إلى كلام: يجب أن يعمل الصوت في بيئات منظمة عالية المخاطر حيث يمكن لرسالة سيئة أن تعني أن العميل الأعمى لا يمكنه إكمال معاملة، أو حيث قد ينتج عن خط أنابيب تسجيل غير فعال ثغرة في امتثال PCI. يغطي هذا الدليل كيفية إنتاج رسائل احترافية لأجهزة الصراف الآلي والبنوك باستخدام مولد صوتي ذكي — من معايير السيناريو إلى مواصفات صيغ الملفات الصوتية، الإنتاج متعدد اللغات عبر الإنجليزية والإسبانية والفرنسية، وكيفية ملاءمة سير العمل هذا مع مجموعات نشر Diebold Nixdorf و NCR Voyix و Itautec.

الملخص التنفيذي

يجب أن تغطي رسائل الصوت على الصراف الآلي كل إجراء على الشاشة لامتثال ADA — يقلل مولد صوتي ذكي عصبي بشكل كبير من تكلفة الإنتاج مقابل جلسة ممثل صوتي في الاستوديو.
PCI DSS تنطبق على المسارات الصوتية لبيانات البطاقة: أي رسالة تقرأ معلومات البطاقة يجب توجيهها إلى إخراج سماعات الرأس فقط.
يحتاج جهاز الصراف الآلي النموذجي في الولايات المتحدة/كندا إلى ثلاث لغات على الأقل: الإنجليزية والإسبانية والفرنسية؛ غالباً ما تضيف عمليات النشر الكبرى في المناطق الحضرية المزيد.
لدى Diebold Nixdorf (APTRA XFS) و NCR Voyix (APTRA Edge) و Itautec متطلبات صيغ ملفات صوتية مختلفة — تطابق معدل العينة قبل التسليم.
يتيح لك مولد صوتي ذكي مع استنساخ صوت مخصص الحفاظ على اتساق العلامة التجارية عبر آلاف الرسائل دون إعادة حجز ممثل صوتي.
VoxBooster الاستنساخ الصوتي الحي بالذكاء الاصطناعي هو الجانب الإنشائي لسير العمل هذا: سجل نفسك أو ممثلاً صوتياً مستأجراً، بناء النموذج، ثم تصدير كل رسالة بنظافة.

لماذا تستبدل البنوك مكتبات الرسائل القديمة بالصوت الذكي

تم تسجيل مكتبات رسائل الصراف الآلي الموروثة في الاستوديوهات وتحريرها يدويـاً وحرقها في البرامج الثابتة أو تخزينها على فلاش مشفرة. تعمل مجموعة رسائل إنجليزية كاملة لجهاز صراف آلي حديث على 400-800 مقطع صوتي منفصل. عندما تضيف البنك منتجاً جديداً أو تغير جدول الرسوم أو تحتاج إلى الامتثال لغة تنظيمية محدثة، يجب أن تعود كل رسالة متأثرة إلى ممثل الصوت والاستوديو والتحقق من الجودة مرة أخرى. في شبكة من 5000 جهاز، هذا يتراكم بسرعة.

يغير الذكاء الاصطناعي العصبي واستنساخ الصوت الذكي الاقتصاديات. يمكن لنموذج صوتي مدرب على تسجيلات متحدث مرجعي أن يصنع أي رسالة جديدة في ثوان، مطابقة الصوت الأصلي بشكل وثيق بما يكفي حتى لا يلاحظ العملاء التغيير. يتحول سير العمل الإنشائي من “حدولة جلسة استوديو” إلى “تحديث السيناريو والتصدير”.

تقبل أنظمة APTRA XFS من Diebold Nixdorf و APTRA Edge من NCR Voyix وأنظمة البرامج الخاصة بـ Itautec — بدون أي منها تتطلب محرك صوت معين. هذه هي نافذتك لاستخدام مولد صوتي ذكي كأداة إنتاج.

تنطبق نفس المنطق على تثبيتات بهو البنك: أجهزة كشك مساعد رقمية وأنظمة إدارة طوابير ومحطات طلب قروض تفاعلية تحتاج جميعها إلى رسائل صوتية وتواجه جميعها نفس مشكلة دورة التحديث عندما تتغير اللغة التنظيمية أو المنتج.

معايير إمكانية الوصول ADA و WCAG للصوت على الصراف الآلي

تطلب قانون الأمريكيين ذوي الإعاقة (ADA) صوتاً يمكن الوصول إليه على الصراف الآلي منذ عام 2010. المتطلبات ليست اقتراحات اختيارية:

يجب أن يكون لكل عنصر على الشاشة معادل صوتي. يتضمن ذلك عناصر القوائم والحقول النصية ورسائل الخطأ وشاشات التأكيد — ليس فقط سير العمل الرئيسي للمعاملة.
يجب تسليم الصوت بشكل خاص. منفذ سماعة رأس 3.5 مم هو التطبيق القياسي. مكبرات الصوت المدمجة ليست بديلاً لمتطلبات الصوت الخاصة.
يجب أن يتم توجيه الإدخال برسائل صوتية. يجب أن يتمكن المستخدم الأعمى من إكمال سحب نقدي كامل — بما في ذلك إدخال رقم التعريف الشخصي — باستخدام الصوت وحده. هذا يعني رسائل لوحة مفاتيح DTMF متوافقة مع تخطيط لوحة المفاتيح المادية.
يجب قراءة تنبيهات انتهاء الصلاحية بصوت مرتفع. إذا كان الجهاز سيلغي المعاملة في 30 ثانية، يجب أن يقول الصوت ذلك ويقدم خياراً للتمديد.

تنطبق إرشادات إمكانية الوصول إلى محتوى الويب (WCAG) 2.1 على مستوى AA على طبقة البرامج من أجهزة الصراف الآلي والأجهزة الكشك التفاعلية، مما يوسع المتطلبات المماثلة على نصوص بديلة رقمية ونسب التباين على الشاشات اللمسية والتنقل عبر لوحة المفاتيح/التبديل.

يفرض قانون إمكانية الوصول لسكان أونتاريو ذوي الإعاقة (AODA) والقانون الفيدرالي الكندي للوصول (Accessible Canada Act) متطلبات متوازية لعمليات النشر الكندية.

من الناحية العملية، هذا يعني أن مجموعة الرسائل الخاصة بك كبيرة — عادة أكبر من تقديرات المطورين النموذجية في بداية المشروع. مولد صوتي ذكي يمكنه صنع رسائل جديدة عند الطلب ليس فقط راحة؛ غالباً ما يكون هو الطريقة الوحيدة العملية للحفاظ على مكتبة رسائل متوافقة بالكامل.

امتثال الصوت PCI DSS: ما يقوله المعيار فعلاً

لا يحتوي إصدار PCI DSS 4.0 على قسم مخصص لصوت الصراف الآلي، لكن عدة متطلبات في المتطلب 3 (حماية بيانات الحساب المخزنة) والمتطلب 8 (تحديد المستخدمين والمصادقة) لها آثار مباشرة على تصميم الرسائل الصوتية.

عزل الصوت لبيانات البطاقة

يحظر المتطلب 3.3 تخزين بيانات المصادقة الحساسة بعد التفويض. في سياق صوتي: رسالة تقرأ رقم البطاقة الكامل بصوت مرتفع — حتى لفترة وجيزة، حتى كتأكيد — تشكل خطر تعريض البيانات إذا تم توجيه هذا الصوت عبر مكبر صوت في مساحة مشتركة. القاعدة العملية هي:

لا تقرأ أبداً رقم حساب بطاقة كاملاً عبر أي قناة غير خاصة. صيغ العرض المقنعة (مثل “ينتهي في 4242”) مقبولة لقراءات صوتية في أماكن شبه عامة.
وجه أي تأكيد صوتي لبيانات بطاقة كاملة إلى إخراج سماعات الرأس فقط.
سجل أحداث تشغيل الصوت إذا حدثت أثناء نطاق بيئة بيانات المتعاملين. يجب أن يسجل برنامج الصراف الآلي عند تفعيل التوجيه الصوتي.

مراجعة السيناريو كعنصر تحكم PCI

سيناريوهات رسالة الصراف الآلي الخاصة بك هي جزء من نطاق توثيق PCI الخاص بك. مراجعة السيناريو — تؤكد أن أي رسالة لا تفشي بيانات متعاملين أكثر من المطلوب — عنصر تحكم معوضة معقول لتوثيقه لمراجعك الفني. يصبح الاحتفاظ بالسيناريوهات في التحكم في الإصدارات مع توقيع المراجعة أسهل عندما تنشئ رسائل من نصوص بدلاً من إدارة ملفات صوتية معتمة.

معايير كتابة السيناريو لرسائل الصوت على الصراف الآلي

يبدأ نظام صوتي جيد للصراف الآلي بالسيناريو، وليس بالصوت. صوت تقني ممتاز يبدو غير كفء عند قراءة رسالة مكتوبة بشكل سيء. تشارك الاتفاقيات الصناعية التي ظهرت عبر عمليات النشر Diebold Nixdorf و NCR Voyix و Itautec عدة خصائص:

تركيب الجملة

صوت نشط، زمن الحاضر. “أدخل بطاقتك” وليس “يجب إدخال بطاقتك.”
لا تجميع شروط. “اضغط 1 لاستفسار الرصيد، اضغط 2 للسحب، أو اضغط 3 لخدمات أخرى” جملة واحدة طويلة جداً لمستخدم يعتمد على الصوت فقط. قسمها إلى رسائل متتالية.
الأرقام مكتوبة للتحقق. “رصيدك هو مائتان وثلاثة وأربعون دولاراً واثنا عشر سنتاً” أوضح من قراءة “$243.12” — اسمح لمحرك تحويل النص إلى كلام بمعالجة تنسيق الأرقام، لكن تحقق من أن المحرك يعالج العملات بشكل صحيح قبل الإنتاج.

التوقيت والإيقاع

يتم تسجيل أو تصنيع صوت الصراف الآلي القياسي بسرعة 8 كيلوهرتز، 8 بت، أحادي — الجودة الدنيا التي تجتاز اختبار الوضوح. بالنسبة للتثبيتات الموجهة لسماعات الرأس، 22.05 كيلوهرتز، 16 بت، أحادي هو ترقية مهمة وما زال مضغوطاً بما يكفي لتخزين الفلاش. عند 22.05 كيلوهرتز، معدل كلام طبيعي من 140-160 كلمة في الدقيقة مريح؛ عند 8 كيلوهرتز، بطء إلى 120-130 WPM للتعويض عن وضوح محدود بالتردد.

تصنع أنظمة تحويل النص إلى كلام العصبية بسرعة 22.05 كيلوهرتز أو 44.1 كيلوهرتز بشكل افتراضي ويمكن تقليل عينتها في المنشور. دائماً صنع بأعلى جودة يدعمها نموذج الصوت الخاص بك، ثم تقليل العينة عند التصدير — وليس العكس.

رسائل الخطأ والمهلة الزمنية

رسائل الخطأ هي أكثر جزء مهملاً من مكتبات صوت الصراف الآلي. حذف شائع: خطأ البطاقة المحتفظ بها. إذا احتفظ الجهاز بالبطاقة بسبب عدد كبير جداً من أخطاء رقم التعريف الشخصي، يجب أن يخبر الصوت المستخدم بالضبط ما حدث وما يجب فعله بعد ذلك. تفشل الرسائل العامة “خطأ” في مراجعة ADA.

الحفاظ على قسم مخصص لسيناريو لظروف الخطأ — على الأقل 20-30 رسالة إضافية تتجاوز سير العمل المعاملة السعيد.

نظام الصوت الذكي متعدد اللغات للصراف الآلي: الإنجليزية والإسبانية والفرنسية

عملية نشر الصراف الآلي في أمريكا الشمالية بدون دعم الإسبانية هي التزام بالامتثال وخدمة العملاء. توفر إرشادات وصول اللغة من المكاتب الفيدرالية لحماية المستهلك والأنظمة المختلفة على مستوى الولايات (كاليفورنيا وتكساس وفلوريدا ونيويورك وغيرها لها توقعات محددة لوصول اللغة) تخلق ضغطاً قوياً لدعم الإسبانية على الأقل. تواجه عمليات النشر الكندية متطلبات ثنائية اللغة صريحة بموجب قانون اللغات الرسمية.

تغطية اللغات حسب نوع النشر

سياق النشر	اللغات الموصى بها	الأساس التنظيمي
الصراف الآلي في منطقة حضرية أمريكية، السكان العام	الإنجليزية، الإسبانية	وصول اللغة ADA؛ الأنظمة على مستوى الولاية
الصراف الآلي الأمريكي، منطقة سكانية إسبانية بشكل أساسي	الإنجليزية، الإسبانية	إرشادات وصول اللغة من المكاتب الفيدرالية
الصراف الآلي الكندي، المؤسسة الفيدرالية	الإنجليزية، الفرنسية	قانون اللغات الرسمية
الصراف الآلي الكندي، كيبيك	الفرنسية الأولى، الإنجليزية	ميثاق كيبيك للغة الفرنسية
الصراف الآلي الأمريكي/الكندي، منطقة حضرية متنوعة	الإنجليزية، الإسبانية، الفرنسية، بالإضافة إلى لغة محلية واحدة أو اثنتين	أفضل الممارسات، لا يوجد تفويض عالمي
الصراف الآلي في المطار، محطة دولية أمريكية	الإنجليزية، الإسبانية، الفرنسية + 3-5	عقود سلطة المطار عادة تحدد

يتيح لك مولد صوتي ذكي مع القدرة على التصنيع متعدد اللغات إنتاج جميع المتغيرات اللغوية من نفس وثيقة السيناريو. الخطر الأساسي هو تدهور الجودة في اللغات البعيدة عن توزيع تدريب النموذج. قد ينتج نموذج مدرب بشكل أساسي على أصوات أمريكا الشمالية باللغة الإنجليزية إسبانية مركزة فنياً ذكية لكن تبدو أجنبية للمتحدثين الأصليين. بالنسبة للإسبانية على وجه الخصوص، هذا مهم: سيلاحظ متحدث إسباني مكسيكي في تكساس ومتحدث بورتوريكي في نيويورك الفرق.

الحل العملي هو استخدام نماذج صوت أساسية منفصلة لكل لغة إذا كانت الجودة هي الأولوية، أو تشغيل المخرجات المصنعة عبر مراجعة متحدث أصلي قبل النشر. سير عمل استنساخ الصوت في VoxBooster يدعم هذا: يمكنك تدريب نماذج منفصلة على تسجيلات متحدث إسباني أصلي ومتحدث فرنسي أصلي، ثم استخدامهم لتلك المسارات اللغوية بشكل مستقل.

متطلبات صيغ الملفات الصوتية الخاصة بمصنع أجهزة الصراف الآلي

الحصول على الصوت الصحيح هو نصف المهمة فقط — تسليم الصوت بالصيغة التي تتوقعها مجموعة برامج الصراف الآلي هو النصف الآخر. معدلات العينة غير المتطابقة هي السبب الأكثر شيوعاً للتشويه في عمليات النشر الجديدة.

Diebold Nixdorf (APTRA XFS / ProCash)

تستخدم منصة APTRA من Diebold Nixdorf معمارية جهاز إدخال رقم تعريفي شخصي متوافقة مع XFS. عادة ما تكون ملفات الصوت لخدمة مزود XFS TTS في Diebold:

الصيغة: WAV (PCM، غير مضغوطة)
معدل العينة: 8000 هرتز (ميراث الهاتفية) أو 22050 هرتز للصوت المحسّن
عمق البت: 8 بت (ميراث) أو 16 بت
القنوات: أحادي
اتفاقية التسمية: يتبع جدول فهرس موفر XFS SP؛ أسماء الملفات عبارة عن رموز رقمية أو أبجدية رقمية تخطط لحالات المعاملات

تأكد من إصدار APTRA المحدد الخاص بك — تستخدم سلسلة ProCash 2000/3000 وسلسلة DN الأحدث تكوينات SP مختلفة قليلاً. وثائق مزود XFS SP للوحدة JCASH هي المرجع السلطة.

NCR Voyix (APTRA Edge / XFS)

تشارك منصة APTRA Edge من NCR Voyix امتثال XFS مع مجموعة Diebold لكن لديها وحدة إدارة رسائل خاصة بها:

الصيغة: WAV (PCM)
معدل العينة: 8000 هرتز أو 16000 هرتز حسب إصدار APTRA Edge
عمق البت: 16 بت مفضل في الإصدارات الأحدث
القنوات: أحادي
التسليم: يتم تعبئة الرسائل عادة في مجموعة نشر APTRA؛ وحدة TTS يمكنها أيضاً دمج محرك TTS مباشر عبر موصل برامج وسيطة، وهو بديل لتسليم WAV المسجل مسبقاً

يدعم معيار Diebold Nixdorf الأحدث (APTRA XFS / ProCash) نسخاً مسارات صوتية أعلى جودة. تحقق من وثائق APTRA Audio لرقم النموذج الحديث المحدد الخاص بك.

Itautec

أجهزة الصراف الآلي Itautec (توجد عادة في البرازيل وأمريكا اللاتينية، وذات صلة لأي مؤسسة بها عمليات فرع برازيلية) لديها مجموعة برامج مختلفة:

الصيغة: WAV أو MP3
معدل العينة: 22050 هرتز نموذجي؛ 44100 هرتز مدعوم على النماذج الأحدث
عمق البت: 16 بت
القنوات: أحادي أو ستيريو (ستيريو على نماذج كشك البهو)
أولوية اللغة: البرتغالية (البرازيلية) هي اللغة الأساسية؛ الإسبانية والإنجليزية ثانوية

بالنسبة لعمليات النشر البرازيلية، تفرض أنظمة البنك المركزي البرازيلي لإمكانية الوصول (القرار CMN 4860/2020 والدوائر الدائرية ذات الصلة) متطلبات إمكانية وصول موازية لـ ADA الأمريكية لواجهات صوت الصراف الآلي.

سير عمل الإنتاج: من السيناريو إلى ملف الصوت المنشور

إليك سير عمل عملي من النهاية إلى النهاية لإنتاج رسائل صوت الصراف الآلي باستخدام مولد صوتي ذكي:

تدقيق السيناريو. عدد كل حالة معاملة وحالة خطأ وخيار قائمة. عادة ما يكتشف التدقيق الشامل 20-30٪ من رسائل الموجه أكثر من التقدير الأولي للمطور. استخدم وثائق XFS SP لـ Diebold Nixdorf أو NCR Voyix كمرجع آلة الحالة.
اختيار الصوت. اختر نموذج صوتي مع وضوح متميز على معدل العينة المستهدف. اختبر مع سلاسل رقمية ومبالغ العملات — هذه هي المناطق التي غالباً ما تنتج أنظمة تحويل النص إلى كلام مخرجات غير طبيعية. بالنسبة لعمليات النشر متعددة اللغات، اختر نماذج أساسية منفصلة لكل لغة إذا سمحت الجودة.
استنساخ الصوت المخصص (اختياري). إذا كانت مؤسستك تتطلب صوتاً بعلامة تجارية أو متسقاً، سجل ممثلاً صوتياً يقرأ سيناريو تدريب من 30 دقيقة على الأقل من كلام متنوع. تدريب نموذج صوتي ذكي على هذا التسجيل. هذا يعطيك صوتاً ملكياً يمكنك استخدامه للرسائل الجديدة دون إعادة حجز الاستوديو. يدعم خط أنابيب استنساخ الصوت VoxBooster سير العمل هذا للتدريب والتصدير. للحصول على نظرة أعمق حول كيفية تطبيق هذا على العمل الصوتي الاحترافي، راجع دليلنا حول استنساخ الصوت لعمل التسجيل الصوتي.
التصنيع وفحص الجودة. توليد جميع الرسائل. استمع إلى كل واحدة — ليس عينة. انتبه بشكل خاص إلى: نطق الأرقام، تنسيق العملات، نبرة رسائل الخطأ (يجب أن تكون هادئة، وليس مزعجة)، وتنبيهات انتهاء الصلاحية (يجب أن تنقل الاستعجالية دون التسبب في القلق).
تقليل العينة وتحويل الصيغة. استخدم سير عمل بدون خسارة: التصنيع بـ 44.1 كيلوهرتز، ثم تقليل العينة إلى معدل الهدف باستخدام خوارزمية إعادة عينة عالية الجودة (معدل إعادة عينة Audacity’s SoX كافٍ؛ تجنب تحويلات MP3 منخفضة الجودة). تحويل إلى أحادي إذا أنتجت التصنيع ستيريو.
مراجعة PCI. اطلب من شخص ما قراءة كل رسالة تحدث بعد إدراج البطاقة وقبل إكمال المعاملة، مؤكداً أن أي رسالة لا تفشي بيانات متعاملين أكثر من المطلوب.
تعبئة التسليم. عبّئ الملفات وفقاً لصيغة حزمة نشر APTRA أو Itautec. اختبر على الأجهزة قبل النشر الواسع.

نظام الصوت الذكي لبهو البنك: أجهزة كشك وأنظمة قوائم الانتظار والمساعدين الرقميين

يشمل نظام الصوت الذكي لبهو البنك مجموعة أوسع من التثبيتات من أجهزة الصراف الآلي، مع نطاق صوتي أوسع ونطاق تنظيمي مختلف قليلاً.

أجهزة كشك المساعد الرقمي عند المدخل أو مكتب القروض تحيي العملاء وتجيب على أسئلة المنتج الأساسية وتوجه الزائرين إلى الموظف المناسب. الصوت هنا يستفيد من ملف صوتي أغنى مما يسمح به منفذ سماعة رأس الصراف الآلي — يمكن لمخرج ستيريو 44.1 كيلوهرتز من خلال مكبر صوت جيد أن يبدو حقاً محادثة.

أنظمة إدارة قوائم الانتظار تطلب أرقام وتوجه العملاء إلى النوافذ المفتوحة. هذا هو أحد أعلى حالات استخدام الرسائل الصوتية في فرع البنك: قد يلعب الفرع المزدحم مئات رسائل الطابور في اليوم. مولد صوتي ذكي يجعل من السهل إضافة متغيرات لغوية (استدعاء الأرقام بالإسبانية والإنجليزية بشكل متزامن، على سبيل المثال) دون مضاعفة مكتبة الرسائل المسجلة.

جدران الفيديو والعلامات الرقمية للبهو يتضمن بشكل متزايد سرد صوتي لمنتجات المميزة. يجب تحديث هذه الرسائل بشكل متكرر مع تغير العروض الترويجية — بالضبط مشكلة دورة التحديث حيث يدفع توليد الصوت الذكي بنفسه بسرعة.

ينشئ سياق البهو أيضاً فرصة لاتساق صوت العلامة التجارية التي لا تستطيع عمليات النشر على الصراف الآلي تحقيقه بسهولة على نطاق واسع. يمكن لنموذج صوتي واحد مدرب أن يصوت الجميع أعلاه — جهاز صراف آلي وكشك وقائمة انتظار وعلامات — مما يخلق هوية صوتية علامة تجارية موحدة عبر الفرع بالكامل. للحصول على سياق حول كيفية عمل نوع اتساق إنتاج الصوت هذا للصناعات الأخرى، معالجتنا حول مولد صوتي ذكي لأنظمة كونسيرج الفندق تغطي حالة استخدام موازية.

مقارنة نهج الصوت الذكي لصوت المصرفية

النهج	تكلفة الإعداد	تكلفة لكل رسالة	اتساق الصوت	سرعة التحديث	مرونة PCI
ممثل صوتي من الاستوديو (إعادة تسجيل الكل)	منخفض (لكل جلسة)	عالي بالحجم	متسق إذا كان نفس الممثل	بطيء (الجدولة)	مرن
مكتبة مسجلة مسبقاً (ثابتة)	متوسط (جلسة أولية)	صفر بعد الجلسة	عالي	بطيء جداً (إعادة تسجيل)	مرن
بائع تحويل نص إلى كلام طرف ثالث (API)	متوسط (الترخيص)	لكل شخصية أو لكل طلب	يعتمد على البائع	سريع	يعتمد على البائع
استنساخ صوتي ذكي مخصص (محلي)	عالي (التدريب)	قريب من الصفر	عالي جداً	سريع	تحكم كامل
تحويل نص إلى كلام ذكي عام (بدون صوت مخصص)	منخفض	منخفض إلى متوسط	منخفض (صوت عام)	سريع	مرن

بالنسبة لعمليات النشر الكبيرة حيث يهم اتساق صوت العلامة التجارية وتكرار التحديث مرتفع، صف استنساخ الصوت الذكي المخصص يصبح بشكل متزايد الخيار الأكثر فعالية من حيث التكلفة على مدى 3-5 سنوات. الاستثمار في التدريب مقدم؛ التكلفة الهامشية لكل رسالة جديدة بعد ذلك هي بشكل أساسي وقت الحوسبة.

بالنسبة للمؤسسات الأصغر أو الرسائل، API تحويل نص إلى كلام طرف ثالث مع صوت مرخص يقارب نبرة العلامة التجارية الخاصة بك هو نقطة انطلاق معقولة — مع تحذير من أنك تعتمد على تسعير البائع وتوفره.

اختبار إمكانية الوصول قبل الانطلاق

لا يجب أن تنطلق أي عملية نشر صوتية ذكية للصراف الآلي بدون اختبار منظم لإمكانية الوصول مع مستخدمين حقيقيين. الاختبار مع مطورين بصرين يستمعون إلى الصوت لا يكرر تجربة مستخدم أعمى يتنقل في جهاز غير مألوف تحت ضغط الوقت.

بروتوكول الاختبار الموصى به:

توظيف 2-3 مختبرين على الأقل عمياء أو لديهم ضعف بصري ويستخدمون قارئات الشاشة بانتظام — لديهم تعرف صوتي عالي ويحددون على الفور الرسائل التي تكون غامضة أو سيئة الإيقاع.
اختبر في بيئة صوتية فعلية. الصوت عبر السماعات الذي يبدو جيداً في مختبر هادئ قد يكون غير كافٍ في دهليز صراف آلي مزدحم بالضوضاء المحيطة. اختبر في موقع التثبيت المستهدف إذا كان ممكناً.
اختبر جميع مسارات الخطأ. يختبر معظم المطورين المسار السعيد بشكل كامل والمسارات الخطأ بشكل ضئيل. رسائل الخطأ هي حيث تحدث فشل إمكانية الوصول الأكثر شيوعاً.
سلوك انتهاء الصلاحية للاختبار. مد مهلة المعاملة أثناء الاختبار حتى يكون لدى المختبرين وقت للتنقل دون ضغط، ثم اختصرها إلى إعداد الإنتاج واختبر مرة أخرى.
اختبر التبديل متعدد اللغات. إذا كان اختيار اللغة خياراً في القائمة، تحقق من أن التبديل بين اللغات أثناء الجلسة ينتج صوتاً متسقاً بالكامل في اللغة المحددة لجميع الرسائل اللاحقة.

بالنسبة لعمليات نشر صوتية ذكية لكشك البيع بالتجزئة التي تشارك العديد من اعتبارات إمكانية الوصول هذه، يغطي دليلنا حول مولد الصوت الذكي للبيع بالتجزئة ذاتية الخدمة معايير إمكانية الوصول المتداخلة.

بالنسبة لتطبيقات صوت كشك الرسوم والقارئ على الطرق السريعة مع اعتبارات صوتية في الهواء الطلق/المساحات العامة مماثلة، راجع معالجتنا حول مولد الصوت الذكي لأنظمة كشك الرسوم و EZPass.

الأسئلة الشائعة

ما هو نظام الصوت الذكي للصراف الآلي وكيف يعمل؟

نظام الصوت الذكي للصراف الآلي هو نظام تحويل النص إلى كلام مدمج في الجهاز الآلي أو متصل به يقرأ الرسائل على الشاشة بصوت مرتفع. يحول محرك تحويل النص إلى كلام النص المكتوب الذي أدخله الجهاز إلى كلام يتم تسليمه عبر منفذ سماعة رأس أو مكبر صوت مدمج. تستخدم أنظمة الصوت الحديثة نماذج تحويل نص إلى كلام عصبية لإنتاج كلام طبيعي وسهل الفهم عبر لغات متعددة دون الحاجة إلى تسجيل كل عبارة مسبقاً.

ما هي متطلبات إمكانية الوصول لرسائل الصوت على أجهزة الصراف الآلي في الولايات المتحدة؟

يتطلب قانون الأمريكيين ذوي الإعاقة (ADA) من جميع أجهزة الصراف الآلي الموجودة في الولايات المتحدة توفير وضع إخراج صوتي خاص — عادة عبر منفذ سماعة رأس 3.5 مم — حتى يتمكن المستخدمون المكفوفون من إكمال المعاملات دون مساعدة. يجب أن يغطي الصوت كل رسالة على الشاشة، بما في ذلك رسائل الخطأ وتنبيهات انتهاء الصلاحية. الصوت الموجه من نظام تحويل نص إلى كلام مخصص هو الطريقة القياسية لعمليات النشر الجديدة.

هل يتطلب معيار PCI DSS معايير محددة لرسائل الصوت على أجهزة الصراف الآلي؟

لا يفرض معيار PCI DSS أي موفر صوتي أو نظام محدد، لكن متطلباته الخاصة بحماية بيانات المتعاملين والمصادقة الآمنة تنطبق على التفاعل الكامل للمستخدم، بما في ذلك المسارات الصوتية. يجب أن تكون الرسائل التي تقرأ أرقام بطاقات الائتمان أو تواريخ انتهاء الصلاحية معزولة إلى قناة صوتية خاصة فقط (وضع السماعات) لمنع الاستراق السمعي. يجب ألا تفشي سيناريوهات الصوت بيانات بطاقة أكثر مما تعرضه الشاشة بالفعل.

كم عدد اللغات التي يجب أن يدعمها جهاز الصراف الآلي في الولايات المتحدة وكندا؟

لم تضع المكاتب الفيدرالية لحماية المستهلك والسلطات المصرفية الكندية حداً أدنى عالمياً، لكن النشر الواسع في المناطق المتنوعة عادة ما يدعم على الأقل اللغة الإنجليزية والإسبانية والفرنسية. غالباً ما تضيف المناطق عالية الحركة في المدن التي بها عدد كبير من السكان المهاجرين البرتغالية والمندرية والهايتية الكريولية أو الفيتنامية. يزداد الضغط التنظيمي للوصول الأوسع للغات في كلا البلدين.

هل يمكنني استخدام صوت استنسخته بنفسي لرسائل الصراف الآلي أو البنك؟

نعم — إذا كنت تمتلك الحقوق لهذا الصوت. تسجيل نفسك أو ممثل صوتي احترافي، ثم تدريب نموذج صوتي ذكي على هذا التسجيل، يعطيك صوتاً مخصصاً يمكنك نشره دون رسوم ترخيص لكل استخدام. يجب أن يستوفي الصوت المستنسخ معايير الوضوح؛ الوضوح والإيقاع المتسق أهم من الأسلوب في حالة الصراف الآلي.

ما صيغ الملفات الصوتية التي يقبلها مصنعو أجهزة الصراف الآلي مثل Diebold Nixdorf و NCR Voyix للرسائل المسجلة مسبقاً؟

تقبل معظم مجموعات برامج Diebold Nixdorf و NCR Voyix (XFS/CEN، APTRA) ملفات WAV بسرعة 8 كيلوهرتز (جودة الهاتفية) أو 22.05/44.1 كيلوهرتز للإعدادات عالية الدقة. تقبل بعض الأنظمة أيضاً حاويات MP3 أو OGG. تحقق من توثيق XFS SP المحدد لديك — عدم تطابق معدل العينة الصوتية يسبب تشويهاً في التشغيل يمكن الخلط بينه وبين مشكلة نموذج تحويل النص إلى كلام.

كيف يختلف نظام الصوت الذكي لبهو البنك عن نظام الصوت الذكي للصراف الآلي؟

يغطي نظام الصوت الذكي لبهو البنك فئة تثبيت أوسع: أنظمة معايدة اللافتات الرقمية، أجهزة كشك تفاعلية في مكتب القروض، إعلانات إدارة الطوابير، وشاشات مساعد البنك اللمسية. تستخدم هذه الأنظمة محركات تحويل النص إلى كلام نفسها لكن لديها نطاق صوتي أوسع — يمكن لمكبر صوت البهو أن يدعم صوتاً ذا نطاق أكمل من منفذ سماعة رأس الصراف الآلي — ونادراً ما تواجه نفس متطلبات عزل الصوت الصارمة المتعلقة بـ PCI.

الخلاصة

نظام الصوت الذكي للصراف الآلي ونظام الصوت الذكي لبهو البنك ليست تطبيقات مثيرة، لكنها تهم: الصراف الآلي الموجود بصوتاً سيء يستبعد فئة من المستخدمين الذين يعتمدون على الصوت لإكمال معاملات مالية أساسية، وثغرة الامتثال في سيناريو الصوت الخاص بك يمكن أن ينشئ تعرضاً لـ PCI. مولد صوتي ذكي — خاصة واحد يدعم استنساخ صوت مخصص — يحل كلتا المشكلتين: مشكلة الاقتصاديات الإنتاجية (مئات الرسائل، دورات تحديث سريعة) ومشكلة الجودة (صوت متسق وسهل الفهم وقابل للعلامة التجارية عبر جميع اللغات وجميع حالات النشر).

بالنسبة للمؤسسات التي تشغل أجهزة Diebold Nixdorf أو NCR Voyix أو Itautec، سير العمل واضح: اكتب السيناريوهات، ادرب أو اختر نموذج صوتي، صنع إلى معدل العينة المستهدف، اجتز مراجعة PCI، وعبئ لحزمة النشر الخاصة بك. استوديو ممثل الصوت اختياري؛ مراجعة PCI واختبار إمكانية الوصول ليست كذلك.

إذا كنت تحتاج إلى إنتاج جانب التسجيل لسير العمل هذا — التقاط صوت حقيقي للاستنساخ، واختبار الرسائل عبر ميكروفون افتراضي، أو تكرار سريع على مخرجات الصنع — VoxBooster يوفر أدوات استنساخ الصوتي الحي وأدوات التقاط الصوت التي تناسب حالة الاستخدام الإنتاجية هذه على Windows. تجربة مجانية لمدة 3 أيام، بدون بطاقة ائتمان مطلوبة.

بالنسبة لحالات الاستخدام الأخرى ذات الصلة بالصوتي الذكي، راجع أدلةنا حول استنساخ الصوت لعمل التسجيل الصوتي وأدوات تغيير الصوت لمنشئي المحتوى.