مولد الصوت بالذكاء الاصطناعي لأكشاك الدفع الذاتي في البيع بالتجزئة

أصبح نظام الذكاء الاصطناعي الصوتي للدفع الذاتي الآن الوجه السمعي للمتجر بالتجزئة الحديث. في كل مرة يسمع متسوق “يرجى وضع المنتج في منطقة التعبئة” في مسار الدفع الذاتي بـ Walmart أو Kroger أو Carrefour، تم إنتاج هذا الصوت بواسطة نظام تحويل النص إلى كلام - وبشكل متزايد، هذا النظام هو مولد صوت بالذكاء الاصطناعي بدلاً من تسجيل استوديو لممثل صوتي مستأجر. يشرح هذا الدليل كيفية تكوين صوت أكشاك الدفع الذاتي على أجهزة NCR Voyix و Diebold Nixdorf، وما تتطلبه التوافقية WCAG 2.1 فعلياً لصوت الكشك، وكيفية هيكلة مكتبات الموجهات المتعددة اللغات، وكيفية إنتاج شخصية صوتية متسقة مع العلامة التجارية تعمل عبر 2000 مسار في سلسلة.

الملخص

ينطلق صوت الذكاء الاصطناعي للدفع الذاتي موجهات الصوت على أكشاك Walmart و Kroger و Carrefour ومعظم السلاسل الرئيسية - “يرجى وضع المنتج في منطقة التعبئة” هو المثال الأكثر شهرة.
NCR Voyix و Diebold Nixdorf هما الشركات المصنعة الرائدة؛ كلاهما يستخدم مكتبات موجهات WAV محملة على متحكم المحطة الطرفية.
تتطلب WCAG 2.1 أن يكون لكل موجه بصري موجه صوتي معادل، مفهوم عند مستويات صوت الكشك، مع التحكم من قبل المستخدم.
تحتاج الأكشاك المتعددة اللغات (الإنجليزية والإسبانية في Walmart والفرنسية والعربية في Carrefour) إلى مكتبات موجهات منفصلة لكل لغة من نفس ملف الصوت.
مولدات الصوت بالذكاء الاصطناعي تستبدل جلسات الاستوديو لكل مراجعة بالإنشاء الدفعي من نص - حرج على نطاق السلسلة حيث يؤثر تحديث موجه واحد على آلاف المحطات الطرفية.
يتعامل VoxBooster مع استنساخ الصوت وإنتاج دفعة WAV لسير عمل الصوت بالتجزئة على Windows.

ما هو نظام الذكاء الاصطناعي الصوتي للدفع الذاتي فعلياً

يشير صوت الذكاء الاصطناعي لكشك البيع بالتجزئة إلى محرك تحويل النص إلى كلام الذي يولد موجهات الصوت لتوجيه المتسوقين خلال معاملة الدفع الذاتي. تغطي عبارة “صوت الذكاء الاصطناعي للدفع الذاتي” المجموعة الكاملة: شخصية الصوت نفسها (النبرة واللهجة وسجل الجنس)، مكتبة الموجهات (كل سطر نصي محتمل قد يشغله النظام)، صيغة الملف الصوتي (مواصفات WAV التي يقبلها المتحكم)، والمنطق الذي يحدد موجه أي بدء التشغيل.

تعمل سلسلة حدث الموجه الموصى بها في محطة طرفية للدفع الذاتي تقريبياً بالطريقة التالية:

“مرحبا. يرجى مسح عنصرك الأول.”
“يرجى وضع المنتج في منطقة التعبئة.”
“منتج غير متوقع في منطقة التعبئة.” (عدم تطابق الوزن المكتشف)
“هل لديك أي كوبونات أو بطاقة ولاء؟”
“يرجى اختيار طريقة الدفع.”
“يرجى إدراج بطاقتك.” / “يرجى الضغط على بطاقتك.”
“يرجى إزالة بطاقتك.”
“تمت المعاملة. يرجى أخذ إيصالك وعناصرك.”

كل من تلك الأسطر هو ملف WAV منفصل في مكتبة الموجهات بالمحطة الطرفية. تعمل مكتبة كاملة - تغطي جميع حالات الأخطاء والتحقق من العمر واختبار المنتجات وتنبيهات الوزن الزائد وموجهات تجاوز الموظفين ورسائل الإغلاق - على 80-150 مقطع منفصل لكل لغة لكل نوع مسار.

اضرب ذلك عبر متجر بـ 500 متجر و 4 مسارات لكل متجر و 2 لغة، وتحصل على ما يصل إلى 1.2 مليون ملف صوتي فردي لإنتاج وصيانة وتحديث. هذا هو السبب في أن الإنشاء الدفعي بالذكاء الاصطناعي استبدل التسجيل الاستوديو لصوت التجزئة للمؤسسات: عندما تتطلب لائحة جديدة سيناريو التحقق من العمر المحدث، يعيد النظام إنتاج المقاطع المتأثرة في ساعة واحدة. جلسة استوديو تكلف أيام وآلاف الدولارات.

الصوت وراء “يرجى وضع المنتج في منطقة التعبئة”

صوت موجه الدفع الذاتي الأكثر شهرة في عالم البيع بالتجزئة الناطق بالإنجليزية هو “يرجى وضع المنتج في منطقة التعبئة.” لمعظم العقد الأول والعقد الثاني من 2000، كان هذا الصوت مسجلاً بشرياً - عادة ممثل صوتي احترافي مستأجر على اتفاق من قبل شركة مصنعة الأجهزة (NCR أو Diebold Nixdorf) أو سلاسل بيع بالتجزئة كبيرة لتسجيل صوتهم الخاص.

مثال على ذلك، أصبح صوت الدفع الذاتي بـ Walmart الأمريكية مشهوراً بما يكفي حتى أن عبارة “منتج غير متوقع في منطقة التعبئة” دخلت ثقافة الميم - إشارة إلى عدد المتسوقين الذين يواجهون هذا الموجه، وقوة الاعتراف بالعلامة التجارية الصوتية.

عدة عوامل دفعت النقلة من الصوت المسجل إلى الصوت الذي يولده الذكاء الاصطناعي:

تكرار التحديث. تحدث أنظمة POS بالتجزئة السيناريوهات بانتظام - طرق دفع جديدة وإعادة تسمية برنامج الولاء ولغة تنظيمية للمشروبات الكحولية أو منتجات التبغ والرسائل الموسمية. كان كل تغيير نصي يتطلب حجز استوديو في السابق. يقلل الإنشاء بالذكاء الاصطناعي هذا إلى دقائق.

النطاق العالمي. متاجر بالتجزئة دولية مثل Carrefour تعمل عبر عشرات البلدان وعشرات اللغات. استئجار الموهبة الصوتية الأصلية لكل لغة لكل سوق والحفاظ على الاتساق عبر الجلسات وإدارة عقود الموهبة على هذا النطاق معقد تشغيلياً. يتعامل إنشاء الصوت بالذكاء الاصطناعي مع كل لغة من ملف الصوت المحدد.

توافقية العلامة التجارية. متجر بالتجزئة يطرح الدفع الذاتي عبر 2000 متجر على مدى خمس سنوات، باستخدام جلسات تسجيل مختلفة حيث تتسع السلسلة، سينتهي به الحال إلى أصوات مختلفة بشكل واضح عبر الممتلكات - بعضها أدفأ وبعضها أكثر ألية والبعض الآخر بلهجات مختلفة. ينتج إنشاء الصوت بالذكاء الاصطناعي من ملف محدد واحد ناتج متطابق على المحطة الطرفية 1 والمحطة الطرفية 4000.

التكلفة لكل موجه. بأسعار الاستوديو، تكلف مكتبة موجهات من 120 مقطع في لغتين عدة آلاف دولار. يقلل الإنشاء بالذكاء الاصطناعي التكلفة الحدية للموجهات الجديدة إلى ما يقرب من الصفر بعد إنشاء ملف الصوت.

NCR Voyix الدفع الذاتي: الأجهزة والهندسة المعمارية الصوتية

تنتج NCR Voyix (سابقاً NCR Corporation، أعيدت تسميتها 2024) خطوط FastLane و SelfServ 90 و EASY CHECKOUT التي تجدها في Walmart و Kroger و Home Depot ومعظم سلاسل البقالة الكبرى في الولايات المتحدة. فهم كيفية تعامل هذه الأنظمة مع الصوت أمر ضروري لأي شخص ينتج صوتاً مخصصاً لكشك.

تقوم وحدات FastLane و SelfServ للدفع الذاتي من NCR بتشغيل Windows (عادة Windows 10 IoT Enterprise على الأجهزة من الجيل الحالي) أو نظام تشغيل قائم على Linux على الوحدات القديمة. يتم التعامل مع الصوت من قبل برنامج تطبيق POS - Emerald POS من NCR أو منصة SCOT (حل الدفع الذاتي) - التي تشغل ملفات WAV من دليل مكتبة موجهات محلي على المحطة الطرفية.

المواصفات الصوتية لأنظمة NCR:

خط NCR	معدل العينات	عمق البت	القنوات	الصيغة
FastLane (الجيل الحالي)	44.1 كيلوهرتز	16-بت	أحادي	WAV PCM
SelfServ 90	22.05 كيلوهرتز أو 44.1 كيلوهرتز	16-بت	أحادي	WAV PCM
EASY CHECKOUT	44.1 كيلوهرتز	16-بت	أحادي	WAV PCM
وحدات SCOT القديمة	11.025 كيلوهرتز أو 22.05 كيلوهرتز	16-بت	أحادي	WAV PCM

يتم تنظيم مكتبة الموجهات على محطة طرفية NCR في هيكل دليل حيث يتوافق كل اسم ملف WAV مع رمز حدث موجه في تكوين برنامج POS. تختلف الاتفاقيات الموصى بها حسب تخصيص تاجر البيع بالتجزئة - قد يستخدم نشر Kroger رموز موجهات مختلفة عن نشر Walmart حتى على أجهزة NCR متطابقة.

القيد الإنتاجي الرئيسي: أنظمة مكبرات الصوت NCR في أكشاك الدفع الذاتي هي برامج تشغيل بقوة 3-5 واط في حاوية بلاستيكية محكمة الإغلاق. ليست مكبرات صوت عالية الدقة. الموجهات العالية جداً تتشوه؛ الموجهات المنخفضة جداً تفشل في الامتثال. قم باستهداف -18 LUFS متكاملة مع سقف ذروة -3 dBTP (ذروة حقيقية) لمواصفات الصوت.

Diebold Nixdorf الدفع الذاتي: أنظمة BEETLE و TP Application

تنتج Diebold Nixdorf (سابقاً Wincor Nixdorf) خطوط BEETLE و TP Application للدفع الذاتي الموجودة بشكل أساسي في سلاسل البقالة الأوروبية، بما فيها عمليات Carrefour الأوروبية، وفي بعض تجار التجزئة المتخصصين في الولايات المتحدة. هندستهم المعمارية مشابهة لـ NCR لكن مع تفضيلات صيغة صوتية مختلفة.

تعمل أنظمة BEETLE POS على Windows وتستخدم منصة تطبيق Storelogix أو ProFIT من Diebold Nixdorf. يتم تحميل موجهات الصوت كملفات WAV في مكتبة وسائط على المحطة الطرفية. تقبل أنظمة BEETLE من الجيل الحالي 44.1 كيلوهرتز 16-بت WAV أحادي؛ عادة ما تطلبت الوحدات القديمة 11.025 كيلوهرتز أو 22.05 كيلوهرتز.

محطات TP Application (خطوط TP6 و TP7) تستخدم نفس نظام مكتبة الموجهات القائم على WAV. خط المنتجات TP7، الشائع في سلاسل البقالة الأوروبية عالية الحركة، يدعم الصوت بـ 44.1 كيلوهرتز على البرنامج الثابت الحالي.

المواصفات الصوتية لأنظمة Diebold Nixdorf:

النظام	معدل العينات	عمق البت	القنوات	الصيغة
BEETLE POS (الحالي)	44.1 كيلوهرتز	16-بت	أحادي	WAV PCM
BEETLE POS (قديم)	11.025 - 22.05 كيلوهرتز	16-بت	أحادي	WAV PCM
TP6 Application	22.05 كيلوهرتز أو 44.1 كيلوهرتز	16-بت	أحادي	WAV PCM
TP7 Application	44.1 كيلوهرتز	16-بت	أحادي	WAV PCM

ملاحظة خاصة بـ Carrefour: تقوم نشرات الدفع الذاتي الأوروبية بـ Carrefour بتشغيل الفرنسية والإنجليزية (للمواقع السياحية الثقيلة) أو الفرنسية والعربية (لمتاجر شمال أفريقيا). تحتوي مكتبة الموجهات لكل محطة طرفية على مجموعتي لغة مع موجه اختيار اللغة في بداية كل معاملة. تتعامل أنظمة Diebold Nixdorf TP Application مع هذا من خلال منطق مفتاح اللغة في تكوين Storelogix، وليس بتبديل دلائل WAV - المكتبة المتعددة اللغات الكاملة تعيش على كل محطة طرفية.

بناء شخصية الصوت للدفع الذاتي

شخصية الصوت للدفع الذاتي أكثر من مجرد تسجيل صوتي - إنها قرار تصميم صوتي مقصود يشكل كيفية تصور المتسوقين للعلامة التجارية في لحظة الدفع.

يختار معظم كبار تجار البيع بالتجزئة الأصوات في النطاق المحايد إلى الدافئ: ليس بارداً أو ميكانيكياً (الذي ينتج احتكاكاً في لحظة مرهقة بالفعل)، وليس دافئاً جداً أو عرضياً (الذي يبدو غير متسق في سياق المعاملة). يختلف اختيار الجنس حسب تاجر التجزئة والسوق - تاريخياً فضلت سلاسل البقالة الأمريكية الأصوات الأنثوية؛ بعض السلاسل الأوروبية تستخدم أصوات الذكور؛ تقدم النشرات الحديثة غالباً كليهما وتسمح للمحطة الطرفية باكتشاف تفضيل اللغة وخدمة الصوت المقابل.

سمات شخصية الصوت لتحديدها قبل الإنتاج:

سجل الجنس: أنثى أو ذكر أو محايد من حيث الجنس (الأخير شائع بشكل متزايد)
اللهجة: حيادي عام أمريكي لسلاسل الولايات المتحدة؛ نطق متلقى أو حيادي إقليمي للمملكة المتحدة؛ لهجات معيارية وطنية للأسواق غير الإنجليزية
معدل الكلام: 130-145 كلمة في الدقيقة لموجهات توجيهية؛ أسرع قليلاً (150 كلمة في الدقيقة) لرسائل التأكيد
النبرة: دافئة لكن إعلانية - ليست استفهام أو معتذر (“يرجى القيام بـ X” بدلاً من “هل يمكنك من فضلك ربما X؟”)
توافقية النغم: يجب أن يكون لكل مقطع نفس الصوت، وكادنس التعبير متشابهة، وبدون فرق مسموع في الصوتيات بين المقاطع

مشكلة الاتساق على نطاق السلسلة:

يحل ملف صوت واحد بالذكاء الاصطناعي مشكلة الاتساق بالتعريف. كل موجه، بغض النظر عن وقت إنشاؤه أو من عدّل النص، يأتي من نفس نموذج الصوت بنفس الإعدادات. بالنسبة لسلسلة توسع من 300 إلى 1000 متجر على مدى ثلاث سنوات، يبدو نشر المحطات الطرفية الجديدة في السنة الثالثة متطابقاً مع النشرات الأصلية في السنة الأولى.

هذا هو السبب في أن استنساخ الصوت بالذكاء الاصطناعي للعلامة التجارية هو أعلى قيمة في صوت البيع بالتجزئة للمؤسسات. حدد الصوت مرة واحدة - ربما بالاستنساخ من تسجيل ممثل صوتي عالي الجودة موجود بالفعل لدى العلامة التجارية - ثم أنتج موجهات غير محدودة من هذا الملف الشخصي المستنسخ بشكل دائم.

كتابة سيناريوهات موجهات الدفع الذاتي لمخرجات الصوت الطبيعية بالذكاء الاصطناعي

السيناريو هو حيث تنتج معظم مشاريع صوت الكشك DIY نتائج سيئة. موجهات الدفع الذاتي لها بنية لغوية محددة تختلف عن TTS المحادثة.

اجعل الموجهات قصيرة وإلزامية. “يرجى وضع المنتج في منطقة التعبئة” (7 كلمات) صحيح. “هل يمكنك من فضلك التأكد من وضع منتجك على مقياس منطقة التعبئة؟” خطأ لكل من جودة TTS وتجربة المستخدم. يُظهر البحث المتكرر في UX بالتجزئة أن الموجهات الأقصر تقلل وقت المعاملة والالتباس في المتسوقين.

استخدم الترقيم كتحكم بالنغم. الفاصلة تنشئ فاصل قصير في معظم مولدات الصوت بالذكاء الاصطناعي. “مرحبا. يرجى مسح عنصرك الأول.” ينتج فاصل جملة نظيف. بدون الفترة، “مرحبا يرجى مسح عنصرك الأول” يعمل معاً ويبدو غير طبيعي.

تجنب قراءات الأرقام الغامضة. اكتب “أربعة دولارات وخمسين سنتاً” وليس “$4.50” - قد تقرأ بعض أنظمة TTS الأخيرة كـ “دولار 4 نقطة 50” أو “أربعة نقطة خمسة صفر دولار.” كن صريحاً حول كيفية قراءة الأرقام، خاصة للأسعار والكميات وأرقام الممرات.

سيناريوهات التحقق من العمر تتطلب وضوحاً فوق كل شيء. هذه الموجهات تشغل سير عمل الامتثال. السيناريوهات مثل “يجب على موظف المتجر التحقق من عمرك لهذا المنتج. يرجى الانتظار.” يجب أن تكون لا لبس فيها وسلطوية وخالية من اللغة المخففة التي قد تجعل المتطلب يبدو اختياري.

فئات مكتبة الموجهات القياسية للدفع الذاتي:

الفئة	موجهات المثال	العدد النموذجي
الترحيب والمسح	”مرحبا. يرجى مسح عنصرك الأول.”	3-5
منطقة التعبئة	”يرجى وضع المنتج في منطقة التعبئة.” / “منتج غير متوقع في منطقة التعبئة.”	8-12
تنبيهات الوزن	”يرجى إزالة جميع العناصر من منطقة التعبئة.” / “تم إزالة المنتج - يرجى إعادة المسح.”	4-6
موجهات الدفع	”يرجى اختيار طريقة الدفع.” / “يرجى إدراج بطاقتك.” / “يرجى الضغط على بطاقتك.”	10-15
الولاء والكوبونات	”هل لديك بطاقة ولاء أو كوبونات؟” / “تم قبول البطاقة.”	4-6
التحقق من العمر	”هذا المنتج يتطلب التحقق من العمر. سيساعدك أحد أعضاء الفريق.”	2-3
الخطأ والتجاوز	”يرجى الانتظار للحصول على المساعدة.” / “تم إبلاغ أحد أعضاء الفريق.”	5-8
المعاملة المكتملة	”تمت المعاملة. يرجى أخذ إيصالك.”	3-4
خاص بالمتجر	الترحيبات الموسمية والرسائل الترويجية واسم المتجر في موجه الفتحة	5-20
الإغلاق / الخامل	”مرحبا بك في [اسم المتجر]. يرجى مسح عنصرك عند الاستعداد.”	2-4

إجمالي لكل لغة: عادة 80-150 مقطع لمكتبة مسار واحد كاملة.

توافقية WCAG 2.1 لصوت كشك البيع بالتجزئة

محطات الدفع الذاتي هي أماكن إقامة عامة بموجب قانون ADA في الولايات المتحدة وبموجب تشريعات الوصول المتكافئ في الاتحاد الأوروبي (قانون الوصول الأوروبي، النافذ يونيو 2025 لواجهات البيع بالتجزئة الرقمية) والمملكة المتحدة. توفر WCAG 2.1 المعيار التقني الذي تستخدمه معظم عمليات التدقيق في الوصول لتقييم صوت الكشك.

معايير نجاح WCAG 2.1 ذات الصلة بصوت الدفع الذاتي:

1.1.1 محتوى غير نصي (المستوى A): يجب أن يكون لكل موجه بصري على شاشة الكشك معادل صوتي. إذا أظهرت الشاشة “وضع المنتج في منطقة التعبئة” كإشارة بصرية، يجب أن يشغل الموجه الصوتي أيضاً. الموجهات البصرية فقط تفشل في هذا المعيار.

1.3.3 الخصائص الحسية (المستوى A): لا يجب أن تعتمد التعليمات على الخصائص البصرية وحدها. “اضغط على الزر الأخضر” بدون تعليمات صوتية مقابلة يفشل؛ “اضغط على الزر الأخضر المسمى OK” مع معادل صوتي ينجح.

1.4.2 التحكم في الصوت (المستوى A): إذا شُغّل الصوت تلقائياً لأكثر من 3 ثوانٍ، يجب أن يتمكن المستخدم من الإيقاف المؤقت أو الإيقاف أو التحكم في مستوى الصوت. في كشك الدفع الذاتي، عادة ما يتم تلبية هذا من خلال توفير زر التحكم في مستوى الصوت على واجهة الشاشة.

1.4.3 التباين (للنص على الشاشة، المستوى AA): ليس خاص بالصوت، لكن ذي صلة بواجهة الكشك المتكاملة المرافقة لموجهات الصوت.

2.4.6 الرؤوس والتسميات (المستوى AA): شاشة قارئ مجاورة - تنطبق عندما يكشف الكشك عن مقبس سماعة رأس للاستماع الخاص، وهو ما تفعله أجهزة الصراف الآلي المتوافقة مع ADA غالباً.

متطلبات الإنتاج العملي للوصول:

وضوح الكلام الأدنى: يجب أن يسجل مخرجات الصوت بالذكاء الاصطناعي أعلى من 90 في اختبارات وضوح الكلمات (الاختبار المعدل للقافية أو ما يشابهه) عبر مكبر الصوت المدمج بالكشك عند 65 ديسيبل الضوضاء المحيطة
معدل الكلام: 120-150 كلمة في الدقيقة لموجهات توجيهية؛ الذهاب أسرع يتدهور الوضوح للمتسوقين الذين يعانون من اختلافات معالجة الإدراك
الصوت: ثابت -18 LUFS متكامل عبر جميع المقاطع؛ اختلاف الصوت بين الموجهات يربك المستخدمين ضعاف السمع
منفذ الاستماع الخاص: يجب أن تنتج الأكشاك عالية الحركة مع مقبس سماعة رأس صوتاً نظيفاً عند مستويات المقاومة الكهربائية للسماعات القياسية - هدف صوت مختلف عن مخرجات مكبر الصوت

للحصول على خلفية أعمق حول توافقية الصوت بالذكاء الاصطناعي للمحطات الطرفية الموجهة للجمهور، يغطي دليلنا على مولد الصوت بالذكاء الاصطناعي لموجهات ردهة ATM متطلبات ADA و WCAG المتداخلة لأكشاك مالية، التي تواجه نفس تحديات الوصول.

صوت الدفع الذاتي متعدد اللغات: نماذج Walmart و Kroger و Carrefour

تمثل السلاسل الثلاث للبيع بالتجزئة الأكثر شيوعاً في نشر صوت الذكاء الاصطناعي للدفع الذاتي متعدد اللغات ثلاث نهج مختلفة لتحدي التعددية اللغوية.

Walmart الولايات المتحدة: الإنجليزية والإسبانية

توفر محطات الدفع الذاتي بـ Walmart الأمريكية في الأسواق ذات النسبة العالية من السكان الهيسبانيين مجموعات موجهات باللغة الإنجليزية والإسبانية. يحدث اختيار اللغة إما في بداية المعاملة (موجه “اختيار اللغة” مع زر الشاشة اللمسية) أو من خلال تفضيل لغة مستمر مرتبط بحساب الولاء للمتسوق.

شخصية الصوت Walmart باللغة الإنجليزية هي صوت أنثى عام أمريكي محايد - أحد أصوات الدفع الذاتي الأكثر شهرة في البيع بالتجزئة بالولايات المتحدة. تحافظ النسخة الإسبانية على سجل مشابه لكن بلهجة إسبانية أمريكية لاتينية محايدة (تجنب التحديد الإقليمي الذي قد يبدو مستبعداً للمتحدثين من خلفيات أسبانية مختلفة).

التطبيق التقني: على محطات NCR FastLane الطرفية بـ Walmart، يتم تخزين مكتبات اللغتين في دلائل منفصلة (على سبيل المثال، /prompts/en/ و /prompts/es/) ويقوم تطبيق POS بتبديل مسارات الدليل بناءً على علم تفضيل اللغة المعيّن في بداية الجلسة.

Kroger الولايات المتحدة: الإنجليزية والاعتبارات الإقليمية

تستخدم نشرات الدفع الذاتي بـ Kroger عبر لافتاتها (King Soopers و Fred Meyer و Ralphs و Harris Teeter) الإنجليزية كلغة أساسية مع بعض دعم اللغة الإسبانية في الأسواق ذات الصلة. تؤكد نهج Kroger تاريخياً على نبرة صوت أدفأ وأكثر محادثة من Walmart - مما يعكس موضع العلامة التجارية للبقالة المجتمعية.

“صوت Kroger” عبر شبكة الدفع الذاتي الخاصة به مميز بما يكفي حتى أن السلسلة استثمرت في توافقية الصوت كمميز للعلامة التجارية - بالضبط حالة الاستخدام التي يدعمها استنساخ الصوت بالذكاء الاصطناعي بالسماح للعلامة التجارية بامتلاك وتكرار شخصية صوتية محددة.

Carrefour: الفرنسية والعربية واللغات الخاصة بالسوق

تعمل Carrefour عبر 35 دولة وأكثر من نشرات الدفع الذاتي التي تتطلب مكتبات موجهات متعددة اللغات حقاً. الفرنسية هي لغة الخط الأساسي؛ العربية هي اللغة الثانوية لأسواق شمال أفريقيا (المغرب وتونس والجزائر ومصر)؛ تستخدم الإسبانية في إسبانيا وأجزاء من أمريكا اللاتينية.

التعقيد التقني بـ Carrefour كبير: قد تحتاج محطة طرفية Diebold Nixdorf TP7 واحدة في Carrefour المغربية إلى الفرنسية والعربية المغربية (الدارجة) أو الفرنسية والعربية المعيارية الحديثة (MSA) اعتماداً على الديموغرافية المتوقعة - والمتغيرات العربية الاثنتان مختلفتان بما يكفي حتى تكون مكتبات موجهات منفصلة مطلوبة.

يدعم إنشاء الصوت بالذكاء الاصطناعي هذا بالسماح لفريق الصوت بـ Carrefour بإنشاء مكتبات متغيرة عربية مميزة من نفس سيناريو الموجه دون استئجار موهبة منفصلة للدارجة و MSA.

هندسة معمارية تبديل اللغة

الطريقان المهيمنان لهندسة الصوت متعددة اللغات للكشك هما:

الطريقة	كيفية عملها	الأفضل لـ
اختيار اللغة في بداية الجلسة	يختار المتسوق اللغة على الشاشة الأولى؛ الجلسة تشغل من مكتبة هذه اللغة	المتاجر عالية التنوع؛ التفضيل الواضح للغة
تفضيل الولاء المستمر	مرتبطة اللغة بحساب الولاء؛ تحديد تلقائي عند مسح البطاقة	المتسوقون العاديون؛ يقلل الاحتكاك للعملاء المعروفين
الصوت المتوازي (كلا اللغتين)	إنشاء مقطع مركب واحد لكل موجه: الإنجليزية + توقف + الإسبانية	متحكمات قديمة لا يمكنها تبديل الدلائل أثناء الجلسة
TTS الديناميكي	تولد TTS على الجهاز أو قائمة على API كل موجه مباشر	أعلى مرونة؛ يتطلب محرك TTS منخفض الكمون والوصول إلى الشبكة

لسياق نشر مجاور - صوت تم إنشاؤه بالذكاء الاصطناعي في أماكن الترتيب بالقيادة، حيث تخدم الموجهات المتعددة اللغات العملاء الذين لم يختاروا اللغة مسبقاً - راجع دليلنا على مولد الصوت بالذكاء الاصطناعي لطلبات ممر القيادة، الذي يغطي اكتشاف اللغة ومنطق التبديل الديناميكي لأنظمة السماعات الخارجية.

سير عمل الإنتاج التقني: بناء مكتبة موجهات البيع بالتجزئة

فيما يلي سير عمل الإنتاج لإنشاء مكتبة موجهات دفع ذاتي كاملة باستخدام مولد صوت بالذكاء الاصطناعي:

الخطوة 1 - تدقيق مواصفات الأجهزة. اطلب وثيقة التكامل الصوتي من مهندس العمل الميداني NCR Voyix أو Diebold Nixdorf. احصل على معدل العينات المطلوب وعمق البت وحد أحادي / الاستريو المطلوب والمقابس والاسم الموصى به لدليل مكتبة الموجهات.

الخطوة 2 - صياغة سيناريو الموجه الكامل. اسرد كل رمز حدث قد يشغله تطبيق POS. معظم نشرات NCR و Diebold Nixdorf تأتي مع مكتبة موجهات أساسية من الشركة المصنعة - احصل على هذا كمرجع. أضف موجهات خاصة بتاجر التجزئة (اسم المتجر وبرنامج الولاء واسم طريقة الدفع الخاصة).

الخطوة 3 - حدد معاملات ملف الصوت. حدد سجل الجنس ومعدل الكلام (130-145 كلمة في الدقيقة لموجهات توجيهية) والنبرة واللهجة. إذا كان مطابقة صوت العلامة التجارية الموجودة، فقدم عينة تسجيل مرجعية لاستنساخ الصوت.

الخطوة 4 - إنشاء في دفعة. أدخل قائمة سيناريو الموجه الكاملة وحدد ملف الصوت واضبط صيغة الإخراج حسب المواصفات. معالجة جميع المقاطع في دفعة واحدة لضمان إعدادات صوتية متسقة عبر كل ملف. لا تنشئ مقاطع في جلسات منفصلة بإعدادات مختلفة - اختلافات الصوت والنغم بين المقاطع مسموعة في الإنتاج.

الخطوة 5 - تطبيع الصوت. هدف -18 LUFS متكامل مع سقف ذروة -3 dBTP. تطبيق على كل مقطع في الدفعة. الأدوات: Loudnorm في FFmpeg أو مطبّع صوت مخصص. لا تستخدم تطبيع القمة - ينتج عنه صوت مرغوب فيه غير متسق.

الخطوة 6 - أضف مخازن الصمت. مقدمة 50-100ms الصمت؛ إلحاق 200ms الصمت. معظم متحكمات الكشك تقطع بداية الصوت بدون مخزن مقدمة صمت موجز. يمنع الصمت الزائد حدث نقر عندما ينطلق الموجه التالي.

الخطوة 7 - أعد التسمية لرموز الموجهات. أعد تسمية الملفات حسب الاسم الموصى به للمتحكم. عدم المطابقة بين اسم الملف ورمز الحدث المتوقع تعني تشغيل الموجه صمتاً - أكثر أنماط الفشل شيوعاً في نشرات مكتبة الموجهات المخصصة.

الخطوة 8 - اختبار التحقق. انشر مكتبة الموجهات إلى محطة طرفية اختبار. قم بسير معاملة كاملة بما فيها حالات الأخطاء (عدم تطابق منطقة التعبئة ورفض البطاقة وتفعيل التحقق من العمر). تحقق من تشغيل كل موجه بشكل صحيح، في اللحظة الصحيحة، بمستوى الصوت الصحيح.

الخطوة 9 - وثّق إعدادات ملف الصوت. احفظ كل معامل مستخدم: نموذج الصوت ومعدل الكلام وضبط الصوت وصيغة الإخراج. عندما يتطلب تحديث النص إعادة إنشاء مقطع واحد بعد ستة أشهر، تطابق الإعدادات الأصلية يضمن أن المقطع الجديد يبدو متطابقاً مع المكتبة الموجودة.

لسياق حول كيفية تطبيق نفس منطق الإنتاج الدفعي على موجهات صوت آلة بيع - حالة استخدام صوت كشك مشابه لكن أبسط - راجع دليلنا على مولد الصوت بالذكاء الاصطناعي لآلات البيع.

مقارنة منصات الصوت بالذكاء الاصطناعي لإنتاج كشك البيع بالتجزئة

المنصة	تصدير WAV	دفعة السيناريو	استنساخ الصوت	بلا اتصال	دعم SSML
ElevenLabs	نعم (مدفوع)	عبر API	نعم (مدفوع)	لا	محدود
Murf	نعم (مدفوع)	عبر API	محدود	لا	نعم
Azure TTS	نعم	نعم (SSML)	صوت عصبي مخصص	لا	كامل
Google Cloud TTS	نعم	نعم	صوت مخصص	لا	كامل
VoxBooster	نعم	نعم	نعم (محلي)	نعم (Windows)	نعم

معايير رئيسية للنشر بالتجزئة:

المعالجة بدون اتصال/محلية: قد تحتوي محطات الكشك في بيئات البيع بالتجزئة على وصول صادر محدود الإنترنت لأسباب الامتثال لـ PCI-DSS. مولد صوت محلي يعمل على محطة العمل الإنتاجية بدون استدعاءات API سحابية يزيل محادثة الامتثال.

استنساخ الصوت من تسجيل مرجعي: إذا كان لدى متجر بيع بالتجزئة بالفعل تسجيل موهبة صوتية موجود يحدد صوتهم، استنساخ هذا المرجع - بدلاً من اختيار صوت جديد عام - يحافظ على إنصاف العلامة التجارية. ينتج الصوت المستنسخ جميع الموجهات الجديدة والمحدثة بلا حدود من نفس هوية الصوت.

التصدير الدفعي مع إعدادات متسقة: إنشاء 120 مقطع واحد تلو الآخر عبر واجهة ويب غير عملي. يضمن المعالجة الدفعية من ملف نص مع إعدادات صوتية مقفلة أن كل مقطع في المكتبة متسق.

SSML للتحكم في النطق: موجهات البيع بالتجزئة غالباً ما تتضمن رموز المنتجات وصيغ الأسعار وأسماء برامج الولاء التي قد تقرأها محركات TTS بشكل غير متوقع. يتيح لك SSML تحديد الكلمات بشكل صريح: <say-as interpret-as="currency">$4.50</say-as> أو <say-as interpret-as="cardinal">4</say-as> items.

لسير عمل استنساخ الصوت - خاصة مطابقة تسجيل صوت العلامة التجارية الموجود - يغطي دليلنا voice cloning for voiceover المنهجية والمعايير الجودة والمتطلبات التقنية للاستنساخ من درجة الإنتاج.

الأخطاء الشائعة في إنتاج صوت كشك البيع بالتجزئة

الإنتاج بالاستريو. كل متحكم دفع ذاتي رئيسي - NCR و Diebold Nixdorf ومعظم الشركات المصنعة الثانوية - يتطلب WAV أحادي. يتم إما رفض الملفات الاستريو أو تشغيلها بشكل غير صحيح. أنشئ أحادي من البداية؛ لا تعتمد على المتحكم للخفض.

استخدام أصوات TTS من المستهلك مباشرة بدون تطبيع الصوت. تحسن منصات TTS من المستهلك لتشغيل سماعات الرأس أو السماعة عند حوالي -14 LUFS. مكبرات الصوت في كشك البيع بالتجزئة عبارة عن بيئات صوتية مختلفة. بدون تطبيع الصوت إلى -18 LUFS، ستكون الموجهات غير متسقة في الصوت عبر المكتبة.

تخطي مخزن الصمت الرائد. متحكمات تشغل الصوت فوراً على حريق الحدث ستقطع المقطع الأول من موجه يبدأ عند عينة صفر. مخزن رأس صمت 50-100ms يمنع هذا.

إعدادات صوتية مختلفة بين جلسات التحديث. إنشاء المكتبة الأولية في يناير وتحديث ثلاثة موجهات في سبتمبر بإعدادات درجة أو سرعة مختلفة قليلاً ينشئ عدم اتساق مسموع في الإنتاج. أغلق وثّق الإعدادات في اليوم الأول.

لغة لينة في موجهات الامتثال. موجهات التحقق من العمر وفحص الهوية موجودة لأسباب الامتثال القانوني. تخفيف لينة (“قد تحتاج إلى إظهار الهوية”) ينشئ غموض يربك المتسوقين وينشئ احتمالاً المسؤولية. يجب أن تكون هذه الموجهات واضحة وسهلة ولا تثير أي التباس.

تجاهل حلقة الخامل / الترحيب. موجه الخامل الذي يعمل عندما تنتظر المحطة الطرفية متسوق هو واحد من أكثر قطع الصوت التي يتم سماعها في المتجر. ينسق نبرته الانطباع الأول عن تجربة الدفع. لا تتعامل معها كعد الفكرة الأخيرة.

لمولدات الصوت الموجهة للمنشئين المحتوى بدلاً من نشرات البيع بالتجزئة للمؤسسات، يغطي دليلنا voice changer for content creators متطلبات الجودة وسير العمل المختلفة لحالات الاستخدام في البث والوسائط الاجتماعية.

الأسئلة الشائعة

ما هو نظام الذكاء الاصطناعي الصوتي للدفع الذاتي؟

نظام الذكاء الاصطناعي الصوتي للدفع الذاتي هو نظام تحويل النص إلى كلام مدمج في أكشاك البيع بالتجزئة يوجه المتسوقين خلال عملية المسح والدفع. ينتج عنه الأصوات التي تسمعها في أكشاك الدفع الذاتي بـ Walmart و Kroger و Carrefour - “يرجى وضع المنتج في منطقة التعبئة” و “منتج غير متوقع في منطقة التعبئة” و “يرجى إدراج بطاقتك” - باستخدام شخصية صوتية اصطناعية متسقة عبر كل محطة طرفية في سلسلة المتاجر.

ما هو الجهاز الذي يشغل أصوات الدفع الذاتي لدى كبار تجار التجزئة؟

NCR Voyix (سابقاً NCR) و Diebold Nixdorf هما الشركات المصنعة الرائدة لأكشاك الدفع الذاتي. تشغل خطوط FastLane و SelfServ من NCR الصوت من خلال مكبر صوت مدمج يدفعه متحكم يعمل بنظام Windows أو Linux. تستخدم أنظمة BEETLE و TP Application من Diebold Nixdorf هندسة معمارية مماثلة. كلاهما يقبل ملفات صوتية WAV محملة في مكتبة موجهات على المتحكم - مولد الصوت بالذكاء الاصطناعي ينتج تلك الملفات.

كيف يمكنني جعل صوت الدفع الذاتي متوافقا مع WCAG 2.1؟

معايير نجاح WCAG 2.1 1.4.2 (التحكم في الصوت) و 1.3.3 (الخصائص الحسية) هي نقاط التفتيش الأكثر صلة. في الممارسة العملية: يجب أن يكون لكل موجه بصري موجه صوتي مكافئ، والصوت يجب ألا يُشغّل تلقائياً لأكثر من 3 ثوانٍ دون تحكم من المستخدم، والصوت يجب أن يكون مفهوماً عند مستويات الصوت الطبيعية للكشك - عادة 65-75 ديسيبل عند 0.5 متر. استخدم لهجة واضحة وحيادية بسرعة 130-150 كلمة في الدقيقة وثبات الصوت بـ -18 LUFS.

هل يمكن لصوت واحد بالذكاء الاصطناعي أن يغطي كشك دفع ذاتي متعدد اللغات؟

يمكن لمحرك صوت واحد بالذكاء الاصطناعي أن ينتج موجهات في لغات متعددة من نفس ملف الصوت، لكن شخصية الصوت الناتجة ستختلف لكل لغة لأن كل نموذج لغة يتم تدريبه على أنماط الكلام الأصلية. للتوافق مع العلامة التجارية عبر اللغات، حدد سجل الهدف (دافئ أو حيادي أو رسمي قليلاً) وقيّم مخرجات كل لغة مقابل هذا الملف الشخصي قبل النشر. متاجر Walmart الأمريكية تشغل عادة الإنجليزية والإسبانية؛ تشغل Carrefour فرنسا الفرنسية والعربية في المواقع عالية الحركة.

ما صيغة الصوت التي تقبلها أكشاك NCR Voyix و Diebold Nixdorf؟

تقبل معظم أنظمة الدفع الذاتي من NCR Voyix نمط 16-بت PCM WAV بمعدل 22.05 كيلوهرتز أو 44.1 كيلوهرتز أحادي. عادة ما تستخدم خطوط BEETLE و TP Application من Diebold Nixdorf WAV أحادي 16-بت بمعدل 11.025 كيلوهرتز أو 22.05 كيلوهرتز لمكتبات الموجهات القديمة و 44.1 كيلوهرتز للأنظمة من الجيل الحالي. اطلب دائماً مواصفات التكامل الصوتي من مهندس العمل الميداني - عدم مطابقة الصيغة هي السبب الأكثر شيوعاً لفشل الموجهات الصوتية المخصصة في التشغيل.

كم عدد الموجهات الصوتية التي يحتاجها كشك دفع ذاتي عادي؟

مكتبة موجهات الدفع الذاتي القياسية لمحطة طرفية واحدة تحتوي على 80-150 مقطع WAV فردي يغطي موجهات المسح وتنبيهات منطقة التعبئة وتدفق الدفع وموجهات برنامج الولاء والتحقق من العمر واسترجاع الأخطاء والرسائل الخاصة بالمتجر. مضروب عبر سلسلة من 500 متجر بـ 4 مسارات لكل متجر و 2 لغة، قد يصل إلى 1.2 مليون ملف صوتي فردي - الإنشاء الدفعي بالذكاء الاصطناعي هو الطريقة الوحيدة العملية لإنتاج وصيانة هذا بالحجم.

هل يعمل VoxBooster مع إنتاج صوت أكشاك البيع بالتجزئة؟

يعمل VoxBooster على Windows وينتج مخرجات WAV عالية الجودة مع استنساخ الصوت الاصطناعي المخصص - مفيد لإنشاء شخصية صوتية علامة تجارية متسقة عبر مكتبة موجهات الكشك الكاملة. تطابق سير العمل ما تفعله فرق الصوت بالتجزئة: تسجيل أو استنساخ صوت مرجعي وإنشاء جميع الموجهات من قائمة نصوص في دفعة وتصدير بصيغة WAV أحادي بمعدل العينات المطلوب. تغطي النسخة التجريبية المجانية مخرجات كافية للتحقق من جودة الصوت قبل الالتزام بتشغيل مكتبة موجهات كاملة.

الخاتمة

نظام الذكاء الاصطناعي الصوتي للدفع الذاتي هو انضباط إنتاج، وليس مجرد اختيار تكنولوجي. تم تصميم وإنتاج صوت “يرجى وضع المنتج في منطقة التعبئة” الذي يسمعه المتسوقون في Walmart و Kroger و Carrefour بمتطلبات أجهزة محددة ومعايير إمكانية الوصول وإرشادات صوتية للعلامة التجارية في الاعتبار - والحفاظ على ذلك عبر آلاف المسارات ولغات متعددة يتطلب سير عمل لا يمكن للتسجيل الاستوديو الاستمرار عنده حسب الحجم.

مولدات الصوت بالذكاء الاصطناعي تعالج كل قيد: متطلبات أجهزة NCR Voyix و Diebold Nixdorf (16-بت أحادي WAV بمعدل العينات الصحيح)، الامتثال بـ WCAG 2.1 (صوت متسق، معدل كلام مفهوم، معادلات صوتية لجميع الموجهات البصرية)، والتطبيقات متعددة اللغات (وظيفة دفعة واحدة لكل لغة من نفس ملف الصوت). سير العمل - النص والإنشاء والتطبيع والتسمية والتحقق - قابل للتكرار والتدقيق بطريقة لا تستطيع جلسات الاستوديو العشوائية.

VoxBooster يتعامل مع إنشاء الصوت بالذكاء الاصطناعي واستنساخ الصوت المخصص على Windows، مما يجعل من العملي بناء مكتبة موجهات بالتجزئة كاملة من شخصية صوتية علامة تجارية محددة. نفس سير العمل المحلي بدون اتصال الذي يتجنب أسئلة الامتثال لـ API بـ PCI-DSS يعني أيضاً تحديثات الموجهات في بعد الظهر بدلاً من حجز الاستوديو في ثلاثة أسابيع. تجربة مجانية لمدة 3 أيام - لا توجد بطاقة ائتمان مطلوبة.