Perakendede Kendi Kasa Kioskları için AI Ses Oluşturucu

Perakendeciler, kendi kasa kioskları için tutarlı, erişilebilir personas oluşturmak amacıyla AI ses nasıl kullanır - NCR Voyix, Diebold Nixdorf, WCAG 2.1 ve çok dilli başlatmaları kapsayan.

Perakendede Kendi Kasa Kioskları için AI Ses Oluşturucu

Kendi kasa AI sesi artık modern perakende mağazasının işitsel yüzüdür. Walmart, Kroger veya Carrefour kendi kasa şeridinde bir alışveriş yapan ‘Lütfen ürünü ambalaj alanına yerleştirin’ duyduğunda, o ses bir metinden sese dönüştürme sistemi tarafından oluşturulmuştur ve giderek artan bir şekilde bu sistem, işe alınan bir ses oyuncusunun stüdyo kaydı değil, bir yapay zeka ses üretecisidir. Bu rehber, perakendecilerin NCR Voyix ve Diebold Nixdorf donanımında kendi kasa sesini nasıl yapılandırdığını, WCAG 2.1 kiosk sesi erişilebilirlik uyumluluğunun gerçekte ne gerektirdiğini, çok dilli bildirim kitaplıklarının nasıl yapılandırıldığını ve bir zincirde 2000 şeride çalışan marka tutarlı bir ses persona oluşturmayı açıklar.


Özet

  • Kendi kasa AI sesi Walmart, Kroger, Carrefour ve çoğu ana zincirdeki kioskları ses bildirimlerini yönlendirir - ‘Lütfen ürünü ambalaj alanına yerleştirin’ en tanınabilir örnektir.
  • NCR Voyix ve Diebold Nixdorf hakim OEM’lerdir; her ikisi de terminal denetleyicisine yüklenen WAV bildirim kitaplıklarını kullanır.
  • WCAG 2.1, her görsel bildirimin ses eşdeğerine sahip olmasını, kiosk ses seviyelerinde anlaşılabilir olmasını ve kullanıcı denetimi olmasını gerektirir.
  • Çok dilli kiosklar (Walmart’ta İngilizce + İspanyolca, Carrefour’da Fransızca + Arapça) aynı ses profilinden dil başına ayrı bildirim kitaplıkları gerektirir.
  • AI ses üreticileri komut dosyasından toplu üretimle revizyon başına stüdyo oturumlarını değiştirir - zincir ölçeğinde kritiktir, burada tek bir bildirim güncellemesi binlerce terminali etkiler.
  • VoxBooster, Windows için perakende ses iş akışları için ses klonlaması ve WAV toplu üretimi işler.

Kendi Kasa AI Sesi Gerçekte Nedir

Perakende kiosk AI sesi, alışveriş yapanları tarama ve ödeme işleminde rehberlik eden ses bildirimlerini oluşturan bir metinden sese dönüştürme motorunu ifade eder. ‘Kendi kasa AI sesi’ tümceciği tam yığını kapsar: ses persona kendisi (ton, vurgu, cinsiyet kayıtı), bildirim kitaplığı (sistemin oynatabilmesi gereken olası komut dosyasının her satırı), ses dosyası formatı (denetleyicinin kabul ettiği WAV özellikleri) ve hangi bildirimin ne zaman oynatılacağını belirleyen mantık.

Kendi kasa terminalindeki tipik bildirim olayı sırası kabaca şöyle çalışır:

  1. “Hoş geldiniz. Lütfen ilk ürünü tarayın.”
  2. “Lütfen ürünü ambalaj alanına yerleştirin.”
  3. “Ambalaj alanında beklenmeyen ürün.” (ağırlık uyuşmazlığı algılandı)
  4. “Kupon veya sadakat kartınız var mı?”
  5. “Lütfen ödeme yöntemini seçin.”
  6. “Lütfen kartınızı girin.” / “Lütfen kartınızı dokunun.”
  7. “Lütfen kartınızı çıkarın.”
  8. “İşlem onaylandı. Lütfen makbuzunuzu ve ürünlerinizi alın.”

Bu satırların her biri terminaldeki bildirim kitaplığında ayrı bir WAV dosyasıdır. Tam bir kitaplık (tüm hata durumları, yaş doğrulaması, ürün araması, ağırlık uyuşmazlığı uyarıları, çalışan geçiş bildirimleri ve kapanış mesajları kapsayarak) dil başına şerit türü başına 80-150 ayrı klibe çalışır.

500 mağaza, mağaza başına 4 şerit ve 2 dili olan bir perakendeci arasında, bu potansiyel olarak 1.2 milyon ayrı ses dosyasıdır. Bu, yapay zeka toplu üretiminin kurumsal perakende sesi için stüdyo kaydını değiştirmesinin nedenidir: yeni bir düzenleme güncellenmiş yaş doğrulama komut dosyasını gerektirdiğinde, yapay zeka sistemi etkilenen klipleri bir saat içinde yeniden oluşturur. Stüdyo oturumu günler ve binlerce dolar tutar.

‘Lütfen ürünü ambalaj alanına yerleştirin’ Arkasındaki Ses

İngilizce konuşan perakende dünyasında en tanınabilir kendi kasa ses bildirimi ‘Lütfen ürünü ambalaj alanına yerleştirin’. 2000’lerin ve 2010’ların çoğu boyunca, o ses kaydedilmiş bir insandı - tipik olarak bir donanım OEM’si (NCR veya Diebold Nixdorf) tarafından veya kendi marka seslerini kaydetmek üzere işe alınan profesyonel bir ses oyuncusu.

Örneğin, Walmart ABD kendi kasa sesi, ‘ambalaj alanında beklenmeyen ürün’ cümlesi mim kültürüne girmek kadar tanınabilir hale geldi - bu bildirimi karşılaşan alışveriş yapanların sayısını ve ses marka tanınırlığının gücünü gösteren bir işaret.

Birkaç faktör, kaydedilmiş sesten yapay zeka tarafından oluşturulan sese geçişi yönlendirir:

Güncelleme sıklığı. Perakende POS sistemleri komut dosyalarını düzenli olarak güncelleyin - yeni ödeme yöntemleri, sadakat programı yeniden markalandırması, alkol veya tütün satın almalarına yönelik düzenleyici dil, mevsimsel mesajlar. Her komut dosyası değişikliği önceden stüdyo yapısını gerektiriyordu. Yapay zeka üretimi bunu dakikalara indirir.

Küresel ölçek. Carrefour gibi uluslararası perakendeciler, düzinelerce ülke ve düzinelerce dilde faaliyet gösterir. Pazar başına dil başına yerel ses talentte işe alınması, oturumlar genelinde tutarlılığın korunması ve bu ölçekte yetenek sözleşmelerinin yönetilmesi operasyonel olarak karmaşıktır. Yapay zeka ses üretimi, tanımlanmış bir ses profilinden her dili işler.

Marka tutarlılığı. Beş yıl boyunca 2000 mağazaya kendi kasa konuşlandırırken, zincir genişledikçe farklı kayıt oturumlarını kullanan bir perakendeci, mülkler genelinde işitsel olarak tutarsız seslerle sonuçlanır - bazıları daha sıcak, bazıları daha robotik, bazıları farklı aksanlarla. Tanımlanmış bir profil yapay zeka ses üretimi terminal 1’de ve terminal 4000’de aynı çıkışı üretir.

Bildirim başına maliyet. Stüdyo oranlarında, iki dilde 120 kliplik bir bildirim kitaplığı binlerce dolara mal olur. Yapay zeka üretimi, ses profili belirlendikten sonra yeni bildirimler için marjinal maliyeti neredeyse sıfıra düşürür.

NCR Voyix Kendi Kasa: Donanım ve Ses Mimarisi

NCR Voyix (eski NCR Corporation, 2024 yeniden markalaştırılmış) Walmart, Kroger, Home Depot ve ABD’deki çoğu büyük bakkal zincirlerinde bulunan FastLane, SelfServ 90 ve EASY CHECKOUT ürün hatlarını üretir. Bu sistemlerin sesi nasıl işlediğini anlamak, özel kiosk sesi üreten herkes için gereklidir.

NCR FastLane ve SelfServ kendi kasa üniteleri Windows’u (mevcut nesil donanımda tipik olarak Windows 10 IoT Enterprise) veya eski birimlerde Linux tabanlı işletim sistemini çalıştırır. Ses, POS uygulama yazılımı - NCR’nin Emerald POS veya SCOT (Kendi Kasa Çözümü) platformu - tarafından işlenir, bu da terminalde yerel bildirim kitaplığı dizininden WAV dosyalarını oynatır.

NCR Sistemleri için Ses Özellikleri:

NCR HattıÖrnek OranıBit DerinliğiKanallarBiçim
FastLane (mevcut nesil)44.1 kHz16-bitMonoWAV PCM
SelfServ 9022.05 kHz veya 44.1 kHz16-bitMonoWAV PCM
EASY CHECKOUT44.1 kHz16-bitMonoWAV PCM
Eski SCOT Birimleri11.025 kHz veya 22.05 kHz16-bitMonoWAV PCM

NCR terminalindeki bildirim kitaplığı, her WAV dosya adının POS yazılımı yapılandırmasındaki bildirim olayı koduna karşılık geldiği bir dizin yapısında düzenlenmiştir. Adlandırma kuralları perakendeci özelleştirilmesine göre değişir - Kroger dağıtımı, özdeş NCR donanımında bile Walmart dağıtımından farklı bildirim kodları kullanabilir.

Ana Üretim Kısıtlaması: NCR kendi kasa kioskları’ndaki hoparlör sistemleri kapalı bir plastik kutuya monte 3-5 watt sürücülerdir. Bunlar yüksek sadakat hoparlörleri değildir. Aşırı yüksek bildirimler bozulur; çok sessiz bildirimler uyumunun başarısız olması. -18 LUFS entegreli ve -3 dBTP (saf doruk) yüksek sınır ile ses spesifikasyonunu hedefleyin.

Diebold Nixdorf Kendi Kasa: BEETLE ve TP Application Sistemleri

Diebold Nixdorf (eski Wincor Nixdorf) esas olarak Avrupa bakkal zincirlerinde, Carrefour’un Avrupa operasyonlarında ve bazı ABD özel perakendecilerde bulunan BEETLE ve TP Application kendi kasa hatlarını üretir. Mimarileri NCR’ye benzer, ancak farklı ses formatı tercihlerine sahip.

BEETLE POS sistemleri Windows’ta çalışır ve Diebold Nixdorf’un Storelogix veya ProFIT uygulama platformunu kullanır. Ses bildirimleri terminaldeki bir medya kitaplığına WAV dosyaları olarak yüklenir. Mevcut nesil BEETLE sistemleri 44.1 kHz 16-bit mono WAV’yi kabul eder; eski birimler sıklıkla 11.025 kHz veya 22.05 kHz gerektiriyordu.

TP Application terminalleri (TP6 ve TP7 hatları) aynı WAV tabanlı bildirim kitaplığı sistemini kullanır. Yüksek trafikli Avrupa bakkal zincirlerinde yaygın olan TP7 ürün hattı, mevcut yazılımda 44.1 kHz sesi destekler.

Diebold Nixdorf Sistemleri için Ses Özellikleri:

SistemÖrnek OranıBit DerinliğiKanallarBiçim
BEETLE POS (mevcut)44.1 kHz16-bitMonoWAV PCM
BEETLE POS (eski)11.025-22.05 kHz16-bitMonoWAV PCM
TP6 Uygulaması22.05 kHz veya 44.1 kHz16-bitMonoWAV PCM
TP7 Uygulaması44.1 kHz16-bitMonoWAV PCM

Carrefour Özgü Not: Carrefour’un Avrupa kendi kasa konuşlandırmaları Fransızca ve İngilizce (turist yoğun yerlerde) veya Fransızca ve Arapça (kuzey Afrika mağazaları için) yürütür. Terminal başına bildirim kitaplığı, her işlemin başında bir dil seçim bildirimiyle iki dil kümesi içerir. Diebold Nixdorf TP Application sistemleri bunu WAV dizinlerini değiştirmek yerine Storelogix yapılandırmasında dil değiştirici mantığı aracılığıyla işler - tam çok dilli kitaplık her terminalde yaşar.

Kendi Kasa Ses Persona Oluşturma

Kendi kasa ses persona bir ses kaydından daha fazlasıdır - alışveriş yapanların ödeme anında bir marka algısını şekillendiren kasıtlı bir akustik tasarım kararıdır.

Çoğu büyük perakendeci tarafsız-ılık kaydında ses seçer: soğuk veya robotik değil (bu, zaten stresli bir zamanda sürtünme yaratır), aşırı ılık veya tesadüfi değil (bu, işlemsel bir bağlamda uygunsuz görünür). Cinsiyet seçimi perakendeci ve pazara göre değişir - ABD bakkal zincirleri tarihi olarak dişi sesler tercih etti; bazı Avrupa zincirleri erkek sesler kullanır; modern konuşlandırmalar genellikle her ikisini de sunun ve terminalin dil tercihi algılamasına ve karşılık gelen sesi sunmasına izin verin.

Üretimden Önce Tanımlanması Gereken Ses Persona Nitelikleri:

  • Cinsiyet Kayıt: Kadın, erkek veya cinsiyet tarafsız (ikinci olansa giderek daha yaygın)
  • Aksan: ABD zincirleri için tarafsız genel Amerikan; İngiltere için Alınan Telaffuz veya bölgesel tarafsız; İngilizce olmayan pazarlar için ulusal standart vurgular
  • Konuşma Hızı: Yönerge bildirimleri için 130-145 sözcük/dakika; onay mesajları için biraz daha hızlı (150 WPM)
  • Ton: Sıcak ama bildirimci - sorgulay veya özür dilemekle ilgili değil (‘X’i lütfen yap’ ‘Lütfen X’i yapmak isteyebilir misiniz?’ yerine)
  • Prozodik Tutarlılık: Her klipin özdeş ses, benzer cümle hızı ve klip arasında algılanabilir akustik çevresi farklılığı olmamalıdır.

Zincir Ölçeğinde Tutarlılık Sorunu:

Tek bir yapay zeka ses profili tanımı gereği tutarlılık sorununu çözer. Oluşturulduğu zaman ne olursa olsun veya komut dosyasını kim düzenledikse, tüm bildirimler aynı ses modelinden aynı ayarlarla gelir. 3 yıl boyunca 300’den 1000 mağazaya genişleyen bir zincir için, 3. yıldaki yeni terminal dağıtımları, 1. yıldaki orijinal dağıtımlarla aynı ses. Bu, marka ses AI klonlamasının kurumsal perakende sesi için en yüksek değer olmasının nedenidir. Sesi bir kez tanımlayın - belki marka zaten sahip olduğu mevcut yüksek kaliteli bir ses oyuncusu kaydından klonlamak - sonra bu klonlanmış profilden temelde sınırsız yeni bildirimler oluşturun.

Doğal AI Ses Çıktısı için Kendi Kasa Bildirim Komut Dosyaları Yazma

Komut dosyası, çoğu DIY kiosk sesi projesinin kötü sonuçlar ürettiği yerdir. Kendi kasa bildirimlerinin konuşmacı TTS’ten farklı belirli bir dilsel yapısı vardır.

Bildirimleri kısa ve kesin tutun. ‘Lütfen ürünü ambalaj alanına yerleştirin’ (7 sözcük) doğrudur. ‘Lütfen ambalaj alanı ölçek sınırına ürünü koyduğunuzdan emin olmak isteyebilir misiniz?’ hem TTS kalitesi hem de kullanıcı deneyimi için yanlış. Perakende UX araştırması tutarlı bir şekilde daha kısa bildirimlerin işlem süresini ve alışveriş yapan kafa karışıklığını azalttığını gösterir.

Noktalama Kullan Prozodi Kontrolü Olarak. Virgül çoğu yapay zeka ses üretecinde kısa bir duraklamalar oluşturur. ‘Hoş geldiniz. Lütfen ilk ürünü tarayın.’ Temiz bir cümle kırılması üretir. Periode olmadan, ‘Hoşgeldiniz ilk ürünü tarayın lütfen’ birlikte çalışır ve doğal olmamış ses.

Belirsiz Sayı Okumalarından Kaçın. ‘$4.50’ yerine ‘dört dolar ve elli sent’ yazın - bazı TTS sistemleri bunu ‘dolar 4 nokta 50’ veya ‘dört nokta beş sıfır dolar’ olarak okuyabilir. Özellikle fiyatlar, miktarlar ve koridor numaraları için sayıların nasıl okunmasını istediğiniz konusunda açık olun.

Yaş Doğrulama Komut Dosyaları Her Şey Üzerinde Netlik Gerektirir. Bu bildirimler uyum iş akışlarını tetikler. ‘Mağaza çalışanı bu ürün için yaşınızı doğrulamalı. Lütfen bekleyin.’ gibi komut dosyaları uzlaşılmaz, yetkili ve gereksinimi isteğe bağlı sesler yapacak yumuşatma dilinden özgür olmalı.

Standart Kendi Kasa Bildirimi Kitaplığı Kategorileri:

KategoriÖrnek BildirimlerTipik Sayı
Karşılama ve Tarama’Hoş geldiniz. Lütfen ilk ürünü tarayın.‘3-5
Ambalaj Alanı’Lütfen ürünü ambalaj alanına yerleştirin.’ / ‘Ambalaj alanında beklenmeyen ürün.‘8-12
Ağırlık Uyarıları’Ambalaj alanından tüm ürünleri kaldırın.’ / ‘Ürün kaldırıldı - lütfen yeniden tarayın.‘4-6
Ödeme Bildirimleri’Lütfen ödeme yöntemini seçin.’ / ‘Lütfen kartınızı girin.’ / ‘Lütfen kartınızı dokunun.‘10-15
Sadakat ve Kuponlar’Sadakat kartınız veya kuponlarınız var mı?’ / ‘Sadakat kartı kabul edildi.‘4-6
Yaş Doğrulaması’Bu ürün yaş doğrulaması gerekir. Bir ekip üyesi sizi yardımcı olacaktır.‘2-3
Hata ve Geçersiz Kılma’Lütfen yardım için bekleyin.’ / ‘Bir ekip üyesi bilgilendirilmiştir.‘5-8
İşlem Tamamlandı’İşlem onaylandı. Lütfen makbuzunuzu alın.‘3-4
Mağaza BelirliMevsimsel karşılamalar, promosyon mesajları, açılış bildiriminde mağaza adı5-20
Kapalı/Boş’[Mağaza Adı]‘a hoş geldiniz. Hazır olduğunuzda ürünü tarayın.‘2-4

Dil başına Toplam: tam bir tek şerit kitaplığı için tipik olarak 80-150 klip.

Perakende Kiosk Sesi için WCAG 2.1 Erişilebilirlik Uyumu

Kendi kasa terminalleri ABD’de ADA kapsamında ve AB’de (Avrupa Erişilebilirlik Yasası, perakende dijital arayüzler için Haziran 2025 itibariyle etkili) ve İngiltere’de eşdeğer erişilebilirlik mevzuatı altında genel yerleşim yerleridir. WCAG 2.1, çoğu erişilebilirlik denetiminin kiosk sesi değerlendirmek için kullandığı teknik standardı sağlar.

Kendi Kasa Sedasıyla İlgili WCAG 2.1 Başarı Kriterleri:

1.1.1 Metin Olmayan İçerik (Düzey A): Kiosk ekranındaki her görsel bildirimin eşdeğer bir sesli hali olmalıdır. Ekran ‘ambalaj alanına ürün yerleştir’ görsel ipucu olarak gösteriyorsa, ses bildirimi de oynatılmalıdır. Yalnızca görsel bildirimler bu kriteri karşılamaz.

1.3.3 Duyusal Özellikler (Düzey A): Talimatlar yalnızca görsel özelliğine bağlı olamaz. ‘Yeşil düğmeyi basın’ karşılık gelen ses talimatı olmadan başarısız olur; ‘Tamam etiketli yeşil düğmeyi basın’ ses eşdeğeriyle başarılı olur.

1.4.2 Ses Kontrolü (Düzey A): Ses 3 saniyeden fazla otomatik olarak oynatılırsa, kullanıcı duraklatabilmelidir, durdurabilmelidir veya ses seviyesini kontrol edebilmelidir. Kendi kasa kioskunda bu, tipik olarak terompet ekranı arabirimine ses seviyesi kontrol düğmesi sağlayarak karşılanır.

1.4.3 Kontrast (Ekran Metni İçin, Düzey AA): Sese özgü değil, ancak ses bildirimlerine eşlik eden entegre kiosk arayüzüyle ilgilidir.

2.4.6 Başlıklar ve Etiketler (Düzey AA): Ekran okuyucu bitişik - kiosk özel dinleme için kulaklık soketini ortaya çıkardığında uygulanır, ADA uyumlu ATM tarzı kiosklar sıklıkla yapması.

Pratik Erişilebilirlik Üretim Gereksinimleri:

  • Minimum Konuşma Clarity: AI ses çıkışı, kiosk’taki yerleşik hoparlör aracılığıyla 65dB çevresel gürültüde Değiştirilmiş Rhyme Testi veya benzer şekilde %90’ın üzerinde sözcük anlaşılabilirliği puanı almalı
  • Konuşma Hızı: Talimat bildirimleri için 120-150 sözcük/dakika; daha hızlı gitmek bilişsel işlem farklılıkları olan alışveriş yapanlar için netliği kötüleştirir
  • Ses: -18 LUFS tüm kliplerde tümleştirilmiş olarak tutarlı; bildirimler arasında ses değişikliği işitme engelli kullanıcıları kafa karıştırır
  • Özel Dinleme Bağlantı Noktası: Kulaklık soketine sahip yüksek trafikli kiosklar standart kulaklık empedans seviyelerinde temiz ses üretmeli - hoparlör çıkışından farklı ses hedefi

Kamu terminalleri için AI ses erişilebilirlik uyumu hakkında daha derinlemesine arka plan için, ATM Lobi Bildirimler için AI Ses Üreteci kılavuzu, finansal kioskların karşılaştığı aynı erişilebilirlik zorlukları için çakışan ADA ve WCAG gereksinimlerini kapsar.

Çok Dilli Kendi Kasa Sesi: Walmart, Kroger, Carrefour Modelleri

Çok dilli AI kiosk sesini en belirgin şekilde konuşlandıran üç perakende zinciri, çok dilli zorluk için üç farklı yaklaşımı temsil eder.

Walmart ABD: İngilizce + İspanyolca

Walmart ABD kendi kasa terminalleri yüksek Hispanic nüfuslu pazarlarda İngilizce ve İspanyolca bildirim setleri sunarlar. Dil seçimi, işlemin başında (‘Dili Seç’ bildirimi dokunmatik ekran düğmesiyle) veya alışveriş yapanın sadakat hesabına bağlı kalıcı dil tercihi aracılığıyla gerçekleşir.

Walmart’ın İngilizce ses persona tarafsız genel Amerikan kadın sesi - ABD perakendede en tanınabilir kendi kasa seslerinden biri. İspanyol sürümü benzer bir kayıt tutar ancak tarafsız Latin Amerika İspanyolca vurgusunu kullanır (farklı İspanyolca konuşan backgroundlardan kişiler için dışlayıcı hissettirebilecek bölgesel özgüllüğü önlemek).

Teknik Uygulama: Walmart’daki NCR FastLane terminallerinde, iki dil kitaplığı ayrı dizinlerde depolanır (örn. /prompts/en/ ve /prompts/es/) ve POS uygulaması oturum başında ayarlanan dil tercih bayrağına dayalı olarak dizin yollarını değiştirir.

Kroger ABD: İngilizce + Bölgesel Hususlar

Kroger’in kendi kasa konuşlandırmaları ekranları (King Soopers, Fred Meyer, Ralphs, Harris Teeter) İngilizceyi birincil dil olarak kullanır ve ilgili pazarlarda bazı İspanyolca desteği. Kroger’in yaklaşımı tarihsel olarak Walmart’tan daha sıcak, daha konuşmacı bir ses tonu vurgulamıştır - marka’nın topluluğu- bakkal konumlandırmasını yansıtır.

Kendi kasa ağı genelinde ‘Kroger Sesi’ yeterince belirgin olarak, zincir ses tutarlılığına marka farklılaştırıcı olarak yatırım yaptı - tam olarak AI ses klonlaması destekleyen kullanım durumu, markanın belirli bir ses persona’yı sahip ve çoğaltmasına izin verir.

Carrefour: Fransızca, Arapça ve Pazar Belirli Diller

Carrefour 35+ ülkede faaliyet gösterir ve gerçekten çok dilli bildirim kitaplıkları gerektiren kendi kasa konuşlandırmaları. Fransızca temel dildir; Arapça, kuzey Afrika pazarları için ikincil dildir (Fas, Tunus, Cezayir, Mısır); İspanya ve Latin Amerika bölümleri için İspanyolca kullanılır.

Carrefour’daki teknik karmaşıklık önemlidir: Fas Carrefour’daki tek bir Diebold Nixdorf TP7 terminali, hedef müşteri demografisine bağlı olarak Fransızca + Fas Arapçası (Darija) veya Fransızca + Modern Standart Arapçası (MSA) gerektirebilir ve iki Arapça çeşit yeterince farklı, ayrı bildirim kitaplıkları gereklidir.

Yapay Zeka Ses Üretimi bunu destekler, Carrefour’un ses ekibinin Darija ve MSA için ayrı yetenek işe almadan aynı komut dosyası bildiriminden ayrı Arapça varyant kitaplıkları oluşturmasına izin verir.

Dil Değiştirici Mimarisi

Çok dilli kiosk sesi mimarisinin iki hakim yaklaşımı:

YaklaşımNasıl ÇalışırHangi Durum İçin En İyi
Oturum Başında Dil SeçimiAlışveriş yapan ilk ekranda dili seçer; oturum o dilin kitaplığından oynatılırYüksek çeşitli mağazalar; açık dil tercihi
Kalıcı Sadakat TercihiDil sadakat hesabına bağlı; kart kaydırılmasında otomatik seçimDüzenli Alışveriş Yapanlar; bilinen müşteriler için yüksültü azaltma
Paralel Ses (Her İki Dil)Bildirim başına bir bileşik klip oluştur: İngilizce + duraklatma + İspanyolcaOturum sırasında dizinler değiştirilemeyen eski denetleyiciler
Dinamik TTSCihazda veya API tabanlı TTS canlı olarak her bildirimi üretirEn yüksek esneklik; düşük gecikmeli TTS motoru ve ağ erişimi gerektirir

Bitişik konuşlandırma bağlamı için - müşterilerin önceden dil seçmediği sürücü aralığı sipariş yerlerinde AI tarafından oluşturulan ses - bkz. Drive Thru Siparişleri için AI Ses Üreteci kılavuzu, dil algılaması ve dış hoparlör sistemleri için dinamik değiştirici mantığını kapsar.

Teknik Üretim İş Akışı: Perakende Bildirim Kitaplığı Oluşturma

AI ses üreteci kullanarak tam kendi kasa bildirimi kitaplığı oluşturmaya yönelik üretim iş akışı şöyledir:

Adım 1 - Donanım Spesifikasyonu Denetimi. NCR Voyix veya Diebold Nixdorf saha mühendisinden ses entegrasyon belgesini isteyin. Gerekli örnek hızı, bit derinliği, mono/stereo gereksinimi, kod (bu sistemler için her zaman WAV PCM) ve bildirim kitaplığı dizini için dosya adlandırma kuralını edinin.

Adım 2 - Tam Bildirim Komut Dosyası Taslağı. POS uygulamasının tetikleyebileceği her olayı listeyin. Çoğu NCR ve Diebold Nixdorf konuşlandırması üreticiden bir taban bildirim kitaplığı içerir. Bunu referans olarak edinin. Mağazaya özgü bildirimler (mağaza adı, sadakat programı, özel etiket ödeme yöntemi adları) ekleyin.

Adım 3 - Ses Persona Parametrelerini Tanımlayın. Cinsiyet kaydını, konuşma hızını (talimat bildirimleri için 130-145 WPM), tonu ve aksanı ayarlayın. Mevcut marka sesini eşleştiriyorsanız, ses klonlaması için bir referans kayıt örneğini getirin.

Adım 4 - Toplu Olarak Oluşturun. Tam bildirim komut dosyası listesini girin, ses profilini seçin, çıkış biçimini spesifikasyona göre ayarlayın. Tüm klipleri bir toplu işlemde, tüm dosyaların tutarlı ses ayarlarını sağlamak için. Farklı ayarlarla ayrı oturumlar klipleri oluşturmayın - klip arasında ses ve prosodi değişikliği üretimde duyulur.

Adım 5 - Ses Normalleştir. -18 LUFS entegreli ve -3 dBTP pik sınırını hedefleyin. Toplu işteki tüm kliplere uygulayın. Araçlar: FFmpeg’de Loudnorm veya özel bir ses normalleştirici. Pik normalleştirmesini kullanmayın - algılanan ses tutarsız üretir.

Adım 6 - Sessizlik Tamponları Ekleyin. 50-100ms sessizlik ön; 200ms sessizlik arka. Çoğu kiosk denetleyicisi kısa bir ön sessizlik arabelleği olmadan sesin başını klip olur. Arka sessizlik bir sonraki bildirim tetiklendiğinde tıklama eseri önler.

Adım 7 - Bildirim Kodlarına Yeniden Adlandırın. Denetleyici adlandırma kuralına göre dosyaları yeniden adlandırın. Dosya adı ve beklenen olayı kodu arasında uyuşmazlık, bildirimin sessizlik oynatması anlamına gelir - özel bildirim kitaplığı konuşlandırmalarında en yaygın arıza modu.

Adım 8 - Doğrulama Testi. Bildirim kitaplığını test terminaline konuşlandırın. Hata durumları (ambalaj alanı uyuşmazlığı, kart reddedilmesi, yaş doğrulama tetiklemesi) içeren tam işlem akışından geçin. Her bildirimin doğru oynadığını, doğru zamanda, doğru seste doğrulayın.

Adım 9 - Ses Profili Ayarlarını Belgeleyin. Kullanılan her parametreyi kaydedin: ses modeli, konuşma hızı, ses ayarı, çıkış biçimi. Altı ay sonra komut dosyası güncellemesi bir klip yeniden oluşturmayı gerektirdiğinde, orijinal ayarları eşleştirmek yeni klipin varolan kitaplığla aynı sesle bulunmasını sağlar.

Aynı toplu üretim mantığının otomatlı ses bildirimleri (benzer ancak daha basit kiosk sesi kullanım durumu) nasıl uygulandığı için bağlam, Satış Makinesi için AI Ses Üreteci kılavuzuna bakınız.

Perakende Kiosk Üretimleri için AI Ses Platformları Karşılaştırması

PlatformWAV İhraçToplu Komut DosyasıSes KlonlamaÇevrimdışıSSML Destek
ElevenLabsEvet (ücretli)API AracılığıylaEvet (ücretli)HayırSınırlı
MurfEvet (ücretli)API AracılığıylaSınırlıHayırEvet
Azure TTSEvetEvet (SSML)Özel Sinir SesiHayırTam
Google Cloud TTSEvetEvetÖzel SesHayırTam
VoxBoosterEvetEvetEvet (yerel)Evet (Windows)Evet

Perakende Konuşlandırması için Anahtar Kriterleri:

Çevrimdışı/Yerel İşleme: Perakende arka ofis ortamlarındaki kiosk terminalleri PCI-DSS uyum nedenlerine bağlı olarak sınırlı giden İnternet erişimine sahip olabilir. Bulut API çağrıları olmadan bir üretim iş istasyonunda çalışan yerel bir ses üreteci uyum konuşmalarını ortadan kaldırır.

Referans Kaydından Ses Klonlama: Perakendecinin marka sesini tanımlayan mevcut bir ses oyuncusu kaydı varsa, yeni bir genel sesi seçmek yerine bu referansı klonlamak marka özkaynaklarını korur. Klonlanmış ses, aynı ses kimliğinden temelde sınırsız tüm yeni ve güncellenmiş bildirimleri üretir.

Tutarlı Ayarlarla Toplu İhraç: Web UI aracılığıyla 120 klip tek tek oluşturmak pratik değildir. Kilitli ses ayarları olan bir komut dosyasından toplu işleme kitaplıktaki tüm kliplerin tutarlı olmasını sağlar.

Telaffuz Kontrolü için SSML: Perakende bildirimler sıklıkla TTS motorlarının beklenmedik şekilde okuyabileceği ürün kodları, fiyat biçimleri ve sadakat programı adları içerir. SSML, telaffuz açıkça belirtemenize izin verir: <say-as interpret-as="currency">$4.50</say-as> veya <say-as interpret-as="cardinal">4</say-as> items.

Ses klonlama iş akışları (özellikle mevcut marka sesli kaydını eşleştirme) için, Voiceover için Ses Klonlama kılavuzu yöntemi, kalite kıyaslamalarını ve üretim dereceli klonlama için teknik gereksinimleri kapsar.

Perakende Kiosk Ses Üretiminde Yaygın Hatalar

Stereo’da Oluşturma. Her ana kendi kasa denetleyicisi - NCR, Diebold Nixdorf ve çoğu ikincil OEM’ler - mono WAV gerektirir. Stereo dosyalar ya reddedilir ya da yanlış oynatılır. Başından mono oluşturun; denetleyicinin karma indirmesine bağlı olmayın.

Ses Normalleştirmesi Olmadan Doğrudan Tüketici TTS Seslerini Kullanma. Tüketici TTS platformları yaklaşık -14 LUFS’da kulaklık veya hoparlör oynatması optimize eder. Perakende kiosk hoparlörleri farklı akustik ortamlardır. -18 LUFS sesine normalleştirmesi olmadan, bildirimler kitaplık genelinde tutarsız şekilde yüksek olur.

Ön Sessizlik Tamponu Atlanması. Olay ateşinde hemen ses tetikleyen denetleyiciler örneği sıfırda başlayan bir bildirimin ilk hecesini klip olur. 50-100ms başlık sessizliği bunu önler.

Güncelleme Oturumları Arasında Farklı Ses Ayarları. Ocak’ta ilk kitaplık oluşturma ve Eylül’de biraz farklı perde veya hız ayarlarında 3 bildirimi güncelleme üretimde algılanabilir tutarsızlık oluşturur. Ayarları gün birinde kilitledikten ve belgeleyin.

Uyum Bildirimlerinde Yumuşak Dil. Yaş Doğrulama ve Kimlik Kontrolü Bildirimleri Yasal Uyum İçin Vardır. Bunları yumuşatma (‘Kimlik Göstermek Zorunda Kalabilirsiniz’) alışveriş yapanları kafa karıştıran ve potansiyel sorumluluk oluşturan belirsizlik oluşturur. Bu bildirimler net, doğrudan ve açık olmalı.

Boş/Karşılama Döngüsü Yok Sayma. Terminal alışveriş yapan bekliyorken oynatılan boş durum bildirimi, mağazadaki en sık duyulan ses parçalarından biridir. Tonu, kasa deneyiminin ilk izlenim ayarlar. Bunu bir sonraki düşünce olarak tedavi etmeyin.

Kurumsal perakende konuşlandırmaları yerine içerik yaratıcılara yönelik ses üreticiler için, İçerik Yaratıcıları için Ses Değiştirici kılavuzu akış ve sosyal medya kullanım durumları için farklı kalite ve iş akışı gereksinimlerini kapsar.

Sıkça Sorulan Sorular

Kendi Kasa AI Sesi Nedir?

Kendi Kasa AI Sesi, perakende kioskların içine gömülü bir metinden sese dönüştürme sistemidir ve alışveriş yapanları tarama ve ödeme işleminde rehberlik eder. Walmart, Kroger ve Carrefour kendi kasa şeritleri - ‘Lütfen ürünü ambalaj alanına yerleştirin’, ‘Ambalaj alanında beklenmeyen ürün’, ‘Lütfen kartınızı girin’ - temel ve perakende zincirindeki her terminalde tutarlı sentetik sesli persona kullanan sesleri üretir.

Büyük Perakendecilerde Kendi Kasa Seslerini Çalıştıran Donanım Nedir?

NCR Voyix (eski NCR) ve Diebold Nixdorf iki hakim kendi kasa OEM’sidir. NCR’nin FastLane ve SelfServ hatları, Windows veya Linux tabanlı bir denetleyici tarafından yönlendirilen yerleşik bir hoparlör aracılığıyla sesi oynatır. Diebold Nixdorf’un BEETLE ve TP Application sistemleri benzer bir mimariye sahiptir. Her ikisi de denetleyiciye yüklenmiş bir bildirim kitaplığında bulunan WAV ses dosyalarını kabul eder - AI ses üreteci bu dosyaları üretir.

Kendi Kasa Sesini WCAG 2.1 Uyumlu Hale Nasıl Getiririm?

WCAG 2.1 Başarı Kriteri 1.4.2 (Ses Kontrolü) ve 1.3.3 (Duyusal Özellikler) en ilgili kontrol noktalarıdır. Uygulamada: her görsel bildirimin eşdeğer bir ses bildirimi olması gerekir, ses kullanıcı kontrolü olmadan 3 saniyeden fazla otomatik olarak oynatılamaz ve ses tipik kiosk ses seviyelerinde - genellikle 0.5m’de 65-75 dB SPL - anlaşılabilir olmalıdır. Açık, tarafsız aksanı, 130-150 WPM konuşma hızını ve tutarlı ses -18 LUFS ile kullanın.

Bir AI Sesi Çok Dilli Kendi Kasa Kioskunu Kapsayabilir Mi?

Tek bir AI ses motoru aynı ses profilinden birden fazla dilde metin oluşturabilir, ancak her dil modeli yerel konuşma desenlerine eğitildiğinden çıkışlı ses persona dil başına farklılık gösterecektir. Diller arasında marka tutarlılığı için hedef register tanımlayın (sıcak, tarafsız, biraz resmi) ve her dilin çıkışını dağıtımdan önce bu profile karşı değerlendirin. Walmart ABD mağazaları tipik olarak İngilizce + İspanyolca çalıştırır; Carrefour Fransa yüksek trafikli yerlerde Fransızca + Arapça çalıştırır.

NCR Voyix ve Diebold Nixdorf Kioskları Hangi Ses Formatını Kabul Eder?

Çoğu NCR Voyix kendi kasa sistemi 22.05 kHz veya 44.1 kHz mono’da 16-bit PCM WAV’yi kabul eder. Diebold Nixdorf BEETLE ve TP Application hatları tipik olarak eski bildirim kitaplıkları için 11.025 kHz veya 22.05 kHz’de 16-bit mono WAV ve mevcut nesil sistemler için 44.1 kHz’de kullanır. Her zaman saha mühendisinden ses entegrasyon spesifikasyonunu isteyin - format uyuşmazlığı özel ses bildirimlerinin başarısız olmasının en yaygın nedenidir.

Tipik Kendi Kasa Kioskları Kaç Ses Bildirimine İhtiyaç Duyar?

Tek bir şerit terminali için standart kendi kasa bildirimi kitaplığı, tarama bildirimleri, ambalaj alanı uyarıları, ödeme akışı, sadakat programı bildirimleri, yaş doğrulaması, hata kurtarması ve mağazaya özel mesajları kapsayan 80-150 ayrı WAV klibini içerir. 500 mağaza, mağaza başına 4 şerit ve 2 dil içeren bir zincirde, bu potansiyel olarak 1.2 milyon ayrı ses dosyasıdır - yapay zeka toplu üretimi bu ölçekte üretim ve bakımın tek pratik yoludur.

VoxBooster Perakende Kiosk Ses Üretimine Uygun Mu?

VoxBooster Windows’ta çalışır ve özel AI ses klonlamasıyla yüksek kaliteli WAV çıkışı üretir - kiosk bildirim kitaplığı genelinde tutarlı marka ses persona oluşturmak için faydalıdır. İş akışı, perakende ses ekiplerinin yaptıkları işlemle eşleşir: referans sesi kaydeder veya klonlar, komut dosyası listesinden tüm bildirimleri toplu olarak oluşturur, gerekli örnek hızında mono WAV olarak dışa aktarır. Ücretsiz deneme tam kiosk bildirimi kitaplığı üretimine karışmadan önce ses kalitesini doğrulamak için yeterli çıkışı kapsar.

Sonuç

Kendi Kasa AI Sesi, sadece bir teknoloji seçimi değil, bir üretim disiplinidir. Walmart, Kroger ve Carrefour’da alışveriş yapanların duyduğu ‘Lütfen ürünü ambalaj alanına yerleştirin’ sesi, belirli donanım gereksinimleri, erişilebilirlik standartları ve marka sesi yönergeleri göz önüne alınarak tasarlanmış ve üretilmiştir ve binlerce şerit ve birden fazla dilde bunu korumak, ad hoc stüdyo oturumlarının ölçekte koruyamayacağı bir iş akışı gerektirir.

Yapay zeka ses üreticileri, her kısıtlamayı ele alır: NCR Voyix ve Diebold Nixdorf donanım gereksinimleri (doğru örnek hızında 16-bit mono WAV), WCAG 2.1 uyumu (tutarlı ses, anlaşılabilir konuşma hızı, tüm görsel bildirimlerin ses eşdeğerleri) ve çok dilli konuşlandırmalar (aynı ses profilinden dil başına bir toplu iş). İş akışı - komut dosyası, oluştur, normalleştir, adlandır, doğrula - ad hoc stüdyo oturumlarının yapamadığı şekilde tekrarlanabilir ve denetlenebilir.

VoxBooster, Windows üzerinde yapay zeka ses üretimi ve özel ses klonlamasını işler, tanımlanmış bir marka ses persona’dan tam bir perakende bildirim kitaplığı oluşturmayı pratik hale getirir. PCI-DSS API uyum sorularını önleyen aynı yerel, çevrimdışı iş akışı, 3 haftalık stüdyo rezervasyonu yerine bir öğleden sonra bildirim güncellemelerinin anlamına da gelir. Ücretsiz 3 günlük deneme - kredi kartı gerekli değil.

VoxBooster'ı dene — 3 günlük ücretsiz deneme.

Gerçek zamanlı ses klonlama, ses tahtası ve efektler — zaten konuştuğun her yerde.

  • Kart gerekmez
  • ~30ms gecikme
  • Discord · Teams · OBS
3 gün ücretsiz dene