소매점 셀프 체크아웃 키오스크용 AI 음성 생성기

셀프 체크아웃 AI 음성은 이제 현대 소매점의 청각적 얼굴입니다. Walmart, Kroger 또는 Carrefour 셀프 체크아웃 레인에서 고객이 ‘상품을 담는 곳에 놓아주세요’를 들을 때마다, 그 음성은 텍스트 음성 변환 시스템에 의해 생성되었습니다. 점점 더 이 시스템은 고용된 성우의 스튜디오 녹음이 아닌 AI 음성 생성기입니다. 이 가이드는 소매업체가 NCR Voyix 및 Diebold Nixdorf 하드웨어에서 셀프 체크아웃 음성을 구성하는 방법, WCAG 2.1 키오스크 오디오 접근성 준수에 실제로 필요한 것, 다국어 프롬프트 라이브러리가 어떻게 구조화되는지, 그리고 체인의 2,000개 레인에서 작동하는 브랜드 일관된 음성 페르소나를 생성하는 방법을 설명합니다.

요약

셀프 체크아웃 AI 음성은 Walmart, Kroger, Carrefour 및 대부분의 주요 체인의 키오스크에서 오디오 프롬프트를 구동합니다. ‘상품을 담는 곳에 놓아주세요’는 가장 인식 가능한 예입니다.
NCR Voyix 및 Diebold Nixdorf가 지배적인 OEM입니다. 둘 다 터미널 컨트롤러에 로드된 WAV 프롬프트 라이브러리를 사용합니다.
WCAG 2.1은 모든 시각적 프롬프트에 오디오 동등물이 있어야 하고, 키오스크 볼륨에서 명확하며, 사용자가 제어해야 합니다.
다국어 키오스크(Walmart의 영어 + 스페인어, Carrefour의 프랑스어 + 아랍어)는 동일한 음성 프로필에서 언어별 별도 프롬프트 라이브러리가 필요합니다.
AI 음성 생성기는 스크립트에서 배치 생성으로 개정당 스튜디오 세션을 대체합니다. 체인 규모에서는 중요합니다. 단일 프롬프트 업데이트가 수천 개의 터미널에 영향을 미칩니다.
VoxBooster는 Windows용 소매 오디오 워크플로우의 음성 복제 및 WAV 배치 생성을 처리합니다.

셀프 체크아웃 AI 음성은 실제로 무엇인가

소매 키오스크 AI 음성은 고객을 스캔 및 결제 거래를 통해 안내하는 오디오 프롬프트를 생성하는 텍스트 음성 변환 엔진을 말합니다. ‘셀프 체크아웃 AI 음성’이라는 문구는 전체 스택을 포함합니다: 음성 페르소나 자체(톤, 억양, 성별 레지스터), 프롬프트 라이브러리(시스템이 재생할 수 있는 모든 가능한 스크립트 라인), 오디오 파일 형식(컨트롤러가 허용하는 WAV 사양) 및 어떤 프롬프트가 언제 실행되는지 결정하는 논리입니다.

셀프 체크아웃 터미널의 일반적인 프롬프트 이벤트 시퀀스는 대략 다음과 같이 실행됩니다:

“환영합니다. 첫 번째 상품을 스캔해주세요.”
“상품을 담는 곳에 놓아주세요.”
“예상치 못한 상품이 담는 곳에 있습니다.” (무게 불일치 감지)
“쿠폰이나 충성 카드가 있으신가요?”
“결제 방법을 선택해주세요.”
“카드를 삽입해주세요.” / “카드를 터치해주세요.”
“카드를 제거해주세요.”
“거래 승인되었습니다. 영수증과 상품을 가져가세요.”

이러한 각 라인은 터미널의 프롬프트 라이브러리에 있는 별도의 WAV 파일입니다. 완전한 라이브러리(모든 오류 상태, 나이 확인, 제품 조회, 무게 불일치 알림, 직원 오버라이드 프롬프트 및 종료 메시지 포함)는 언어당 레인 유형당 80-150개의 개별 클립을 실행합니다.

500개 매장, 매장당 4개 레인, 2개 언어가 있는 소매점을 곱하면 생성, 유지 및 업데이트할 최대 1.2백만 개의 개별 오디오 파일을 갖게 됩니다. 이것이 AI 배치 생성이 엔터프라이즈 소매 오디오의 스튜디오 녹음을 대체한 이유입니다. 새 규정이 업데이트된 나이 확인 스크립트를 요구하면, AI 시스템은 영향을 받은 클립을 1시간 내에 재생성합니다. 스튜디오 세션은 며칠과 수천 달러가 소요됩니다.

‘상품을 담는 곳에 놓아주세요’ 뒤의 음성

영어권 소매 세계에서 가장 인식 가능한 셀프 체크아웃 음성 프롬프트는 ‘상품을 담는 곳에 놓아주세요’입니다. 2000년대와 2010년대 대부분 동안, 그 음성은 기록된 인간이었습니다. 일반적으로 하드웨어 OEM(NCR 또는 Diebold Nixdorf)이나 대형 소매 체인에서 자신의 브랜드 음성을 녹음하기 위해 고용한 전문 성우입니다.

예를 들어, Walmart 미국 셀프 체크아웃 음성은 ‘담는 곳에 예상치 못한 상품’이라는 문구가 밈 문화에 들어올 정도로 충분히 인식되었습니다. 이는 이 프롬프트를 마주치는 고객 수와 오디오 브랜드 인식의 강도를 나타내는 신호입니다.

여러 요인이 녹음된 음성에서 AI 생성 음성으로의 전환을 주도했습니다:

업데이트 빈도. 소매 POS 시스템은 정기적으로 스크립트를 업데이트합니다. 새로운 결제 방법, 충성 프로그램 리브랜딩, 주류나 담배 구매를 위한 규제 언어, 계절 메시지. 이전에는 모든 스크립트 변경이 스튜디오 예약이 필요했습니다. AI 생성은 이를 몇 분으로 줄입니다.

글로벌 규모. Carrefour와 같은 국제 소매업체는 수십 개 국가 및 수십 개 언어에서 운영합니다. 시장당 언어별로 원어민 음성 재능을 고용하고, 세션 간 일관성을 유지하고, 이 규모에서 재능 계약을 관리하는 것은 운영상 복잡합니다. AI 음성 생성은 정의된 음성 프로필에서 모든 언어를 처리합니다.

브랜드 일관성. 5년에 걸쳐 2,000개 매장에 셀프 체크아웃을 배포하면서 체인이 확장될 때 다양한 녹음 세션을 사용하는 소매업체는 결국 자산 간에 청각적으로 불일치하는 음성을 갖게 됩니다. 일부는 따뜻하고, 일부는 더 기계적이며, 일부는 다른 억양을 가집니다. 정의된 단일 프로필의 AI 음성 생성은 터미널 1과 터미널 4000에서 동일한 출력을 생성합니다.

프롬프트당 비용. 스튜디오 요율로, 2개 언어의 120개 클립 라이브러리는 수천 달러입니다. AI 생성은 음성 프로필이 설정된 후 새 프롬프트의 한계 비용을 거의 0에 가깝게 줄입니다.

NCR Voyix 셀프 체크아웃: 하드웨어 및 오디오 아키텍처

NCR Voyix(이전 NCR 공사, 2024년 리브랜딩)는 Walmart, Kroger, Home Depot 및 미국의 대부분의 주요 식료품점 체인에서 찾을 수 있는 FastLane, SelfServ 90 및 EASY CHECKOUT 제품 라인을 생산합니다. 이러한 시스템이 오디오를 처리하는 방식을 이해하는 것은 사용자 지정 키오스크 음성을 생성하는 모든 사람에게 필수적입니다.

NCR FastLane 및 SelfServ 셀프 체크아웃 유닛은 Windows(현재 세대 하드웨어에서는 일반적으로 Windows 10 IoT Enterprise) 또는 이전 유닛의 Linux 기반 OS를 실행합니다. 오디오는 POS 애플리케이션 소프트웨어(NCR의 Emerald POS 또는 SCOT(Self-Checkout Solution) 플랫폼)에 의해 처리되며, 이는 터미널의 로컬 프롬프트 라이브러리 디렉토리에서 WAV 파일을 재생합니다.

NCR 시스템용 오디오 사양:

NCR 라인	샘플 레이트	비트 깊이	채널	형식
FastLane (현재 세대)	44.1kHz	16비트	모노	WAV PCM
SelfServ 90	22.05kHz 또는 44.1kHz	16비트	모노	WAV PCM
EASY CHECKOUT	44.1kHz	16비트	모노	WAV PCM
레거시 SCOT 유닛	11.025kHz 또는 22.05kHz	16비트	모노	WAV PCM

NCR 터미널의 프롬프트 라이브러리는 각 WAV 파일 이름이 POS 소프트웨어 구성의 프롬프트 이벤트 코드에 해당하는 디렉토리 구조로 구성됩니다. 명명 규칙은 소매업체 맞춤화에 따라 다릅니다. Kroger 배포는 동일한 NCR 하드웨어에서도 Walmart 배포와 다른 프롬프트 코드를 사용할 수 있습니다.

주요 생성 제약: NCR 셀프 체크아웃 키오스크의 스피커 시스템은 밀폐된 플라스틱 인클로저의 3-5와트 드라이버입니다. 고충실도 스피커가 아닙니다. 과도하게 큰 프롬프트는 왜곡되고, 너무 조용한 프롬프트는 준수를 실패합니다. -18 LUFS 통합, -3 dBTP(순 피크) 최대값으로 음량 사양을 목표로 합니다.

Diebold Nixdorf 셀프 체크아웃: BEETLE 및 TP Application 시스템

Diebold Nixdorf(이전 Wincor Nixdorf)는 주로 Carrefour의 유럽 운영을 포함한 유럽 식료품점 체인과 일부 미국 전문 소매업체에서 발견되는 BEETLE 및 TP Application 셀프 체크아웃 라인을 생산합니다. 그들의 아키텍처는 NCR과 유사하지만 다른 오디오 형식 선호도가 있습니다.

BEETLE POS 시스템은 Windows에서 실행되며 Diebold Nixdorf의 Storelogix 또는 ProFIT 애플리케이션 플랫폼을 사용합니다. 오디오 프롬프트는 터미널의 미디어 라이브러리로 WAV 파일로 로드됩니다. 현재 세대 BEETLE 시스템은 44.1kHz 16비트 모노 WAV를 수락합니다. 레거시 유닛은 종종 11.025kHz 또는 22.05kHz를 요구했습니다.

TP Application 터미널(TP6 및 TP7 라인)은 동일한 WAV 기반 프롬프트 라이브러리 시스템을 사용합니다. 높은 트래픽 유럽 식료품점 체인에서 일반적인 TP7 제품 라인은 현재 펌웨어에서 44.1kHz 오디오를 지원합니다.

Diebold Nixdorf 시스템용 오디오 사양:

시스템	샘플 레이트	비트 깊이	채널	형식
BEETLE POS (현재)	44.1kHz	16비트	모노	WAV PCM
BEETLE POS (레거시)	11.025-22.05kHz	16비트	모노	WAV PCM
TP6 Application	22.05kHz 또는 44.1kHz	16비트	모노	WAV PCM
TP7 Application	44.1kHz	16비트	모노	WAV PCM

Carrefour 관련 참고: Carrefour의 유럽 셀프 체크아웃 배포는 프랑스어와 영어(관광객이 많은 지역용) 또는 프랑스어와 아랍어(북아프리카 매장용)를 실행합니다. 터미널당 프롬프트 라이브러리는 각 거래 시작 시 언어 선택 프롬프트가 있는 두 개의 언어 세트를 포함합니다. Diebold Nixdorf TP Application 시스템은 WAV 디렉토리를 교체하지 않고 Storelogix 구성의 언어 전환 논리를 통해 이를 처리합니다. 전체 다국어 라이브러리가 각 터미널에 있습니다.

셀프 체크아웃 음성 페르소나 구축

셀프 체크아웃 음성 페르소나는 음성 녹음 이상입니다. 고객이 결제 시점에 브랜드를 인식하는 방식을 형성하는 의도적인 음향 설계 결정입니다.

대부분의 대형 소매업체는 중립~따뜻한 레지스터의 음성을 선택합니다: 차갑지도 기계적이지도 않으며(이미 스트레스가 많은 순간에 마찰을 만듦), 과도하게 따뜻하거나 우연적이지도 않습니다(거래 맥락에서 맞지 않음). 성별 선택은 소매업체 및 시장에 따라 다릅니다. 미국 식료품점 체인은 역사적으로 여성 음성을 선호했습니다. 일부 유럽 체인은 남성 음성을 사용합니다. 현대 배포는 종종 둘 다 제공하고 터미널이 언어 선호도를 감지하고 해당 음성을 제공하도록 합니다.

생성 전에 정의할 음성 페르소나 속성:

성별 레지스터: 여성, 남성 또는 성별 중립(후자가 점점 더 보편화)
억양: 미국 체인의 경우 중립 일반 미국; 영국의 Received Pronunciation 또는 지역 중립; 비영어권 시장의 국가 표준 억양
음성 속도: 지시 프롬프트의 경우 130-145 WPM; 확인 메시지의 경우 약간 더 빠름(150 WPM)
톤: 따뜻하지만 선언적 - 의문적이거나 사과적이지 않음(“X를 해주세요”가 “혹시 X를 해주실 수 있을까요?”가 아님)
Prosodic 일관성: 모든 클립은 동일한 음량, 유사한 프레이징 속도 및 클립 간 지각할 수 있는 음향 환경의 차이가 없어야 합니다.

체인 규모의 일관성 문제:

단일 AI 음성 프로필은 정의에 따라 일관성 문제를 해결합니다. 생성 시점이나 스크립트를 편집한 사람과 관계없이 모든 프롬프트는 동일한 음성 모델에서 동일한 설정으로 나옵니다. 3년에 걸쳐 300개에서 1000개 매장으로 확장되는 체인의 경우, 3년차의 새로운 터미널 배포는 1년차의 원본 배포와 동일하게 들립니다.

이것이 브랜드 음성 AI 복제가 엔터프라이즈 소매 오디오에서 가장 높은 가치인 이유입니다. 음성을 한 번 정의합니다. 아마도 브랜드가 이미 소유한 기존의 고품질 성우 녹음에서 복제하여 그 복제된 프로필에서 무한정 새 프롬프트를 생성합니다.

자연스러운 AI 음성 출력을 위한 셀프 체크아웃 프롬프트 스크립트 작성

스크립트는 대부분의 DIY 키오스크 음성 프로젝트가 좋지 않은 결과를 생성하는 곳입니다. 셀프 체크아웃 프롬프트는 대화식 TTS와 다른 특정 언어 구조를 가집니다.

프롬프트를 짧고 명령적으로 유지하세요. “상품을 담는 곳에 놓아주세요”(7단어)가 올바릅니다. “담는 곳 저울에 상품을 놓도록 해주시겠어요?”는 TTS 품질과 사용자 경험 모두에 잘못되었습니다. 소매 UX 연구는 일관되게 더 짧은 프롬프트가 거래 시간과 고객 혼동을 감소시킴을 보여줍니다.

구두점을 시간 제어로 사용하세요. 쉼표는 대부분의 AI 음성 생성기에서 짧은 일시 중지를 만듭니다. “환영합니다. 첫 번째 상품을 스캔해주세요.”는 깔끔한 문장 구분을 생성합니다. 마침표 없이 “환영합니다 첫 번째 상품을 스캔해주세요”는 함께 실행되고 부자연스럽게 들립니다.

모호한 숫자 읽기를 피하세요. “$4.50”이 아닌 “4달러 50센트”라고 쓰세요. 일부 TTS 시스템은 “달러 4 포인트 50” 또는 “4 포인트 5 0 달러”로 읽을 수 있습니다. 특히 가격, 수량 및 통로 번호를 위해 숫자를 읽는 방법에 대해 명확하세요.

나이 확인 스크립트는 명확성이 무엇보다 중요합니다. 이러한 프롬프트는 준수 워크플로우를 트리거합니다. “매장 직원이 이 상품의 나이를 확인해야 합니다. 잠시 기다려주세요.”와 같은 스크립트는 명확하고 권위적이며 요구 사항이 선택적으로 들리도록 하는 완화 언어가 없어야 합니다.

표준 셀프 체크아웃 프롬프트 라이브러리 범주:

범주	예시 프롬프트	일반적인 개수
환영 및 스캔	”환영합니다. 첫 번째 상품을 스캔해주세요.”	3-5
담는 곳	”상품을 담는 곳에 놓아주세요.” / “예상치 못한 상품이 담는 곳에 있습니다.”	8-12
무게 알림	”담는 곳에서 모든 상품을 제거해주세요.” / “상품 제거됨 - 다시 스캔해주세요.”	4-6
결제 프롬프트	”결제 방법을 선택해주세요.” / “카드를 삽입해주세요.” / “카드를 터치해주세요.”	10-15
충성도 및 쿠폰	”충성 카드나 쿠폰이 있으신가요?” / “충성 카드가 승인되었습니다.”	4-6
나이 확인	”이 상품은 나이 확인이 필요합니다. 팀원이 도와드리겠습니다.”	2-3
오류 및 오버라이드	”도움을 기다려주세요.” / “팀원에게 알림이 전송되었습니다.”	5-8
거래 완료	”거래 승인되었습니다. 영수증을 가져가세요.”	3-4
매장별	계절 인사, 프로모션 메시지, 오프닝 프롬프트의 매장 이름	5-20
폐쇄/유휴	”[매장 이름]에 오신 것을 환영합니다. 준비되시면 상품을 스캔해주세요.”	2-4

언어당 합계: 일반적으로 완전한 단일 레인 라이브러리의 경우 80-150개 클립.

소매 키오스크 음성의 WCAG 2.1 접근성 준수

셀프 체크아웃 터미널은 미국의 ADA 및 EU(유럽 접근성 법, 소매점 디지털 인터페이스의 경우 2025년 6월 발효) 및 영국의 동등한 접근성 법규에 따른 공개 숙박시설입니다. WCAG 2.1은 대부분의 접근성 감사에서 키오스크 오디오를 평가하기 위해 사용하는 기술 표준을 제공합니다.

셀프 체크아웃 오디오와 관련된 WCAG 2.1 성공 기준:

1.1.1 텍스트가 아닌 콘텐츠(레벨 A): 키오스크 화면의 모든 시각적 프롬프트에는 동등한 오디오가 있어야 합니다. 화면에 “상품을 담는 곳에 놓기”가 시각적 큐로 표시되면, 오디오 프롬프트도 재생되어야 합니다. 시각만의 프롬프트는 이 기준을 충족하지 않습니다.

1.3.3 감각 특성(레벨 A): 지시 사항은 시각적 특성에만 의존할 수 없습니다. “녹색 버튼 누르기”는 해당 오디오 명령어가 없으면 실패합니다. “확인 레이블이 있는 녹색 버튼 누르기”는 오디오 동등물과 함께 성공합니다.

1.4.2 오디오 제어(레벨 A): 오디오가 3초 이상 자동으로 재생되면, 사용자가 일시 중지, 중지 또는 볼륨을 제어할 수 있어야 합니다. 셀프 체크아웃 키오스크에서 이는 일반적으로 터치스크린 인터페이스에 음량 조절 버튼을 제공하여 충족됩니다.

1.4.3 명도(화면 텍스트의 경우 레벨 AA): 오디오별이 아니지만 음성 프롬프트를 동반하는 통합 키오스크 UI와 관련이 있습니다.

2.4.6 제목 및 레이블(레벨 AA): 화면 판독기 인접 - 키오스크가 개인 청취용 헤드폰 잭을 노출할 때 적용되며, ADA 준수 ATM 스타일 키오스크는 종종 그렇습니다.

실제 접근성 생성 요구 사항:

최소 음성 명확성: AI 음성 출력은 키오스크의 내장 스피커를 통해 65dB 주변 소음에서 수정된 라임 테스트 또는 유사한 것에서 90% 이상의 단어 명확성을 달성해야 함
음성 속도: 지시 프롬프트의 경우 120-150 WPM; 더 빠르게 가면 인지 처리 차이가 있는 고객의 명확성이 저하됨
음량: 모든 클립에서 -18 LUFS 통합으로 일관됨; 프롬프트 간 음량 변화는 청각 장애인을 혼동시킴
개인 청취 포트: 헤드폰 잭이 있는 높은 트래픽 키오스크는 표준 헤드폰 임피던스 레벨에서 깨끗한 오디오를 생성해야 함. 스피커 출력과 다른 음량 목표

공개 터미널용 AI 음성 접근성 준수에 대한 더 깊은 배경은, ATM 로비 프롬프트용 AI 음성 생성기 가이드에서 금융 키오스크가 직면한 동일한 접근성 문제에 대한 겹치는 ADA 및 WCAG 요구 사항을 다룹니다.

다국어 셀프 체크아웃 음성: Walmart, Kroger, Carrefour 모델

가장 눈에 띄게 다국어 AI 음성 셀프 체크아웃을 배포하는 세 소매 체인은 다국어 문제에 대한 세 가지 다른 접근 방식을 나타냅니다.

Walmart 미국: 영어 + 스페인어

Walmart 미국의 셀프 체크아웃 터미널은 히스패닉계 인구 비율이 높은 시장에서 영어 및 스페인어 프롬프트 세트를 제공합니다. 언어 선택은 거래 시작(터치스크린 버튼이 있는 “언어 선택” 프롬프트) 또는 고객의 충성 계정에 연결된 지속적인 언어 선호도를 통해 발생합니다.

Walmart의 영어 음성 페르소나는 중립 일반 미국 여성 음성입니다. 미국 소매에서 가장 인식 가능한 셀프 체크아웃 음성 중 하나입니다. 스페인어 버전은 유사한 레지스터를 유지하지만 중립 라틴 아메리카 스페인어 억양을 사용합니다(다른 스페인어권 배경 사람들에게 배제적으로 느껴질 수 있는 지역 특성을 피함).

기술 구현: Walmart의 NCR FastLane 터미널에서 두 언어 라이브러리는 별도 디렉토리(예: /prompts/en/ 및 /prompts/es/)에 저장되고 POS 애플리케이션은 세션 시작 시 설정된 언어 선호도 플래그를 기반으로 디렉토리 경로를 전환합니다.

Kroger 미국: 영어 + 지역 고려사항

Kroger의 배너(King Soopers, Fred Meyer, Ralphs, Harris Teeter)를 통한 셀프 체크아웃 배포는 영어를 주요 언어로 사용하며 관련 시장에서 일부 스페인어 지원을 제공합니다. Kroger의 접근 방식은 역사적으로 Walmart보다 따뜻하고 더 대화식의 음성 톤을 강조합니다. 커뮤니티 식료품점 위치 지정을 반영합니다.

전체 셀프 체크아웃 네트워크의 ‘Kroger 음성’은 브랜드 차별화로 음성 일관성에 투자할 정도로 독특합니다. 이는 정확히 AI 음성 복제가 지원하는 사용 사례입니다. 브랜드가 특정 음성 페르소나를 소유하고 복제할 수 있습니다.

Carrefour: 프랑스어, 아랍어 및 시장별 언어

Carrefour는 35개 국가 이상에서 운영하며 진정한 다국어 프롬프트 라이브러리가 필요한 셀프 체크아웃 배포를 합니다. 프랑스어가 기본 언어입니다. 아랍어는 북아프리카 시장의 2차 언어입니다(모로코, 튀니지, 알제리, 이집트); 스페인어는 스페인과 라틴 아메리카의 일부 지역에서 사용됩니다.

Carrefour의 기술 복잡성은 중요합니다: 모로코 Carrefour의 단일 Diebold Nixdorf TP7 터미널은 대상 고객 인구 통계에 따라 프랑스어 + 모로코 아랍어(Darija) 또는 프랑스어 + 현대 표준 아랍어(MSA)가 필요할 수 있습니다. 두 아랍어 변형은 충분히 다르므로 별도의 프롬프트 라이브러리가 필요합니다.

AI 음성 생성은 Carrefour의 오디오 팀이 Darija 및 MSA에 대한 별도 재능을 고용하지 않고도 동일한 프롬프트 스크립트에서 고유한 아랍어 변형 라이브러리를 생성할 수 있도록 합니다.

언어 전환 아키텍처

다국어 키오스크 오디오 아키텍처의 두 가지 지배적인 접근 방식은:

접근 방식	작동 방식	최적 대상
세션 시작 시 언어 선택	고객이 첫 번째 화면에서 언어를 선택; 세션이 해당 언어의 라이브러리에서 재생	높은 다양성 매장; 명확한 언어 선호도
지속적 충성 선호도	언어가 충성 계정에 연결됨; 카드 스와이프 시 자동 선택	정기 고객; 알려진 고객의 마찰 감소
병렬 오디오(둘 다 언어)	프롬프트당 하나의 결합 클립 생성: 영어 + 일시 중지 + 스페인어	세션 중 디렉토리를 전환할 수 없는 레거시 컨트롤러
동적 TTS	온디바이스 또는 API 기반 TTS는 각 프롬프트를 실시간으로 생성	최고의 유연성; 낮은 지연 TTS 엔진 및 네트워크 액세스 필요

인접한 배포 맥락의 경우(고객이 미리 언어를 선택하지 않은 드라이브 스루 주문 매장에서 AI 생성 음성), 드라이브 스루 주문용 AI 음성 생성기 가이드를 참조하세요. 언어 감지 및 외부 스피커 시스템을 위한 동적 전환 논리를 다룹니다.

기술 생산 워크플로우: 소매 프롬프트 라이브러리 구축

다음은 AI 음성 생성기를 사용하여 완전한 셀프 체크아웃 프롬프트 라이브러리를 생성하기 위한 생산 워크플로우입니다:

1단계 - 하드웨어 사양 감사. NCR Voyix 또는 Diebold Nixdorf 필드 엔지니어로부터 오디오 통합 문서를 요청합니다. 필요한 샘플 레이트, 비트 깊이, 모노/스테레오 요구 사항, 코덱(이러한 시스템의 경우 항상 WAV PCM) 및 프롬프트 라이브러리 디렉토리의 파일 명명 규칙을 얻습니다.

2단계 - 완전한 프롬프트 스크립트 작성. POS 애플리케이션이 트리거할 수 있는 모든 이벤트 코드를 나열합니다. 대부분의 NCR 및 Diebold Nixdorf 배포는 제조업체로부터 기본 프롬프트 라이브러리를 포함합니다. 이를 참조로 얻습니다. 소매점별 프롬프트(매장 이름, 충성 프로그램, 개인 라벨 결제 방법 이름)를 추가합니다.

3단계 - 음성 페르소나 매개변수 정의. 성별 레지스터, 음성 속도(지시 프롬프트의 경우 130-145 WPM), 톤 및 억양을 설정합니다. 기존 브랜드 음성과 일치하는 경우, 음성 복제용 기준 녹음 샘플을 가져옵니다.

4단계 - 배치로 생성. 전체 프롬프트 스크립트 목록을 입력하고, 음성 프로필을 선택하고, 사양 당 출력 형식을 설정합니다. 모든 클립을 한 배치에서 처리하여 모든 파일에서 일관된 음성 설정을 보장합니다. 다양한 설정으로 별도 세션에서 클립을 생성하지 마세요. 클립 간 음량 및 시간 변화는 생성에서 듣습니다.

5단계 - 음량 정규화. -18 LUFS 통합 및 -3 dBTP 최대값을 목표로 합니다. 배치의 모든 클립에 적용합니다. 도구: FFmpeg의 Loudnorm 또는 전용 음량 정규화 기능. 피크 정규화를 사용하지 마세요. 지각된 음량이 불일치합니다.

6단계 - 침묵 버퍼 추가. 50-100ms 침묵 앞에 배치; 200ms 침묵 뒤에. 대부분의 키오스크 컨트롤러는 짧은 선행 침묵 버퍼 없이 오디오의 시작을 클립합니다. 후행 침묵은 다음 프롬프트가 트리거될 때 클릭 아티팩트를 방지합니다.

7단계 - 프롬프트 코드로 이름 바꾸기. 컨트롤러 명명 규칙에 따라 파일 이름을 바꿉니다. 파일 이름과 예상 이벤트 코드 사이의 불일치는 프롬프트가 침묵을 재생함을 의미합니다. 사용자 지정 프롬프트 라이브러리 배포에서 가장 일반적인 실패 모드입니다.

8단계 - 검증 테스트. 프롬프트 라이브러리를 테스트 터미널에 배포합니다. 오류 상태(담는 곳 불일치, 카드 거절, 나이 확인 트리거) 포함 완전한 거래 흐름을 진행합니다. 모든 프롬프트가 올바르게 재생되고, 올바른 시간에, 올바른 음량에서 재생되는지 확인합니다.

9단계 - 음성 프로필 설정 문서화. 사용된 모든 매개변수를 저장합니다: 음성 모델, 음성 속도, 음량 설정, 출력 형식. 스크립트 업데이트에 6개월 후 한 클립을 재생성하려면, 원본 설정과 일치시키면 새 클립이 기존 라이브러리와 동일하게 들립니다.

배치 생산 논리가 자판기 음성 프롬프트에 어떻게 적용되는지에 대한 맥락(유사하지만 더 단순한 키오스크 음성 사용 사례)은, 자판기용 AI 음성 생성기 가이드를 참조하세요.

소매 키오스크 생산용 AI 음성 플랫폼 비교

플랫폼	WAV 내보내기	배치 스크립트	음성 복제	오프라인	SSML 지원
ElevenLabs	예(유료)	API 경유	예(유료)	아니오	제한됨
Murf	예(유료)	API 경유	제한됨	아니오	예
Azure TTS	예	예(SSML)	커스텀 신경 음성	아니오	전체
Google Cloud TTS	예	예	커스텀 음성	아니오	전체
VoxBooster	예	예	예(로컬)	예(Windows)	예

소매 배포의 주요 기준:

오프라인/로컬 처리: 소매 백오피스 환경의 키오스크 터미널은 PCI-DSS 준수 이유로 제한된 아웃바운드 인터넷 액세스를 가질 수 있습니다. 클라우드 API 호출 없이 생산 워크스테이션에서 실행되는 로컬 음성 생성기는 준수 대화를 제거합니다.

기준 녹음에서 음성 복제: 소매점이 이미 브랜드 음성을 정의하는 기존 성우 녹음을 가지고 있다면, 새 일반 음성을 선택하는 대신 이 기준을 복제하면 브랜드 자산을 보존합니다. 복제된 음성은 동일한 음성 신원에서 무한정 모든 신규 및 업데이트 프롬프트를 생성합니다.

일관된 설정의 배치 내보내기: 웹 UI를 통해 120개 클립을 하나씩 생성하는 것은 비실용적입니다. 잠긴 음성 설정이 있는 스크립트 파일에서 배치 처리하면 라이브러리의 모든 클립이 일관되도록 보장합니다.

발음 제어를 위한 SSML: 소매 프롬프트는 종종 TTS 엔진이 예상치 않게 읽을 수 있는 제품 코드, 가격 형식 및 충성 프로그램 이름을 포함합니다. SSML을 사용하면 명시적으로 발음을 지정할 수 있습니다: <say-as interpret-as="currency">$4.50</say-as> 또는 <say-as interpret-as="cardinal">4</say-as> items.

음성 복제 워크플로우(특히 기존 브랜드 음성 녹음 일치)는, voiceover용 음성 복제 가이드에서 방법론, 품질 벤치마크 및 생산 등급 복제의 기술 요구 사항을 다룹니다.

소매 키오스크 음성 생성의 일반적인 실수

스테레오로 생성. 모든 주요 셀프 체크아웃 컨트롤러(NCR, Diebold Nixdorf 및 대부분의 보조 OEM)는 모노 WAV를 요구합니다. 스테레오 파일은 거부되거나 잘못 재생됩니다. 처음부터 모노로 생성하세요. 컨트롤러의 다운믹스에 의존하지 마세요.

음량 정규화 없이 직접 소비자 TTS 음성 사용. 소비자 TTS 플랫폼은 약 -14 LUFS에서 헤드폰 또는 스피커 재생에 최적화됩니다. 소매 키오스크 스피커는 다른 음향 환경입니다. -18 LUFS로 음량 정규화 없이, 프롬프트는 라이브러리 전체에서 일관되지 않게 큽니다.

선행 침묵 버퍼 건너뛰기. 이벤트 시 즉시 오디오를 트리거하는 컨트롤러는 샘플 0에서 시작하는 프롬프트의 첫 음절을 클립합니다. 50-100ms 헤더 침묵은 이를 방지합니다.

업데이트 세션 간 다른 음성 설정. 1월에 초기 라이브러리를 생성하고 9월에 약간 다른 피치 또는 속도 설정으로 3개 프롬프트를 업데이트하면 생성에서 지각할 수 있는 불일치가 생성됩니다. 1일차에 설정을 잠그고 문서화합니다.

준수 프롬프트의 소프트 언어. 나이 확인 및 신원 확인 프롬프트는 법적 준수를 위해 존재합니다. 이들을 부드럽게 하기(‘신분증을 보여줄 수도 있음’)는 고객을 혼동시키고 잠재적 책임을 야기할 수 있는 모호성을 만듭니다. 이 프롬프트는 명확하고 직접적이며 명확해야 합니다.

유휴/환영 루프 무시. 터미널이 고객을 기다리는 동안 재생되는 유휴 상태 프롬프트는 매장에서 가장 자주 들리는 오디오 중 하나입니다. 그 톤은 체크아웃 경험의 첫 인상을 설정합니다. 이를 사후 생각으로 취급하지 마세요.

엔터프라이즈 소매 배포가 아닌 콘텐츠 제작자를 대상으로 하는 음성 생성기는, 콘텐츠 제작자용 음성 변경기 가이드에서 스트리밍 및 소셜 미디어 사용 사례의 다양한 품질 및 워크플로우 요구 사항을 다룹니다.

자주 묻는 질문

셀프 체크아웃 AI 음성이란 무엇인가?

셀프 체크아웃 AI 음성은 소매 키오스크에 내장된 텍스트 음성 변환 시스템으로, 고객을 스캔 및 결제 프로세스를 통해 안내합니다. Walmart, Kroger, Carrefour의 셀프 체크아웃 레인에서 들을 수 있는 ‘상품을 담는 곳에 놓아주세요’, ‘예상치 못한 상품이 담는 곳에 있습니다’, ‘카드를 삽입해주세요’와 같은 음성을 생성하며, 소매점 체인의 모든 단말기에서 일관된 합성 음성 페르소나를 사용합니다.

대형 소매업체에서 셀프 체크아웃 음성을 구동하는 하드웨어는?

NCR Voyix(이전 NCR) 및 Diebold Nixdorf는 두 가지 지배적인 셀프 체크아웃 OEM입니다. NCR의 FastLane 및 SelfServ 라인은 Windows 또는 Linux 기반 컨트롤러가 구동하는 온보드 스피커를 통해 오디오를 재생합니다. Diebold Nixdorf의 BEETLE 및 TP Application 시스템도 유사한 아키텍처를 사용합니다. 둘 다 컨트롤러의 프롬프트 라이브러리에 로드된 WAV 오디오 파일을 수락합니다. AI 음성 생성기가 이러한 파일을 생성합니다.

셀프 체크아웃 음성을 WCAG 2.1 준수하도록 만드는 방법은?

WCAG 2.1 성공 기준 1.4.2(오디오 제어) 및 1.3.3(감각 특성)이 가장 관련성이 높습니다. 실제로: 모든 시각적 프롬프트에는 동등한 오디오 프롬프트가 있어야 하고, 사용자 제어 없이 3초 이상 자동으로 재생되지 않아야 하며, 음성은 일반적인 키오스크 볼륨(일반적으로 0.5m에서 65-75dB SPL)에서 명확하게 이해되어야 합니다. 명확한 중립 억양, 130-150 WPM의 음성 속도 및 일관된 음량(-18 LUFS)을 사용하세요.

하나의 AI 음성으로 다국어 셀프 체크아웃 키오스크를 커버할 수 있나?

단일 AI 음성 엔진은 동일한 음성 프로필에서 여러 언어로 프롬프트를 생성할 수 있지만, 각 언어 모델이 원어민 음성 패턴으로 학습되기 때문에 출력 음성 페르소나는 언어마다 다릅니다. 브랜드 일관성을 위해 대상 레지스터(따뜻함, 중립적, 약간 공식적)를 정의하고 배포 전에 각 언어의 출력을 해당 프로필과 비교하여 평가합니다. Walmart 미국 매장은 일반적으로 영어 + 스페인어를 실행하며, Carrefour 프랑스는 트래픽이 많은 지역에서 프랑스어 + 아랍어를 실행합니다.

NCR Voyix 및 Diebold Nixdorf 키오스크가 수락하는 오디오 형식은?

대부분의 NCR Voyix 셀프 체크아웃 시스템은 22.05kHz 또는 44.1kHz 모노로 16비트 PCM WAV를 수락합니다. Diebold Nixdorf BEETLE 및 TP Application 라인은 일반적으로 레거시 프롬프트 라이브러리의 경우 11.025kHz 또는 22.05kHz에서 16비트 모노 WAV를 사용하고 현재 세대 시스템의 경우 44.1kHz를 사용합니다. 항상 필드 엔지니어로부터 오디오 통합 사양을 요청하십시오. 형식 불일치는 사용자 지정 음성 프롬프트가 재생되지 않는 가장 일반적인 이유입니다.

일반적인 셀프 체크아웃 키오스크에 몇 개의 오디오 프롬프트가 필요한가?

단일 레인 터미널용 표준 셀프 체크아웃 프롬프트 라이브러리에는 스캔 프롬프트, 담는 곳 알림, 결제 흐름, 충성 프로그램 프롬프트, 나이 확인, 오류 복구 및 매장별 메시지를 포함하는 80-150개의 개별 WAV 클립이 포함됩니다. 500개 매장, 4개 레인/매장 및 2개 언어가 있는 체인에 걸쳐 잠재적으로 1.2백만 개의 개별 오디오 파일이 될 수 있습니다. AI 배치 생성이 이 규모에서 생성하고 유지하는 유일한 실질적인 방법입니다.

VoxBooster는 소매점 키오스크 음성 생성에 적합한가?

VoxBooster는 Windows에서 실행되며 사용자 지정 AI 음성 복제를 사용하여 고품질 WAV 출력을 생성합니다. 이는 키오스크 프롬프트 라이브러리 전체에서 일관된 브랜드 음성 페르소나를 만드는 데 유용합니다. 워크플로우는 소매 오디오 팀이 수행하는 작업과 일치합니다. 기준 음성을 녹음하거나 복제하고, 배치에서 스크립트 목록의 모든 프롬프트를 생성하며, 필요한 샘플 레이트에서 모노 WAV로 내보냅니다. 무료 평가판은 전체 프롬프트 라이브러리 생성에 커밋하기 전에 음성 품질을 검증하기에 충분한 출력을 포함합니다.

결론

셀프 체크아웃 AI 음성은 기술 선택일 뿐 아니라 생산 분야입니다. Walmart, Kroger 및 Carrefour에서 고객이 들을 수 있는 ‘상품을 담는 곳에 놓아주세요’ 음성은 특정 하드웨어 요구 사항, 접근성 표준 및 브랜드 음성 지침을 염두에 두고 설계되고 생성되었습니다. 수천 개의 레인과 여러 언어에서 이를 유지하려면 임시 스튜디오 세션이 규모에서 유지할 수 없는 워크플로우가 필요합니다.

AI 음성 생성기는 모든 제약을 해결합니다: NCR Voyix 및 Diebold Nixdorf 하드웨어 요구 사항(올바른 샘플 레이트의 16비트 모노 WAV), WCAG 2.1 준수(일관된 음량, 명확한 음성 속도, 모든 시각적 프롬프트의 오디오 동등물) 및 다국어 배포(동일한 음성 프로필에서 언어당 단일 배치 작업). 워크플로우(스크립트, 생성, 정규화, 명명, 검증)는 임의의 스튜디오 세션이 할 수 없는 방식으로 반복 가능하고 감사 가능합니다.

VoxBooster는 Windows에서 AI 음성 생성 및 사용자 지정 음성 복제를 처리하여 정의된 브랜드 음성 페르소나에서 완전한 소매 프롬프트 라이브러리를 구축하는 것을 실질적으로 만듭니다. PCI-DSS API 준수 질문을 피하는 동일한 로컬 오프라인 워크플로우는 3주 스튜디오 예약이 아닌 오후의 프롬프트 업데이트도 의미합니다. 무료 3일 평가판 - 신용 카드 필요 없음.