Discord용 딥 보이스 체인저: 작동 방식 + 4개 프리셋

Discord에서 설득력 있는 딥 음성을 얻는 것은 음정 슬라이더를 아래로 드래그하는 것만큼 간단하지 않습니다. 기본 주파수만 낮추면 음성이 느려진 녹음처럼 들립니다 — 비어있고, 인위적이고, 잘못되었습니다. 그 이유는 깊은 인간의 음성이 비율에서 유지하는 두 개의 별도의 음향 속성 사이의 불일치입니다. 이 가이드는 그 관계를 설명하고, 올바르게 얻을 수 있도록 숫자를 제공하며, 4개의 복사-붙여넣기 프리셋으로 끝납니다.

요약

딥 음성 변환은 F0 그리고 포먼트 변환을 함께 필요로 합니다 — F0 혼자는 “역 다람쥐” 인공물을 생성합니다.
자연스럽게 들리는 딥 음성의 안전 영역은 F0 2-5 반음 저하 + 10-20% 포먼트 저하입니다.
4개의 프리셋: Movie Villain, Radio DJ, Narrator, Demon — 각각 특정 F0, 포먼트, 효과 값 포함.
저지연 오디오 루팅은 모든 최신 Windows 10/11 기계에서 끝에서 끝까지 지연을 300ms 미만으로 유지합니다.
커널 드라이버 필수 아님; VoxBooster는 Discord가 표준 입력으로 보는 가상 마이크 장치를 등록합니다.

음정만으로 충분하지 않은 이유

인간의 음성은 음향 정보의 두 개의 독립적인 레이어를 가지고 있습니다.

**기본 주파수(F0)**는 성대가 진동하는 속도입니다 — 음성의 원본 음정입니다. 평균 성인 남성은 약 85-180 Hz로 말합니다. 평균 성인 여성은 약 165-255 Hz로 말합니다. F0는 당신이 음정이 높거나 낮다고 인지하는 것입니다.

포먼트는 음성 기관의 공동으로 만든 공명 정점입니다 — 입, 인두, 부비동입니다. 처음 두 개의 포먼트(F1 및 F2)는 대부분의 모음 정체성을 전달합니다. 비판적으로, 그들은 또한 크기의 인지를 전달합니다. 큰 신체는 더 큰 공명 공동을 가지고 있으므로 포먼트 정점을 아래로 밀어줍니다. 영화 악당과 라디오 앵커와 연관된 저음의 쉰 목소리는 F0가 낮을수록 포먼트가 낮습니다.

보이스 체인저가 포먼트를 제자리에 두고 F0만 낮추면 뇌가 모순을 즉시 감지합니다. 고조파 시리즈가 압축되었지만 공명 서명은 여전히 더 작은 음성 기관에 속합니다. 결과는 80% 속도로 재생되는 녹음처럼 들립니다 — 부자연스럽고 약간 우스꽝스럽습니다. 엔지니어들은 이를 역 다람쥐 문제(또는 역 음향 효과)라고 부르며, 순진한 딥 음성 체인저의 가장 일반적인 실패 모드입니다.

해결책은 F0 변경에 비례하여 포먼트를 아래로 변환하여 자연스럽게 깊은 음성을 특징짓는 음향 비율을 유지하는 것입니다.

딥 음성의 물리학

기본 주파수

F0는 성대 진동으로 설정됩니다. F0를 알고리즘적으로 낮추려면 음정 시프터는 오디오를 재샘플링합니다. 파형을 시간 늘리고 원래 샘플 속도로 다시 샘플링합니다. 최신 위상 보코더 및 파형 유사성 중복 추가(WSOLA) 알고리즘은 이를 2-5 반음 변화에서 깔끔하게 처리합니다. 6 반음을 넘으면 위상 인공물 및 거칠기가 증가합니다.

포먼트

포먼트는 음성 기관의 음향 튜브 형상으로 만들어집니다. 소프트웨어에서 포먼트 시프팅은 스펙트럼 봉투를 추정(일반적으로 LPC 또는 켑스트럼 평활을 통해), 미세한 고조파 구조에서 분리, 봉투 변환, 재조합으로 작동합니다. 스펙트럼 10-20% 다운 시프트는 대략 음성 기관이 10-20% 더 길면 생성되는 것과 일치합니다 — 훨씬 더 큰 사람의 음향학.

공명 보존

포먼트를 너무 공격적으로 변환하면 모음 왜곡이 발생합니다. 특정 모음이 정체성을 변경합니다(F1 및 F2가 음소 범위를 벗어남). 목표는 봉투를 균일하게 충분히 낮추어 지각된 크기를 추가하되 명확성을 붕괴시키지 않는 것입니다. 대부분의 음성에 대한 스위트 스팟은 음성 기관이 약 15cm 더 길 때 생성하는 것에 가까운 포먼트 비율입니다.

F0 및 포먼트 참조 범위

목표	F0 변경	포먼트 변환	캐릭터
약간 더 깊음, 자연스러움	-1 ~ -2 st	-5 ~ -8%	TV 앵커, 차분한 나레이터
명확히 깊음, 여전히 실제	-3 ~ -5 st	-12 ~ -18%	영화 악당, 라디오 DJ
극장적, 큼	-5 ~ -7 st	-20 ~ -25%	서사시 영화 나레이터
양식화됨 / 효과	-8 ~ -12 st	-25 ~ -35%	악마, 공포 캐릭터

st = 반음. 음수 값은 아래로 변환을 의미합니다.

저지연 오디오 및 지연

Windows에서 실행되는 모든 실시간 음성 효과는 예측 가능하고 낮은 지연을 가진 오디오 경로가 필요합니다. 저지연 오디오 독점 모드는 Windows 오디오 믹서를 우회하여 애플리케이션에 직접 하드웨어 액세스를 제공합니다. 배타적 모드에서는 5-10ms 버퍼 크기가 가능하며, 공유 모드를 통한 믹서의 경우 30-100ms입니다.

Discord의 딥 음성 체인저의 경우 파이프라인은:

마이크 → 저지연 오디오 캡처 → DSP 체인(F0 변환 + 포먼트 변환) → 가상 마이크 장치 → Discord 입력

DSP 체인 자체에서 추가된 총 지연은 20ms 미만입니다. 가상 마이크 장치는 무시할 수 있는 오버헤드를 추가합니다. 끝에서 끝까지, 잘 구현된 저지연 오디오 파이프라인은 마이크에서 Discord 출력까지의 지연을 300ms 미만으로 유지합니다. 대화에서는 인지할 수 없습니다.

VoxBooster는 캡처 및 재생 모두에 저지연 오디오를 사용하여 리소스 제약 하드웨어에서도 효과 체인을 팽팽하게 유지합니다.

Discord에서 딥 음성 설정: 단계별

VoxBooster를 설치합니다 Windows 10 또는 11에서. 커널 드라이버 필요 없음; 설치 프로그램은 표준 Windows 오디오 API를 통해 가상 마이크 장치를 등록합니다.
VoxBooster를 엽니다 Effects 패널로 이동합니다.
Pitch Shift 효과를 추가합니다 반음 단위로 F0 저하 설정(아래 프리셋 표 참조).
Formant Shift 효과를 추가합니다 체인의 음정 변환 바로 뒤에. 포먼트 비율을 백분율 아래로 설정합니다.
프리셋에 대한 보조 효과를 추가합니다 (반향, 압축, EQ — 아래 프리셋별 세부사항).
Discord를 엽니다 → User Settings → Voice & Video → Input Device. 드롭다운에서 VoxBooster Virtual Microphone을 선택합니다.
Discord의 Mic Test 버튼으로 테스트합니다. F0 및 포먼트 슬라이더를 목소리가 올바르게 들릴 때까지 조정합니다.
명명된 프리셋으로 저장합니다 VoxBooster에서 한 번의 클릭으로 캐릭터 간에 전환할 수 있습니다.

Discord의 노이즈 억제(Krisp 기반)는 마이크 입력 후에 실행됩니다. 일반적으로 딥 음성 효과와 호환되지만 극단적인 설정에서 가장 낮은 고조파를 약간 감쇠시킬 수 있습니다. 처리된 음성이 통화에서 가늘게 들리면 Discord의 Voice & Video → Advanced에서 노이즈 억제를 비활성화하고 대신 VoxBooster의 내장 노이즈 게이트를 사용하십시오.

4개의 딥 보이스 프리셋

프리셋 1: 영화 악당

고전적인 바리톤 길항제 — 제어, 위협, 명확함. Hans Landa, Anton Chigurh 또는 계획을 설명하는 Marvel 악당을 생각해보십시오.

파라미터	값
F0 변환	-4 반음
포먼트 변환	-15%
반향(방 크기)	18%
반향(습식/건식)	12%
저음 선반 EQ(+3 dB @ 120 Hz)	켜짐
고음 선반 EQ(-2 dB @ 8 kHz)	켜짐
압축(비율 3:1, 임계값 -18 dB)	켜짐

가벼운 반향은 공간을 추가하지만 음성을 원거리로 들리게 하지 않습니다. 저음 선반 상승은 150 Hz 아래로 롤오프되는 하드웨어에서 가슴 공명을 강화합니다. 압축은 전달을 제어하게 유지합니다 — 빠른 음성은 낮은 F0에서도 명확하게 유지됩니다.

프리셋 2: 라디오 DJ

따뜻하고, 권위 있으며, 약간 따뜻하게 광택이 납니다. 고전적인 FM 아침 쇼 에너지: 자신감, 둥글며, 수치음 거칠음 없음.

파라미터	값
F0 변환	-3 반음
포먼트 변환	-12%
반향	끔
존재감 부스트(+2 dB @ 3-5 kHz)	켜짐
저중음 따뜻함(+3 dB @ 200-250 Hz)	켜짐
De-esser(임계값 -20 dB, 주파수 6 kHz)	켜짐
압축(비율 4:1, 임계값 -22 dB, 느린 어택)	켜짐

라디오 DJ 전달은 주로 EQ 이야기입니다. 포먼트 변환이 깊이의 무거운 일을 수행하고 압축이 다이나믹을 결합하므로 음성이 날카롭거나 떨어지지 않습니다. De-essing은 특히 여기서 중요합니다 — F0를 낮추면 일부 마이크에서 쉬소음의 상위 고조파 인공물이 강조될 수 있습니다.

프리셋 3: 서사시 나레이터

영화 예고편을 읽고 오디오북 소개를 읽는 목소리. 느리고 더 의도적이며, 무언가를 본 사람의 무게감.

파라미터	값
F0 변환	-5 반음
포먼트 변환	-20%
반향(대형 홀, 35%)	켜짐
저음 선반 EQ(+4 dB @ 100 Hz)	켜짐
존재감 딥(-3 dB @ 1-2 kHz)	켜짐
미묘한 코러스(속도 0.3 Hz, 깊이 8%)	켜짐
압축(비율 2.5:1, 소프트 니)	켜짐

이 프리셋은 포먼트 변환을 다른 것보다 더 멀리 밀어붙입니다. -20%에서 모음 문자 변환이 약간 변하는 것을 알 수 있습니다 — 의도합니다. 미묘한 모음 색상은 인간보다 큰 공명의 느낌을 추가합니다. 매우 느린 속도의 미묘한 코러스는 명백한 변조 없이 두께를 추가합니다.

프리셋 4: 악마

완전한 극장 — 인간이 아닌 깊이, 미묘한 거칠음, 외침 없는 존재. 공포 롤플레이, Halloween 스트림, 그리고 확실히 여기서 나온 것이 아닌 모든 캐릭터에서 작동합니다.

파라미터	값
F0 변환	-10 반음
포먼트 변환	-30%
왜곡(소프트 클립, 드라이브 15%)	켜짐
반향(동굴, 55% 습식)	켜짐
저음 선반 EQ(+6 dB @ 80 Hz)	켜짐
Bitcrusher(비트 깊이 14, 미묘)	켜짐
음정 변조(LFO ±0.3 st, 속도 0.8 Hz)	켜짐

-10 반음에서 당신은 극장 깊숙이 있습니다. 소프트 클립 왜곡은 이상한 고조파를 추가하여 으르렁거리는, 으르렁거리는 품질을 만듭니다. 동굴 반향은 큰 석실 공간에서 울리는 음성의 느낌을 강화합니다. 미묘한 음정 LFO는 음성에 가벼운 유기적 불안정성을 제공합니다 — 악마는 아마도 인간처럼 숨쉬지 않습니다.

명확성은 다른 프리셋과 비교하여 감소합니다. 악마 롤플레이의 경우 일반적으로 올바른 트레이드오프입니다. 더 깨끗한 표현이 필요하면 왜곡 드라이브 및 반향 습식 믹스를 줄입니다.

비교 표: 모든 4개 프리셋

프리셋	F0 저하	포먼트 저하	자연성	최고의 용도
영화 악당	-4 st	-15%	높음	RPG 길항제, 악당 롤플레이, 토론
라디오 DJ	-3 st	-12%	매우 높음	일상 채팅, 팟캐스트, 공지 봇
서사시 나레이터	-5 st	-20%	중간	오디오북 읽기, 예고편 나레이션
악마	-10 st	-30%	낮음(의도)	공포 스트림, Halloween 이벤트, SFX

Discord의 딥 음성 문제 해결

음성이 로봇처럼 또는 윙윙거립니다. 음정 시프터의 위상 인공물. F0 변환을 1 반음 줄이고 포먼트 변환을 조금 더 보정해보십시오. 일부 알고리즘은 더 큰 변화를 더 깔�끔하게 처리합니다.

음성이 출력에서 너무 조용합니다. 딥 음성 처리는 에너지를 Discord의 AGC(자동 게인 제어)가 보상하지 못할 주파수 범위로 이동시킵니다. 압축 스테이지 후 +3-5 dB 메이크업 게인을 추가합니다.

Discord가 음성을 간헐적으로 끊습니다. Discord의 VAD(음성 활동 감지) 임계값이 낮은 에너지 기본에 비해 너무 높을 수 있습니다. Discord Voice & Video → Input Sensitivity에서 자동에서 고정 임계값으로 전환하고 10-15 dB 낮춥니다.

이펙트가 헤드폰 대 스피커에서 다르게 들립니다. 헤드폰은 처리 인공물을 더 많이 드러냅니다. 헤드폰을 착용한 상태에서 프리셋을 조정합니다 — 거기서 설득력 있게 들리면 통화의 모두에게 설득력 있게 들릴 것입니다.

포먼트 변환은 모음을 너무 많이 왜곡합니다. 포먼트 백분율을 3-5% 증분으로 되감고 모음이 명확성을 회복할 때까지 기다립니다. 추가 저음 선반 EQ 부스트를 추가하여 약간 보상할 수 있습니다.

프리셋 너머의 딥 음성: AI 클로닝

위의 프리셋은 파라메트릭 DSP를 사용합니다 — 학습, 참조 녹음, 즉각적인 응답 없음. VoxBooster는 또한 다른 사용 사례를 위한 AI 음성 클로닝을 포함합니다. 고정 파라미터로 음성을 변환하는 대신 참조 오디오 샘플을 제공하고 AI가 음성을 매핑하므로 대상의 자연스러운 포먼트 구조 및 음정 프로필을 유지합니다.

딥 음성 구체적으로, AI 클로닝은 수동으로 포먼트 비율을 계산하는 대신 실제 딥 음성의 참조 녹음을 사용할 수 있음을 의미합니다. 순수 DSP와 비교하여 약간 높은 처리 예산의 절충점이 지연은 지원되는 하드웨어에서 300ms 미만으로 유지됩니다.

음성 건강 참고

딥 음성 효과를 실행하면 실제 음성이 손상되지 않습니다. 그러나 물리적으로 강제된 딥 음성을 수행하려고 시도 — 후두를 아래로 긴장 — 성대 피로를 유발할 수 있고 시간이 지남에 따라 손상을 일으킬 수 있습니다. 장시간 스트리밍 세션을 위해 딥 음성이 필요하면 소프트웨어에 모든 작업을 수행하게 하고 자연 레지스터에서 말합니다. 성대가 감사할 것입니다.

내부 리소스

외부 참고 자료

자주 묻는 질문

Discord용 딥 보이스 체인저란? Discord용 딥 보이스 체인저는 기본 주파수(F0)를 낮추고 실시간으로 포먼트를 변환하여 처리된 음성을 Discord가 일반 입력 장치로 읽는 가상 마이크를 통해 라우팅하는 소프트웨어입니다. 결과는 하드웨어 변경이나 추가 케이블 없이 설득력 있는 딥 음성입니다.

음정을 낮추는 것만으로 음성이 역방향 다람쥐처럼 들리는 이유? F0만 드롭하면 고조파 시리즈를 압축하지만 포먼트를 남겨두고 — 음성 기관의 공명 정점은 원래 위치에 있습니다. 이 불일치로 인해 음성이 가늘고 자연스럽게 큰 가슴이 아닌 느려진 녹음처럼 들립니다. F0와 병행하여 포먼트를 변환하면 크고 깊은 음성과 관련된 공명 비율이 유지됩니다.

자연스럽게 들리기 전에 음성을 얼마나 낮출 수 있나? 자연스럽게 들리는 남성 딥 음성의 경우 F0 저하 2-5 반음과 10-20% 포먼트 저하의 조합이 대부분의 사용 사례를 포함합니다. 6-7 반음 이상에서 음성은 처리된 것처럼 들리기 시작합니다. 악마 프리셋과 같은 극장 효과의 경우 더 밀어붙일 수 있습니다 — 8-12 반음 — 목표가 사실적이지 않기 때문입니다.

딥 보이스 체인저가 Discord 음성 통화에 눈에 띄는 지연을 추가하나? DSP 기반 음정 및 포먼트 변환은 매우 적은 처리 오버헤드를 추가합니다 — 대부분의 구현에서 20ms보다 훨씬 적습니다. 음성 통화에서 인지된 지연은 로컬 효과 체인이 아닌 네트워크 왕복 시간이 지배적입니다. 마이크에서 Discord 출력까지 300ms 이하의 파이프라인은 모든 최신 CPU에서 달성 가능합니다.

저렴한 USB 마이크를 사용하면 딥 음성 프리셋이 여전히 작동하나? 네. F0 및 포먼트 알고리즘은 녹음 품질에 관계없이 오디오 신호에서 작동하지만, 평탄한 저주파 응답의 더 깨끗한 마이크는 더 설득력 있는 결과를 생성합니다. 저렴한 USB 마이크는 100 Hz 아래에서 자주 롤오프되므로 처리된 출력이 얼마나 깊게 들리는지 약간 제한하지만 효과는 여전히 명확하게 들립니다.

Discord에서 여러 딥 음성 효과를 동시에 사용할 수 있나? 네. 체인에서 효과를 스택할 수 있습니다 — 예를 들어 F0 저하 + 포먼트 변환 + 악마 프리셋용 미묘한 반향 또는 라디오 DJ 프리셋용 가벼운 압축입니다. 체인은 음성이 Discord의 노이즈 억제에 도달하기 전에 실행되므로 두 레이어는 방해하지 않습니다.

Discord에서 딥 보이스 체인저를 사용하려면 가상 오디오 케이블을 별도로 설치해야 하나? VoxBooster를 사용하면 안 됩니다. VoxBooster는 가상 마이크 장치를 자동으로 생성하고 Windows 오디오에 등록합니다. Discord의 Voice & Video 설정을 열고 VoxBooster를 입력 마이크로 선택하기만 하면 됩니다. 수동 가상 케이블 설정 없음, VoxBooster 설치 프로그램 자체 이상의 드라이버 설치 없음.

VoxBooster는 커널 드라이버 없이 Windows 10 및 11에서 실행됩니다. 플랜은 $6.99/월부터 시작합니다. 3일간 무료로 시도하십시오 — 신용카드 필요 없습니다.

Discord용 딥 보이스 체인저: 4개 프리셋