포먼트 시프팅 설명: 자연스러운 음성 변화

음높이만 변경하는 AI 음성 변환기는 3초 이내에 가짜로 들립니다. 설득력 있는 음성 변환 뒤의 진정한 비결은 포먼트 시프팅 - 음높이와 무관하게 성도의 음향 특성을 정의하는 공명 주파수를 조정하는 것입니다. 포먼트가 어떻게 작동하는지 이해하면, 대부분의 저가 음성 변환기가 잘못하는 것을 즉시 듣게 될 것이고, 당신 자신의 변환이 처리된 것처럼 들릴 때 도달할 정확한 노브를 알게 될 것입니다.

이 글은 평이한 언어로 포먼트 뒤의 물리학을 다루며, 포먼트 제어 없이 음높이 변조가 다람쥐나 느린 재생처럼 들리는 이유, 현대 AI 음성 변환기가 포먼트를 더 오래된 DSP 도구와 비교하여 처리하는 방법, 그리고 VoxBooster의 포먼트 제어를 사용하여 가장 자연스럽게 들리는 결과를 얻는 방법을 다룹니다.

요약

포먼트는 성도 모양이 만드는 공명 주파수 피크입니다. 모음 소리와 음성 특성을 정의합니다.
음높이 변조만으로 기본 주파수를 이동하지만 포먼트를 제자리에 두어 부자연스러운 “만화” 효과를 만듭니다.
포먼트 시프팅은 음높이와 별개로 스펙트럼 포락선을 조정하여 음성 변환이 실제로 다른 사람처럼 들리게 합니다.
음높이 변조와 포먼트 시프팅의 이상적인 비율은 변환 목표에 따라 달라집니다: 미묘한 위장, 캐릭터 음성 또는 전체 성별 전환.
AI 음성 변환기는 포먼트 궤적을 지속적으로 모델링하여 고정된 스펙트럼 왜곡 DSP보다 부드러운 결과를 생성합니다.
VoxBooster는 독립적인 음높이 및 포먼트 슬라이더와 포먼트를 자동으로 처리하는 AI 음성 복제를 제공합니다.

포먼트란 무엇입니까?

성대는 기본 주파수를 가진 윙윙거리는 소리를 생성합니다. 그것이 음높이입니다. 하지만 그 원시적인 윙윙거림은 거의 음성으로 인식할 수 없습니다. 그것을 인식 가능한 모음, 감정 질감, 개인적인 음성 특성으로 형성하는 것은 후두 위의 공동의 공명입니다: 목, 입, 입술, 비강이 함께 성도를 형성합니다.

성도는 복잡하고 끊임없이 변하는 모양의 튜브입니다. 모든 공명 공동처럼, 그것은 자연 공명 주파수를 가집니다. 이 출력 스펙트럼의 피크를 포먼트라고 하며, 최저에서 최고로 번호가 매겨집니다: F1, F2, F3 등.

F1과 F2는 대부분의 지각 작업을 수행합니다. “heed”의 모음은 낮은 F1과 매우 높은 F2를 가집니다. “hod”의 모음은 F1과 F2 모두 중간 범위에 있지만 더 가깝습니다. 당신의 뇌는 그 두 피크를 사용하여 모음을 거의 즉시 식별하며, 이것이 포먼트가 때때로 모음의 “지문”이라고 불리는 이유입니다. 음향 이론에 대한 더 깊은 읽기를 위해 포먼트에 관한 위키피디아 기사는 훌륭한 시작점이며, 성도에 관한 기사는 해부학적 맥락을 제공합니다.

F3 이상은 개인적인 음성 특성에 기여합니다. 이름을 말하기 전에 친구의 목소리를 전화에서 인식할 수 있게 해주는 특성입니다. F3은 성도 길이 및 개인 해부학과 강하게 상관됩니다.

성도 길이가 중요한 이유

더 긴 성도를 가진 사람들은 스펙트럼에서 더 낮게 배치된 포먼트를 가집니다. 이것이 평균적으로 남자가 여자보다 더 낮은 포먼트를 가지고 있고, 성인이 어린이보다 더 낮은 포먼트를 가지고 있는 이유입니다. 음높이만이 아니라 신체적 성도 길이 때문입니다. 6피트 남자와 5피트 여자가 같은 음악 음높이에 도달할 수도 있지만, 그들의 포먼트는 여전히 완전히 다른 스펙트럼 위치에 있을 것입니다.

신체 크기, 성도 길이, 포먼트 위치 사이의 이 관계는 단순한 학문적 잡다한 것이 아닙니다. 음높이만 변경하는 것이 잘못된 소리가 나는 이유 전체입니다. 녹음을 느리게 하여 음높이를 낮추면 모든 포먼트 전환도 느려집니다. 이는 모음을 길고 나른하게 만들어 잘못된 속도로 재생되는 레코드처럼 들리게 합니다. 빠르게 하면 포먼트는 비례적으로 제자리에 남지만 이제는 너무 높고 너무 촘촘하게 보이므로 잘 알려진 다람쥐 아티팩트를 생성합니다.

다른 음높이로 작동하는 실제 음성은 실제로 다른 성도 구성으로 생성되는 포먼트를 가집니다. 포먼트 위치는 이동하지만 음높이에 대한 단순 선형 비율이 아닙니다. 좋은 음성 변환은 이 관계를 모델링해야 합니다.

음높이 변조 대 포먼트 시프팅

여기서 대부분의 저가 음성 변환기가 떨어집니다. 음높이 변조는 쉽습니다: 오디오 신호의 주파수 내용을 곱하거나 나누고, 테이프 변경처럼 들리지 않도록 시간을 보상하고, 완료합니다. 결과는 기본 주파수가 올라가거나 내려간 음성이지만 스펙트럼 포락선(주파수 응답의 전체 모양)은 원래 음성과 동일합니다.

반면 포먼트 시프팅은 기본 음높이 구조를 혼자 두거나 별도로 조정하면서 스펙트럼 포락선을 이동합니다. 오디오의 단기 스펙트럼을 분석하고, 포락선(고조파 피크를 연결하는 부드러운 곡선)을 추정하고, 해당 포락선을 주파수로 위아래로 왜곡한 다음 신호를 재합성하여 작동합니다.

실제 구별:

기법	무엇이 이동	무엇이 남음	전형적인 아티팩트
음높이 변조만	기본 주파수	스펙트럼 포락선 / 포먼트	다람쥐 (위로) 또는 느린 모션 (아래로)
포먼트 시프팅만	스펙트럼 포락선	기본 음높이	원래 음높이에서 말하는 다른 사람처럼 들림
둘 다, 올바른 비율	둘 다, 일치	—	다른 음성 유형으로의 설득력 있는 변환
둘 다, 잘못된 비율	둘 다, 불일치	—	처리된, 기계적 또는 공심 사운드

“올바른 비율”은 달성하려는 변환에 크게 좌우됩니다. 음높이를 4반음 올리고 포먼트를 15-20% 이동하는 것은 더 큰 사람이 더 짧은 사람과 같은 음높이에서 말할 때 일어나는 대략적인 근사치입니다. 그러나 실제 관계는 비선형적이고 음성에 따라 달라지며, 여기서 AI 모델이 고정된 DSP 체인에 비해 상당한 이점을 가집니다.

포먼트 보존: 다른 사용 사례

모든 포먼트 조작이 변환에 관한 것은 아닙니다. 포먼트 보존(음높이가 변할 때 포먼트를 일정하게 유지하는 기능)은 특정 시나리오에서 똑같이 중요합니다.

가수가 음높이를 교정하거나 공연을 이조할 때, 순진한 음높이 변조는 극단에서 모음을 인식할 수 없는 것으로 바뀝니다. 포먼트 보존은 음이 변해도 모음의 품질을 안정적으로 유지합니다. 이것은 전문 음높이 교정 소프트웨어의 표준입니다.

음성 변환기의 경우 보존은 미묘한 조정을 원할 때 중요합니다: 음질 특성을 변경하지 않고 음성을 약간 따뜻하거나 밝게 조정하거나, 특정 주파수 범위에서 거칠음을 추가하는 마이크를 보상합니다. 또한 라이브 스트림 중에 인식 불가능하게 되지 않고 특정 캐릭터의 케이던스와 일치시키는 데 유용합니다.

VoxBooster의 포먼트 슬라이더는 0 주변에서 작동합니다. 양수로 이동하면 포먼트를 위로 이동(밝음, 더 작은 성도 품질), 음수로 이동하면 아래로 이동(어두움, 더 큰 성도 품질)합니다. 음높이만 조정한 상태로 0에 두면 너무 멀리 밀 경우 다람쥐 효과를 얻습니다. 둘 다 보정된 비율로 잠그면 변환을 얻습니다. 포먼트만 조정하면 미묘한 톤 조각을 얻습니다.

기존 DSP 도구가 포먼트를 처리하는 방법

고전적인 음성 변환기는 LPC (선형 예측 코딩) 또는 Cepstral 포락선 추정이라는 기법을 사용하여 오디오의 짧은 프레임에서 스펙트럼 포락선을 추출하고, 해당 포락선을 고정 승수로 왜곡한 다음, 오디오를 재구성합니다. MorphVOX 및 Voicemod의 이전 버전과 같은 도구는 이 접근 방식의 변형을 사용합니다.

유지된 모음에서 중간 정도의 시프트 양에서 합리적으로 잘 작동합니다. 문제는 가장자리에서 나타납니다:

자음 및 전환. 마찰음(“s” 또는 “f”) 또는 정지 폭발 중의 스펙트럼 포락선은 모음과 같은 구조를 가지지 않습니다. 모음 최적화된 포락선 왜곡을 자음에 적용하면 자음을 흐리게 하거나 아티팩트를 생성합니다.

빠른 음성. LPC 프레임 분석은 신호가 각 짧은 창 내에서 준정적이라고 가정합니다. 빠른 포먼트 전환을 가진 빠른 음성은 이 가정에 도전하여 들을 수 있는 “버블링” 아티팩트를 생성합니다.

고정 승수. 스펙트럼 전체에 균일하게 적용되는 단일 포먼트 시프트 승수는 실제 성도의 작동 방식과 일치하지 않습니다. 성도 구성이 변할 때 모든 포먼트가 같은 비율로 이동하지는 않습니다.

이러한 제한사항은 치명적이지 않습니다. 많은 스트리머가 기존 DSP 기반 변환기를 성공적으로 사용합니다. 하지만 자연스러운 결과를 얻으려면 신중한 조정이 필요하며 일부 변환은 깔끔하게 달성할 수 없다는 의미입니다.

AI 음성 변환기가 포먼트를 다르게 처리하는 방법

현대 AI 음성 변환기 - 그리고 여기서 기술이 진정으로 발전했습니다 - 전통적인 의미에서 스펙트럼 포락선을 추정하고 왜곡하지 않습니다. 대신 대규모 인간 음성 데이터 세트로 훈련된 신경망을 사용하여 음성 특성의 통계 구조를 학습하며, 자연스러운 음성 중에 포먼트가 어떻게 이동하는지 포함합니다.

런타임에 모델은 들어오는 오디오를 처리하고 입력 포먼트에 고정된 수학적 변환을 적용하는 대신 대상 음성의 포먼트 특성을 반영하는 출력을 생성합니다. 실제 차이:

자음 처리. 모델이 실제 음성이 자음을 생성하는 방법을 배웠기 때문에 일반 스펙트럼 왜곡보다 더 자연스럽게 처리합니다.

지속적인 적응. 고정된 프레임을 독립적으로 분석하는 대신 반복 또는 주의 기반 모델은 주변 프레임의 맥락을 사용할 수 있어 음소 간 전환을 더 부드럽게 만듭니다.

대상 일치 포먼트. 특정 음성을 복제할 때 신경 모델은 일반 시프트 공식이 예측하는 것이 아니라 그 사람의 음성이 실제로 하는 것과 일치하는 포먼트를 생성합니다.

트레이드오프는 계산 비용과 지연입니다. 신경 음성 변환은 LPC보다 더 까다롭습니다. 소비자 하드웨어에서 10ms 왕복 미만으로 얻는 것은 실제 엔지니어링 문제입니다. VoxBooster의 저지연 오디오 캡처 기반 파이프라인은 오디오 스레드에서 신중한 버퍼 크기 조정으로 처리하고, 신경 처리를 전용 백그라운드 스레드에 유지하고 결과를 미리 버퍼링함으로써 10ms 미만의 오디오 지연을 달성합니다. 이는 Discord 또는 게임 내 통신에서의 라이브 사용에 중요한 설계 선택입니다.

특정 음성 변환 목표를 위한 포먼트 시프팅

성별 교차 변환

이것이 사람들이 가장 일반적으로 음성 변환기에서 원하는 변환이며, 또한 설득력 있게 수행하기가 가장 어렵습니다. 설득력 있는 남성에서 여성으로의 변환은 음높이를 올리면서 포먼트를 약 15-25% 올릴 필요가 있습니다. 그러나 정확한 양은 음성, 대상, 말하는 내용의 음성 내용에 따라 다릅니다.

흔한 실수는 포먼트를 건드리지 않고 음높이를 올린 다음 왜 명백히 처리된 것처럼 들리는지 궁금해하는 것입니다. 두 번째 흔한 실수는 다른 음성 유형으로 보정된 사전 설정된 값을 사용하는 것입니다. 평균 이상 깊은 남성 음성이 있다면, 중간 범위 남성 음성을 위해 설계된 사전 설정은 여전히 부족합니다.

작은 포먼트 시프트(5-10%)부터 시작하고 들어보세요. 남성 음성은 중립 모음의 경우 F1이 약 500Hz 주변, F2가 약 1500Hz 주변에 있는 경향이 있습니다. 여성 음성은 F1이 약 700Hz 근처, F2가 약 2000Hz 주변에 있습니다. 포먼트를 20-25% 올리면 올바른 범위에 들어갑니다. 그런 다음 음높이를 맞추도록 조정하세요. 일반적으로 생각보다 적은 음높이 시프트가 필요합니다. 포먼트 시프트가 이미 대부분의 지각 작업을 수행하기 때문입니다.

캐릭터 음성

로봇 음성, 외계인 캐릭터, 악마 및 유사한 효과는 종종 자연 성도 모델을 의도적으로 깨는 방식으로 포먼트 시프팅을 사용합니다. 그것이 요점입니다. 포먼트를 극적으로 아래로 이동하면 고전적인 “큰 악마” 효과가 생깁니다. 약간의 음높이 감소로 극단적으로 위로 이동하면 기계적 또는 외계인으로 읽히는 매우 비인간적인 텍스처가 생깁니다.

참고를 위해 로봇 음성 효과 및 라디오 음성 효과의 관련 게시물을 확인하여 포먼트 작업과 잘 맞는 보완적인 처리 기법을 확인하세요.

미묘한 위장 또는 개인정보 보호 마스킹

모든 사용 사례가 극적인 변환은 아닙니다. 일부 스트리머는 청중에게 뚜렷하게 인식할 수 있지만 실제 음성에 할당할 수 없는 방식으로 말하고 싶어합니다. 작은 포먼트 시프트(5-10%)와 중간 정도의 음높이 조정(2-4반음)을 결합하면 음성 식별 소프트웨어가 인간 리스너에게 명백하게 처리되게 하지 않고도 실패하기에 충분합니다.

음질 변경 없이 음높이 교정

VoxBooster의 음높이 교정 기능을 사용하여 노래 삽입 중에 음정을 유지하거나 팟캐스트를 더 공명 높이에서 사용할 때 포먼트 보존을 활성화하면 음높이가 조정되는 동안 모음이 자연스럽게 유지됩니다. 이것은 전문 방송인이 후두를 훈련하지 않고 일상적인 음성 음높이를 이동하는 데 사용하는 동일한 기법입니다.

VoxBooster에서 포먼트 제어 사용

VoxBooster의 음성 효과 패널의 포먼트 슬라이더는 반음 단위로 표현되며 직관적인 페어링을 위해 음높이 슬라이더의 단위와 일치합니다. 실용적인 워크플로는 다음과 같습니다:

VoxBooster를 열고 사이드바에서 음성 효과 모드를 선택합니다.
원하는 변환에 대한 기본 음높이 시프트를 설정합니다. 예를 들어 더 가벼운 음성의 경우 +4반음입니다.
음높이를 설정하면 포먼트 슬라이더를 천천히 위로 이동합니다. 가능하면 헤드폰에서 들어보세요. 음성이 “제 음높이 이동된 버전”에서 “다른 사람”으로 변하는 것을 들을 수 있습니다.
자연스럽게 들리는 +4반음 음높이 변화의 달콤한 점은 일반적으로 포먼트 시프트의 +2에서 +3반음입니다. 음악 반음과 선형적이 아니라 성도 길이에 비례하기 때문에 비율이 1:1이 아닙니다.
AI 음성 복제 모드를 사용하는 경우 신경 모델이 자동으로 포먼트를 선택합니다. 포먼트 오프셋 슬라이더는 모델 출력 위의 미묘한 조정 플러시로 작용합니다. 대상 음성이 특정 모음 범위에서 약간 벗어난 경우 유용합니다.

OBS 사용자의 경우 VoxBooster는 표준 가상 오디오 장치로 등록됩니다. OBS 설정에서 마이크 소스로 선택하면 포먼트 시프트된 오디오가 다른 마이크 입력처럼 정확히 라우팅됩니다. OBS 쪽에서 플러그인이 필요하지 않습니다. Discord 설정에 해당하는 how-to-use-voice-changer-on-discord를 참조하세요. 라우팅 원칙은 동일합니다.

VoxBooster의 기능 페이지에서 포먼트 시프팅과 함께 작동하는 실시간 효과의 전체 목록을 확인할 수도 있고, 음성 변환 기능 페이지에서 완전한 기술 사양을 확인할 수 있습니다.

흔한 실수 및 해결 방법

헤드폰에서 듣지 않고 포먼트 시프팅. 스피커 누설 및 실내 음향이 포먼트 처리가 도입하는 아티팩트를 마스크합니다. 스피커를 통해 좋게 들리는 것은 종종 헤드폰을 통해 명백하게 처리된 것처럼 들립니다. 이는 스트림 청중이 당신을 듣는 방식입니다.

음성에 대한 보정 없이 사전 설정 사용. 사전 설정은 개발자 데이터 세트의 “전형적인” 음성을 기반으로 구축됩니다. 음성이 전형적이지 않다면(비정상적인 공명, 억양, 음높이 범위), 사전 설정을 순환하는 것보다 5분을 수동 보정에 소비하는 것이 더 나은 결과를 얻을 것입니다.

한 방향으로 너무 많은 시프트. 포먼트 시프팅은 강한 효과입니다. 20% 시프트는 이미 상당한 변환입니다. 40%로 이동하면 포먼트를 고조파 시리즈와 상호 작용하는 주파수 영역에 밀었기 때문에 비어있는 튜브 같은 아티팩트가 생성되기 시작합니다.

잡음 제거와의 상호 작용 무시. VoxBooster의 내장 제거기를 포함한 노이즈 제거 필터는 라우팅에 따라 효과 체인 앞 또는 뒤에 신호에 작동합니다. 노이즈 제거가 포먼트 시프팅 앞에 있으면 제거기의 스펙트럼 스미어링이 포먼트 추정을 저하시킬 수 있습니다. 아래에 있으면 제거기가 포먼트 이동된 신호의 고주파 내용 일부를 먹을 수 있습니다. 둘을 사용하는 경우 순서로 실험해 보세요.

AI 클론이 효과 체인 조정의 대체라고 기대합니다. AI 음성 클론은 포먼트를 처리하지만 모델의 출력은 여전히 입력 음성 품질, 마이크의 주파수 응답 및 배경 소음의 영향을 받습니다. 모델에 들어가는 깨끗한 신호는 시끄럽거나 울리는 방의 녹음보다 훨씬 깨끗한 변환을 생성합니다.

무엇이 음성을 특정 사람처럼 들리게 합니까?

이것은 처음 나타나는 것보다 더 깊은 질문이며 AI 음성 변환기가 실제로 무엇을 하는지 이해하는 것과 관련이 있습니다. 음성에서 화자를 식별하는 데는 다음이 포함됩니다:

기본 주파수 범위 및 변동성(말하는 “멜로디”)
포먼트 주파수 및 동적 궤적(모음의 “모양”)
음성 품질 매개변수: 거침, 크래킹, 비성, 성대 폐쇄 정도
리듬, 속도 및 운율(속도 및 스트레스 방식)
비강 및 부비동의 공명 특성

간단한 음높이 및 포먼트 시프트는 처음 두 가지를 근사할 수 있습니다. 세 번째와 네 번째에는 더 정교한 처리가 필요합니다. 대상 음성에 대한 이러한 기능의 통계 분포를 모델링하는 것인데, 이것이 신경 음성 변환이 수행하는 것입니다. 음성 변환기가 운율(네 번째)을 일반적으로 변경하지 않기 때문에 다른 모든 것이 변환되어도 음성 패턴이 인식 가능하게 자신의 것으로 유지되는 이유입니다.

이것을 이해하면 현실적인 기대치를 설정하는 데 도움이 됩니다. 음성 변환기는 들리는 방식을 변경할 수 있습니다. 말하는 방식은 변경할 수 없습니다. 음성 변환과 의도적인 운율 모방의 조합이 가장 설득력 있는 모방을 생성하는 것입니다. 하지만 두 번째 부분은 소프트웨어가 아니라 연습이 필요합니다.

더 깊은 음향 과학에 관심이 있는 독자를 위해 Gunnar Fant의 성도 음향에 관한 고전 논문은 기본 참고 자료이고, OBS 가상 오디오 장치 문서는 가상 오디오 라우팅이 OS 수준에서 작동하는 방식을 다룹니다.

자주 묻는 질문

음성 변환기에서 포먼트 시프팅이란 무엇입니까?

포먼트 시프팅은 성도의 공명 주파수를 이동합니다. 음높이를 반드시 변경하지 않고도 음성의 스펙트럼에서 모음 소리와 음질을 정의하는 피크를 이동합니다. 이는 음성 변환이 단순히 가속되거나 감속된 버전이 아니라 다른 사람처럼 들리게 만드는 것입니다.

포먼트 시프팅과 음높이 변조가 같은 것입니까?

아니요. 음높이 변조는 음악적 음표처럼 음성의 기본 주파수를 올리거나 내립니다. 포먼트 시프팅은 음높이와 관계없이 공명 공동의 특성을 변경합니다. 올바른 비율로 둘 다 수행하는 것이 설득력 있는 음성 변환을 만듭니다.

음높이 변조만으로는 왜 부자연스럽게 들립니까?

포먼트를 조정하지 않고 음성의 음높이를 변조하면 공명 피크는 같은 스펙트럼 위치에 머물지만 기본 주파수는 이동합니다. 결과는 만화 다람쥐나 느린 모션 녹화처럼 들리는데, 실제 인간의 음성은 이런 식으로 작동하지 않기 때문입니다. 자연스러운 음성은 성도 길이에 따라 확장되는 포먼트를 가집니다.

포먼트 보존이란 무엇이고 언제 필요합니까?

포먼트 보존은 음높이가 변해도 원본 공명 주파수를 유지합니다. 노래하거나 말할 때 처리된 소리 없이 음높이를 유지해야 할 때 필요합니다. 합창 앱은 광범위하게 사용합니다. 음성 변환기 맥락에서 보존은 음질 특성을 변경하지 않고 미세한 조정을 원할 때 유용합니다.

AI 음성 변환기가 포먼트를 더 오래된 도구와 다르게 처리합니까?

기존 DSP 도구는 포먼트를 고정된 스펙트럼 포락선 왜곡으로 변환합니다. 현대 AI 음성 변환기는 음성을 지속적으로 분석하고 대상 음성의 자연스러운 포먼트 궤적을 예측하는 신경 모델을 적용하여 빠른 음성 및 자음 폭발 중에도 더 부드럽고 사실적인 전환을 생성합니다.

VoxBooster에 포먼트 제어가 있습니까?

네. VoxBooster는 음높이 슬라이더와 독립적으로 음성 효과 패널에서 포먼트 시프트 슬라이더를 표시합니다. 함께 이동하거나 별도로 이동할 수 있습니다. AI 음성 복제 모드의 경우 신경 모델이 자동으로 포먼트를 처리하지만 포먼트 오프셋을 미세 조정하여 출력을 조정할 수 있습니다.

포먼트 시프팅을 사용하면 게임에서 안티치트 또는 음성 감지 문제가 발생합니까?

아니요. 포먼트 시프팅은 가상 마이크에 도달하기 전에 오디오 스트림에 적용되는 표준 오디오 DSP 작업입니다. VoxBooster는 저지연 오디오 캡처를 사용하고 표준 가상 오디오 장치를 등록합니다. 게임과 안티치트 시스템은 드라이버 수준의 후킹이 아닌 일반적인 마이크 입력을 봅니다.

결론

포먼트 시프팅은 “음성 변환기를 사용 중입니까?”라고 묻게 만드는 음성 변환과 “그것이 실제 음성입니까?”라고 묻게 만드는 음성 변환의 차이입니다. 포먼트 인식이 없는 음높이 시프트는 스튜디오 트릭처럼 들립니다. 음높이와 포먼트를 함께 변환 목표에 대한 올바른 비율로 조정하는 것은 다른 사람처럼 들립니다.

음성 작업에 진지하다면 - 스트리밍, 콘텐츠 제작, 개인정보 보호 또는 단지 실험 - 포먼트가 무엇을 하는지 실제로 이해하는 저녁을 보낸 다음 사전 설정을 순환하기보다는 설정에 해당 이해를 적용할 가치가 있습니다. 컨트롤은 일단 정신 모델을 가지면 복잡하지 않습니다.

VoxBooster는 둘 다에 대한 독립적인 슬라이더와 대상 음성 변환을 위해 포먼트 매핑을 자동으로 처리하는 AI 음성 복제를 제공합니다. 무료 3일 평가판은 이 게시물에서 설명하는 모든 워크플로를 작업할 충분한 시간을 제공합니다.

VoxBooster 다운로드 - 무료 3일 평가판, 신용 카드 불필요.