토지 후시구로 음성 인상 가이드

토지 음성 인상은 주술회전 회전 명단에서 가장 보람 있는 캐릭터 음성 중 하나인데, 위조하기 가장 어려운 것 중 하나이다. 대부분의 애니메 캐릭터가 추적 할 표현 피크를 제공하는 곳에서 토지 후시구로는 음의 공간을 제공한다 - 절제를 통해 위협을 방출하는 통제된 거의 무감정적 인 전달. 이 가이드는 그 음성의 음향 프로필, 실시간으로 그것을 근처에두는 DSP 설정, 물리적 습관을 구축하는 훈련 드릴, 그리고 피치 시프팅 만으로 달성할 수 있는 것을 넘어 결과를 푸시하는 AI 복제 워크플로를 분석한다.

TL;DR

토지의 음성은 통제된 조용함으로 정의된다 : 저-정상 남성 음역, 중립 포먼트, 최소 호흡, 건조한 클로즈-마이크 느낌 - 외치는 애니메 주인공의 반대.
일본어 더빙 (Takehito Koyasu) : -2에서 -3 반음, 가슴 지향 공명. 영어 더빙 (Patrick Seitz) : -1에서 -2 반음, 더 건조하고 더 무심코.
DSP 체인 : 피치 시프트 → 포먼트 중립 → 노이즈 게이트 → 부드러운 압축 → 리버브 없음.
깨끗한 JJK 오디오로부터의 AI 복제는 당신을 실제 물건의 한 층 안으로 얻는다, DSP가 복제 할 수없는 팀브르를 채운다.
VoxBooster는 Windows 10/11에서 저지연 오디오 캡처를 통해 실행되며, 300ms 미만의 AI 복제 지연 - 커널 드라이버 없음, 안티치트 충돌 없음.
Discord, 스트리밍 및 게임을 위한 팬 사용은이 가이드의 의도 한 범위이다. 상업용 사용은 권리 소유자 검토가 필요하다.

토지 후시구로는 누구이며 그의 음성이 왜 중요한가?

토지 후시구로는 Gege Akutami의 만화인 주술회전의 Hidden Inventory arc에 소개되고 MAPPA에서 제작한 애니메이션 시리즈이다. 그는 Zenin 클랜의 전직 멤버로서 저주 에너지 없이 완전히 태어났다 - 그 세계에서 누군가를 기본적으로 무가치하게 표시하는 상태. 그의 대응은 순수한 무술 공예를 통해 Special Grade 주술사들을 물리 칠 수 있는 살아있는 가장 위험한 비-주술사 암살자 만들기 위해 그의 신체 신체를 훈련하는 것이었다.

그 배경은 음성에 내장된다. 토지는 증명할 것이 없고, 팔 의도념이 없으며, 그를 위해 공연 할 정도로 존경하는 사람이 없다. 그는 선택할 때만 말하고, 필요한 최소한을 말하며, 날씨에 대한 사소한 관찰을 진술하는 것처럼 전달한다. 따뜻한 것이 표면화되는 몇 가지 순간들 - 그의 아들의 잠재력에 대한 짧고 사적인 인정 - 정확히 그들이 그 패턴을 깨뜨리기 때문에 힘으로 착륙한다.

일본어 더빙에서 Takehito Koyasu는 특징적인 저 바리톤 제어로 토지를 수행한다 : 서두르지 않고, 어둡게 질감있는, 그리고 Koyasu가 그의 서명 캐릭터에 가져다주는 특정 품질을 운반 - 위협의 해류와 함께 멋진 권위. 영어 더빙에서 Patrick Seitz는 캐릭터의 감정적 불투명성을 유지하면서 미국 암살자 원형을 강조하는 더 건조하고 더 무심코한 읽기를 전달한다.

이 가이드에서 소프트웨어 설정을 터치하기 전에 두 가지 성능을 모두 이해하는 것이 가장 중요한 단계이다.

토지의 음성의 음향 프로필

단일 슬라이더를 조정하기 전에, 음성이 실제로하는 일과 의도적으로하지 않는 일을 이해하는 것이 도움이 된다.

음역과 등록

토지는 자연 성인 남성 음성의 중기 범위에 앉지만 극도로 깊지는 않다. Takehito Koyasu의 자연 음성은 풍부한 바리톤이고, 토지 성능은 대략 -2에서 -3 반음의 하향 배치를 중립 성인 남성 참조와 관련하여 사용한다. 자연스럽게 깊은 음성을 가지고있는 Patrick Seitz는 토지를 그의 자연 레지스터에 더 가깝게 수행한다 - 시프트는 기본 주파수보다 전달 스타일에 더 많다.

핵심 통찰력은 토지가 극단적 인 깊이 때문에 강력하게 들리지 않는다는 것이다. 음성이 안정적이기 때문에 강력하게 들린다. 신경증, 흥분 또는 설득 욕구를 신호하는 음역 변화가 없다. 한 수준에서 도착하여 거기에 머물러 있다.

포먼트 배치

공명 피크를 제공하는 포먼트 - 음성에 특징적인 팀브르를 제공하는 - 토지를 위해 중립 위치에 앉는다. 그는 앞으로 배치되지 않고 밝고 (어린 나이 또는 열정으로 읽을 것) 무겁게 뒤로 배치되고 과장되지 않는다 (극장으로 읽을 것). 가슴 공명이 존재하지만 밀어붙이지 않는다 ; 음성은 노력 투사없이 몸 안에서 편안하게 앉는다.

이것은 음향으로 중립에서 흉부 포먼트 배치로 설명된다 : 물리적으로 실질적으로 등록하기에 충분히 가득 차 있고, 어떤 성능자 방송 품질을 피하기에 충분히 제한되어 있다.

호흡과 관절

호흡은 올바르게 얻기 위해 가장 중요한 기술 요소이다. 토지의 전달은 건조하다 - 구문 전에 최소 들리는 호흡, 모음에서 호흡 할 수 없음, 문장 후 호흡 할 수 없음. 이것은 많은 팬들이 설명하는 “클로즈 마이크” 품질을 만든다 : 음성은 방에 바로 있는 것처럼 들리고, 발표되지 않고 발표되지 않는다.

관절은 의도적이고 서두르지 않는다. 자음은 깨끗하고 서두르지 않는다. 휴지는 발생자가 불확실해서가 아니라 발생자가 다음 문장이 노력의 가치가 있는지 결정하기 때문에 발생한다. 그 리듬 - 진술, 일시 중지, 아마도 후속 - 음성 자질을 모방하는 것처럼 중요하다.

따뜻함의 숨결

토지의 드문 따뜻한 순간은 음향으로 미묘하다 : 여기서 약간 더 긴 모음, 무관심보다는 다른 것을 신호하는 끝 음역의 짧은 강하. 그들은 완전히 이완되거나 열려 있지 않다. 토지가 인간의 따뜻함에 가장 가까워 보이는 순간도 모든 것을 지배하는 동일한 제어를 통해 필터링된다 - 그것을 대체하는 대신 표면 아래에서 나온다.

이 순간들을 잘 복제하려면 그들이 통제된 기선의 변형이고 그것으로부터의 이탈이 아니라는 것을 이해해야 한다.

실시간 토지 음성 효과를 위한 DSP 설정

AI 모델을 훈련하지 않고 소프트웨어 음성 체인저를 통해 토지의 음성을 근사하려면 다음 DSP 체인이 모든 표준 오디오 처리 소프트웨어에서 작동한다.

피치 시프트

영어 더빙 목표 (Patrick Seitz 등록) : -1에서 -2 반음
일본어 더빙 목표 (Takehito Koyasu 등록) : -2에서 -3 반음

더 낮게 가지 마라. 음성이 “충분히 무거워 보일 때까지” 계속 낮춰지는 것이 유혹이지만 -3 반음 이하에서 음성은 명료성을 잃기 시작하고 토지의 자연주의 배달에 대해 작동하는 인공 품질을 개발한다. 그의 레지스터는 제어되고 극단적이지 않다.

포먼트 조정

포먼트를 0에서 -0.5 반음으로 유지 - 본질적으로 중립. 큰 피치 시프트없이 음의 포먼트 시프트는 음성이 당신보다 큰 스피커에 속하는 것처럼 들리지 않도록 유지한다. 긍정적인 포먼트 시프트는 음성을 캐릭터와 충돌하는 더 젊고 더 투사 된 품질을 향해 밝게했을 것이다.

노이즈 게이트

노이즈 게이트 임계값을 구문 사이의 배경 노이즈를 제거하기에 충분히 높게 설정하십시오. 토지의 전달은 정의된 시작과 끝이있다 ; 문장 사이에 빠져나가는 주변 방음은 건조하고 의도적인 품질을 훼손한다. -40에서 -35 dB의 임계값을 빠른 공격 (1-2ms) 및 적당한 방출 (100-150ms)로 설정하면 잘 작동한다.

압축

부드러운 압축을 적용 - 비율 약 2:1 ~ 3:1, 느린 공격 (20-30ms), 느린 방출 (200-300ms). 이것은 동적 바닥을 유지하면서 모든 성능 피크를 길들인다. 토지는 종래의 의미에서 외치지 않는다 ; 압축은 처리된 신호에 그 음성 자기 제어를 반영한다.

리버브 없음

이것은 중요하다 : 리버브를 추가하지 마십시오. 방 리버브는 음성이 투사되고 방송되도록 만들며, 이는 토지의 가깝고 즉각적인 존재의 정확히 반대이다. 녹음 환경이 실내 음을 도입하면 처리 전에 방향 마이크로폰 및 음향 처리로 소스를 처리하십시오.

매개 변수	영어 더빙 목표	일본어 더빙 목표
피치 시프트	-1에서 -2 반음	-2에서 -3 반음
포먼트 시프트	0에서 -0.5 반음	0에서 -0.5 반음
노이즈 게이트 임계값	-38 dB	-38 dB
압축 비율	2:1에서 3:1	2:1에서 3:1
리버브	없음	없음
EQ 고선반 (8 kHz+)	-1에서 -2 dB	-2에서 -3 dB

토지 음성 인상을 위한 훈련 드릴

소프트웨어 처리는 간격을 닫는 부분이지만, 음성 인상 작업 - 물리적 습관 - 결과가 얼마나 설득력 있는지 결정한다. 이 드릴은 토지를 일반적인 “조용한 악당” 음성으로부터 구별하는 특정 자질을 목표로 한다.

드릴 1 : 지속 된 단조로운 구문 배달

감정 콘텐츠가 없는 5 개의 짧은 선언적 문장을 선택 - “나는 목표를 찾았다.” “계약이 이루어졌다.” “예상보다 오래 걸렸다.” 각각을 같은 음역, 같은 속도, 같은 볼륨, 5 번 행 이어서 전달하십시오. 목표는 참여 또는 감정을 신호하는 자연 미량 변화를 제거하는 것이다. 기록하고 다시 들어라 ; 대부분의 발생자는 그들이 평평하다고 생각할 때도 얼마나 많은 비자 표현이 지속되는지 놀랐다.

드릴 2 : 전후 일시 중지

토지의 리듬 서명에는 시작 전 침묵과 완료 후 침묵이 포함된다. 각 문장을 시작하기 전에 3 초 일시 중지를 연습하십시오. 그런 다음 호흡 전에 마지막 단어 이후 3 초 보유를 추가합니다. 이것은 침묵을 채우는 대신 소유 한 습관을 구축하며, 이는 그의 배달의 가장 인식할 수 있는 자질 중 하나이다.

드릴 3 : 호흡 감소

단락을 말하고 들을 수있는 호흡을 청취하십시오. 그런 다음 같은 단락을 다시 말하고, 이번에는 의식적으로 각 문장 전에 호흡 소리를 줄입니다. 목표는 침묵 호흡이 아니다 - 그것은 긴장해 보인다 - 하지만 조용하고 통제된 호흡이 정상적인 청음 거리에서 표준 마이크로폰에 등록하지 않는다. 이것은 횡격막 제어 연습이 필요하다.

드릴 4 : 낮은 에너지에서의 자음 정밀도

낮고 조용한 음성은 종종 자음 명료성을 잃는다 - 정지는 진흙투성이가되고, 마찰음은 사라진다. 단단한 자음 (k, t, p) 및 sibilants (s, sh)에서 무거운 문장으로 낮은 볼륨으로 연습하십시오. “목표를 죽였고, 계약을 들었고, 예금을 유지했다.” 볼륨을 높이지 않고 깨끗한 자음 정밀도를 유지하십시오. 이것은 앞에서 설명한 “건조하고 가까운 마이크” 느낌의 물리적 아날로그이다.

드릴 5 : 따뜻함 현재

단어가 언급하는 것보다 더 깊은 것을 암시하는 문장을 찾아 - “당신은 더 강해졌다” 또는 “그것은 나쁘지 않다.” 토지의 통제 기선에서 매우 끝에서 최소한의 끝 음역 강하로 전달하십시오 - 거절보다는 인정을위한 음향 신호. 변화가 존재하지만 미묘할 때까지 연습하십시오 : 신중한 청취자에게 들을 수있는, 우연한 것에게는 보이지 않는.

토지 음성 모드를위한 AI 음성 복제 워크플로

DSP 처리는 올바른 레지스터로 이동한다. AI 음성 복제는 특정 팀브르로 가져온다 - 음성 통로 특성, 공명 패턴 및 토지의 음성을 인식 할 수있게 만드는 마이크로 타이밍 습관의 조합, 단순히 유사하기보다는.

1 단계 : 청정 훈련 오디오 수집

Jujutsu Kaisen 애니메의 토지 말뭉치는 주요 캐스트 캐릭터보다 작다 - 그것은 모든 에피소드 대신 집중된 호에서 나타난다. 초점을 맞춘다 :

Hidden Inventory arc 대화 (시즌 2) : 확장된 토지 라인의 가장 큰 단일 소스
Culling Game arc 자료 : 더 짧지만 음향 일관성
배경 음악이나 중요한 주변 음향 효과가없는 장면

목표 15에서 30 분의 고립된 음성. 10 분 미만은 기능적이지만 얇은 모델을 생성한다.

2 단계 : 오디오 준비

훈련 전에 오디오가 청소해야한다 :

소스 분리 도구를 사용하여 배경 음악에서 음성을 분리합니다.
2 초보다 긴 비음성 세그먼트 및 침묵을 자른다
일관된 피크로 정규화 수준
모노, 44.1 kHz 또는 48 kHz, WAV 형식으로 내보내기

이 준비 단계의 품질은 데이터 양보다 최종 모델에 더 많은 영향을 미친다.

3 단계 : 기차 또는 사전 훈련 된 모델 찾기

로컬 GPU에서 처음부터 훈련은 하드웨어와 데이터 볼륨에 따라 2 ~ 6 시간이 걸린다. weights.gg와 같은 커뮤니티 저장소는 사전 훈련된 애니메 캐릭터 음성 모델을 자주 호스팅한다. 잘 검토 된 토지 모델이 존재하면 시작점으로 사용하고 청정 오디오로 미세 조정하는 것이 처음부터 훈련보다 빠르다.

4 단계 : 음성 체인저에로드 및 구성

VoxBooster에서 AI Voice 섹션을 통해 훈련된 모델 파일을 가져옵니다. VoxBooster는 저지연 오디오 캡처를 사용하여 오디오 라우팅을 위해 Windows 10/11에서 AI 음성 변환을 로컬로 처리한다 - 300ms 미만의 지연은 push-to-talk가 엄격히 필요하지 않으면 라이브 대화에서 사용할 수 있음을 의미하지만 push-to-talk는 여전히 경쟁 게임에 권장되어 남은 지연을 피한다.

5 단계 : 응용 프로그램으로 라우팅

VoxBooster의 가상 마이크로폰을 Discord의 Voice & Video 설정의 입력 장치, OBS의 오디오 소스 또는 게임의 오디오 입력으로 설정하십시오. 응용 프로그램은 처리 된 신호를 수신한다 ; 당신의 물리적 마이크는 아무것도받지 않는다.

전체 체인 설정 : Discord 및 OBS Walkthrough

Discord

Discord 열기 → 설정 → Voice & Video
입력 장치를 VoxBooster 가상 마이크로폰으로 설정합니다.
Discord의 노이즈 억제 비활성화 (이미 처리 체인의 노이즈 게이트와 충돌)
라이브 세션 전에 개인 서버 채널에서 테스트

OBS / 스트리밍

OBS에서 오디오 입력 캡처 소스를 추가합니다.
장치로 VoxBooster 가상 마이크로폰을 선택하십시오.
다른 오디오 소스로 수준을 일치시키기 위해 필요한 경우 이득 필터를 추가합니다.
라이브 방송 전에 테스트 녹화 중에 OBS의 오디오 미터에서 신호를 모니터링합니다.

게임

Windows 기본 녹음 장치에서 읽는 모든 게임은 Windows에서 기본값으로 설정하면 VoxBooster 가상 마이크로폰을 자동으로 픽업한다. 응용 프로그램 내 음성 설정이있는 게임의 경우 VoxBooster 장치를 명시적으로 선택하십시오.

DSP 및 AI 복제 접근법 비교

접근법	설정 시간	음성 일치 정확도	지연	최고 대상
DSP 음역 + 포먼트만	5 분	대략적인 레지스터 일치	< 20ms	빠른 설정, 모든 CPU
DSP + 훈련 된 AI 모델	2-6 시간 (훈련)	높은 팀브르 충실도	< 300ms (GPU)	라이브 Discord, 스트리밍
사전 훈련 된 커뮤니티 모델	15 분 (수입)	모델 품질에 따라 다름	< 300ms (GPU)	빠른 고품질 결과
물리 인상만	주 단위 연습	가능한 최고	0ms	소프트웨어없이 성능

대부분의 사용자를위한 실제 권장사항은 DSP 설정으로 시작하여 즉시 사용 가능한 결과를 구축하고 병렬로 물리 인상 습관을 개발하며 청정 훈련 오디오가 소싱되고 준비되면 AI 복제로 계층화된다.

윤리 및 팬 콘텐츠 가이드 라인

이 가이드는 팬 콘텐츠를 위해 작성된다 : Discord 역할극, 게임 캐릭터 음성, 스트리밍 엔터테인먼트, 코스튬플레이. 토지 후시구로는 허구의 캐릭터이며 음성은 전문 음성 배우가 수행한다 - 토지토 Koyasu in Japanese and Patrick Seitz in English. 개인, 비상업적 모델을위한 훈련 데이터로서 그들의 성과를 사용하는 것은 광범위하게 팬 창작 작업의 수용 된 규범 내에 속한다.

그 규범 외 : 공식 자료로 오인 될 수있는 콘텐츠를 생성하기 위해 복제된 음성 모델을 사용하거나 권리 소유자의 권한없이 상업 프로젝트를 사용하거나 소스 성능자를 오도하는 사용. 당신의 프로젝트가 취미 사용을 넘어가면 발행하기 전에 해당 지침을 참조하십시오.

내부 자원

광범위한 애니메 음성 레퍼토리를 구축하는 경우 다음 VoxBooster 가이드는 관련 캐릭터 음성을 다룬다 :

데쿠 음성 체인저 설정 가이드 - Izuku Midoriya의 성실하고 감정적인 전달
애니메 음성 체인저 개요 - 모든 애니메 캐릭터 음성의 일반 프레임 워크
깊은 음성 체인저 설정 - 낮고 권위있는 레지스터를위한 DSP 기술
Discord 음성 필터 가이드 - Discord에 모든 음성 효과를 올바르게 라우팅

자주 묻는 질문

토지 음성 인상이란 무엇이며 왜 어려운가? 토지 음성 인상은 주술회전의 토지 후시구로의 차분하고 찬 서두르지 않은 전달을 복제한다 - 그것이 투사하는 것만큼 감출 수 있는 것으로 정의된 음성. 어려움은 음성을 얇은 음성이 아니라 full하고 현재로 유지하면서 deadpan 제어를 유지하는 데 있다. 대부분의 성능자는 과도하게 억제하고 공명을 잃는다.

jjk toji 음성 모드에 어떤 피치 시프트를 사용해야 하나? 영어 더빙 성능을 목표로 하는 jjk toji 음성 모드의 경우, 중립 포먼트 배치와 결합한 -1에서 -2 반음의 적절한 피치 시프트가 가장 잘 작동한다. 일본어 더빙 레지스터는 -2에서 -3 반음에서 약간 더 깊다. 과도한 저하를 피한다 - 토지의 힘은 극단적 인 깊이가 아니라 음성 제어에서 온다.

토지 AI 음성 모델을 실시간으로 실행하려면 GPU가 필요한가? DSP 전용 피치 및 포먼트 처리의 경우, 최신 CPU는 50ms보다 훨씬 작은 지연 시간으로 충분하다. AI 음성 복제의 경우, GTX 1060 클래스 이상의 GPU는 지연 시간을 300ms 이하로 낮춘다. CPU 전용 AI 추론은 가능하지만 push-to-talk 훈련이 필요한 충분한 지연을 추가한다.

온라인에서 토지 후시구로 음성 인상을 사용하는 것이 합법인가? 비상업적 팬 사용 - Discord 역할극, 게임 스트림, 코스튬플레이 콘텐츠의 경우 - 허구의 캐릭터 음성 인상에 대한 집행은 극히 드물다. 상업화된 프로젝트 또는 상업용 애플리케이션의 경우 게시 전에 관련 권리자의 적용 가능한 문자 사용 지침을 검토하십시오.

토지 AI 음성 모델을 훈련하려면 얼마나 많은 오디오 데이터가 필요한가? 사용할 수 있는 모델에는 대략 10에서 30분 정도의 깨끗하고 고립된 대화가 필요하다 - 배경 음악 없음, 음성 위에 음향 효과 없음. 토지 말뭉치는 주요 캐스트 캐릭터와 비교할 때 상대적으로 작으므로 모든 호에서 깨끗한 라인을 선택하는 것이 중요하다.

안티치트를 트리거하지 않고 게임에서 토지 음성 모드를 사용할 수 있는가? 예, 소프트웨어가 커널 드라이버 대신 표준 Windows 오디오 API를 통해 작동하는 경우이다. VoxBooster는 오디오를 저지연 오디오 캡처를 통해 독점적으로 라우팅하므로 - 커널 수준 액세스 없음 - EAC, BattlEye 및 Riot Vanguard를 포함한 경쟁 게임 안티치트와 안전하게 공존한다.

토지 음성 인상과 AI 음성 복제의 차이는 무엇인가? 음성 인상은 DSP 처리로 수정 된 자신의 해부학적 음성에 의존한다. AI 음성 복제는 라이브 마이크로폰 입력을 훈련된 목표 음성 모델과 일치하도록 변환하여 소스 성능의 특정 팀브르에 더 가까이 간다. 두 가지 방법은 보완적이다 : 먼저 인상을 배운 다음 복제를 사용하여 틈을 닫는다.