Wyjaśnienie przesunięcia formantów: Naturalne zmiany głosu
Zmiennik głosu ze sztuczną inteligencją, który tylko zmienia wysokość, brzmi fałszywie w ciągu trzech sekund. Prawdziwy sekret stojący za przekonującymi transformacjami głosu to przesunięcie formantu - dostosowanie rezonansowych częstotliwości, które definiują akustyczny charakter Twojego traktu głosowego, niezależnie od wysokości. Gdy tylko zrozumiesz, jak działają formanty, natychmiast usłyszysz, co robią źle większość tanich zmienników głosu, i będziesz dokładnie wiedzieć, który pokręcło osiągnąć, gdy Twoje własne transformacje brzmią przetwarzane.
Ten post obejmuje fizykę stojącą za formantami w prostym języku, dlaczego zmiana wysokości bez kontroli formantu brzmi jak wiewiórka lub spowolniona taśma, jak nowoczesne zmienniki głosu ze sztuczną inteligencją obsługują formanty w porównaniu ze starszymi narzędziami DSP, i jak korzystać z kontroli formantów VoxBooster, aby uzyskać najbardziej naturalne brzmienie rezultatów.
Streszczenie
- Formanty to szczyty rezonansowych częstotliwości tworzone przez kształt Twojego traktu głosowego - definiują dźwięki samogłosek i charakter głosu.
- Zmiana wysokości sama zmienia podstawową częstotliwość, ale pozostawia formanty na miejscu, tworząc nienaturalny efekt “kreskówki”.
- Przesunięcie formantu dostosowuje spektralną kopertę niezależnie od wysokości, co sprawia, że transformacja głosu brzmi jak naprawdę inny człowiek.
- Idealny stosunek zmiany wysokości do przesunięcia formantu zależy od celu transformacji: subtelny kamuflaż, głos postaci lub pełne przejście płci.
- Zmienniki głosu ze sztuczną inteligencją modelują trajektorie formantów w sposób ciągły, tworząc gładsze rezultaty niż stały DSP skrzywienia koperty.
- VoxBooster ma niezależne suwaki wysokości i formantu, plus klonowanie głosu ze sztuczną inteligencją, które automatycznie obsługuje formanty.
Co to są formanty?
Twoje struny głosowe wytwarzają dźwięk bzyczący o częstotliwości podstawowej - to jest Twoja wysokość. Ale ten surowy bzyk jest prawie niepoznawalny jako głos. To, co go kształtuje w rozpoznawalne samogłoski, struktury emocjonalne i osobisty charakter brzmienia, to rezonans komór powyżej Twojej krtani: Twoje gardło, usta, wargi i przejścia nosowe razem tworzą trakt głosowy.
Trakt głosowy to rura o złożonym, stale zmieniającym się kształcie. Jak każna rezonansowa wnęka, ma naturalne rezonansowe częstotliwości - zakresy częstotliwości, gdzie fale dźwiękowe wzmacniają się nawzajem zamiast się znoszić. Te szczyty w widmie wyjściowym nazywają się formantami i są numerowane od najniższego do najwyższego: F1, F2, F3 i tak dalej.
F1 i F2 robią większość ciężkiej pracy percepcyjnej. Samogłoska w “heed” ma niski F1 i bardzo wysoki F2. Samogłoska w “hod” ma zarówno F1 jak i F2 w średnim zakresie, ale bliżej siebie. Twój mózg używa tych dwóch szczytów do zidentyfikowania samogłosek niemal natychmiast, dlatego formanty są czasami opisywane jako “odcisk palca” samogłoski. Aby uzyskać głęboką lekturę na temat teorii akustycznej, artykuł na Wikipedii o formantach jest solidnym punktem wyjścia, a artykuł o trakcie głosowym daje kontekst anatomiczny.
F3 i wyżej przyczyniają się do osobistego charakteru brzmienia - jakości, która pozwala Ci rozpoznać głos przyjaciela przez telefon zanim powiedział swoją imię. F3 jest silnie skorelowany z długością traktu głosowego i indywidualną anatomią.
Dlaczego długość traktu głosowego ma znaczenie
Osoby z dłuższymi traktami głosowymi mają formanty rozmieszczone niżej w widmie. To jest powód, dla którego średnio mężczyźni mają niższe formanty niż kobiety, a dorośli mają niższe formanty niż dzieci - nie tylko z powodu samej wysokości, ale ze względu na fizyczną długość traktu. Sześciostopowy mężczyzna i pięciostopowa kobieta mogą czasami uderzyć w tę samą nutkę muzyczną, ale ich formanty będą nadal w zupełnie różnych pozycjach spektralnych.
Ta relacja między rozmiarem ciała, długością traktu i pozycją formantu to nie tylko akademickie drobiazgi. To cały powód, dlaczego zmiana tylko wysokości brzmi źle. Gdy spowolnisz nagranie, aby obniżyć wysokość, także spowolnisz każde przejście formantu - sprawiając, że samogłoski brzmią długo i ospale, jak nagranie grające z niepoprawną prędkością. Gdy przyspieszysz, formanty pozostają proporcjonalnie na miejscu, ale teraz czują się zbyt wysoko i zbyt ciasno upakowane, tworząc znany artefakt wiewiórek.
Rzeczywisty głos działający na innej wysokości w rzeczywistości ma formanty wytwarzane przez inną konfigurację traktu głosowego. Pozycje formantów przesuwają się, ale nie w prostej liniowej proporcji do wysokości. Dobra transformacja głosu musi modelować tę relację.
Zmiana wysokości vs. Przesunięcie formantu
Tutaj większość tanich zmienników głosu upadła. Zmiana wysokości jest łatwa: pomnóż lub podziel zawartość częstotliwości sygnału audio, kompensuj czas, aby uniknąć brzmienia jak zmiana taśmy, gotowe. Wynik to Twój głos z podniesionym lub obniżonym przyspieszeniem, ale spektralna kopertura - ogólny kształt odpowiedzi częstotliwości - jest identyczny z Twoim oryginalnym głosem.
Przesunięcie formantu z drugiej strony przesuwa spektralną kopertę, podczas gdy pozostawia podstawową strukturę wysokości samą (lub dostosowuje ją oddzielnie). Działa poprzez analizę krótkoterminowego spektrum audio, estymację koperty (gładka krzywa łącząca harmoniczne szczyty), zniekształcenie tej koperty w górę lub w dół w częstotliwości, a następnie resyntezę sygnału.
Rozróżnienie w praktyce:
| Technika | Co się przesuwa | Co pozostaje | Typowy artefakt |
|---|---|---|---|
| Tylko zmiana wysokości | Częstotliwość podstawowa | Spektralna kopertura / formanty | Wiewiórka (w górę) lub zwolniona kamera (w dół) |
| Tylko przesunięcie formantu | Spektralna kopertura | Podstawowa wysokość | Brzmi jak inny człowiek mówiący Twoją oryginalną wysokością |
| Oba, prawidłowy stosunek | Oba, dopasowane | — | Przekonująca transformacja do innego typu głosu |
| Oba, błędny stosunek | Oba, niedopasowane | — | Przetwarzany, mechaniczny lub pusty dźwięk |
“Prawidłowy stosunek” zależy w dużej mierze od transformacji, którą próbujesz osiągnąć. Podniesienie wysokości o 4 półtony i przesunięcie formantów o 15-20% to przybliżona aproksymacja tego, co się dzieje, gdy wyższa osoba mówi na tej samej wysokości co niższa. Ale rzeczywista relacja jest nieliniowa i zależy od głosu, co jest miejscem, w którym modele sztucznej inteligencji mają znaczną przewagę nad ustalonymi łańcuchami DSP.
Zachowanie formantu: Inny przypadek użycia
Nie każda manipulacja formantu dotyczy transformacji. Zachowanie formantu - zdolność do utrzymywania formantów stałymi podczas zmian wysokości - jest równie ważne w niektórych scenariuszach.
Gdy piosenkarz koryguje swoją wysokość lub transponuje wykonanie, naiwna zmiana wysokości zamienia ich samogłoski w coś nierozpoznawalnego na krańcach. Zachowanie formantu utrzymuje stabilność samogłosek nawet gdy zmienia się nuta. Jest to standard w profesjonalnym oprogramowaniu do korekcji wysokości.
Dla zmienników głosu zachowanie ma znaczenie, gdy chcesz subtelne dostrojenia: niedokładnie ogrzewanie lub rozjaśnianie Twojego głosu bez zmiany swojej tożsamości brzmienia, lub kompensowanie mikrofonu, który dodaje chropowości w określonym zakresie częstotliwości. Jest to również przydatne do dopasowania kadencji konkretnej postaci bez uczynienia się niepoznawalnym podczas transmisji na żywo.
Suwak formantu w VoxBooster działa wokół zera - przesunięcie go dodatnio przesuwa formanty w górę (jaśniejsze, mniejsza jakość traktu), przesunięcie go ujemnie przesuwa je w dół (ciemniejsze, większa jakość traktu). Pozostawienie go na zero z tylko dostrojeniem wysokości daje Ci efekt wiewiórek, jeśli pociągniesz zbyt daleko. Zablokowanie obu razem w kalibrowanym stosunku daje Ci transformację. Dostrajanie samego formantu daje Ci subtelne rzeźbienie barwy.
Jak tradycyjne narzędzia DSP obsługują formanty
Klasyczne zmienniki głosu używają techniki zwanej LPC (Linear Predictive Coding) lub estymacji koperty cepstralnej do wyodrębnienia spektralnej koperty z krótkiej ramy audio, zniekształcenia tej koperty przez ustalony mnożnik, a następnie rekonstrukcji audio. Narzędzia takie jak MorphVOX i wcześniejsze wersje Voicemod używają wariantów tego podejścia.
Działa rozsądnie dobrze na umiarkowanych kwotach przesunięcia na utrzymywanych samogłoskach. Problemy pojawiają się na krawędziach:
Spółgłoski i przejścia. Spektralna kopertura podczas frykatyw (a “s” lub “f”) lub wybuchu zatrzymania nie ma tej samej struktury co samogłoska. Zastosowanie zniekształcenia koperty zoptymalizowanego dla samogłosek do spółgłoski albo rozmywa spółgłoskę, albo tworzy artefakty.
Szybka mowa. Analiza ramy LPC zakłada, że sygnał jest quasi-stacjonarny w każdym krótkim oknie. Szybka mowa z szybkimi przejściami formantu kwestionuje to założenie, tworząc słyszalne artefakty “bąbelkowania”.
Ustalony mnożnik. Jeden mnożnik przesunięcia formantu stosowany jednakowo w całym widmie nie odpowiada temu, jak zachowują się rzeczywiste trakty głosowe. Wszystkie formanty nie przesuwają się tym samym stosunkiem, gdy zmienia się konfiguracja traktu głosowego.
Te ograniczenia nie są śmiertelne - wielu streamerów z powodzeniem korzysta z tradycyjnych zmienników opartych na DSP - ale oznaczają, że uzyskanie naturalnych rezultatów wymaga starannego dostrojenia, a niektóre transformacje po prostu nie są czyszczę osiągalne.
Jak zmienniki głosu ze sztuczną inteligencją obsługują formanty inaczej
Nowoczesne zmienniki głosu ze sztuczną inteligencją - i tutaj technologia naprawdę się rozwinęła - nie estymują i nie zniekształcają spektralnej koperty w tradycyjnym sensie. Zamiast tego używają sieci neuronowych wytrenowanych na dużych zbiorach danych mowy ludzkiej, aby nauczyć się struktury statystycznej charakterystyk głosu, w tym jak formanty poruszają się podczas naturalnej mowy.
W czasie wykonywania model przetwarza przychodzący audio i produkuje wyjście, które odzwierciedla charakterystyki formantu docelowego głosu, zamiast zastosowania stałej transformacji matematycznej do wejściowych formantów. Praktyczne różnice to:
Obsługa spółgłosek. Ponieważ model nauczył się, jak rzeczywiste głosy wytwarzają spółgłoski, obsługuje je bardziej naturalnie niż generyczne zniekształcenie spektralne.
Ciągła adaptacja. Zamiast analizować ustalone ramy niezależnie, modele nawracające lub oparte na uwadze mogą używać kontekstu z otaczających ram, czyniąc przejścia między fonemami gładszymi.
Formanty dopasowane do celu. Podczas klonowania konkretnego głosu, model neuronowy generuje formanty, które odpowiadają temu, co ta osoba faktycznie robi, zamiast tego, co przewiduje generyczna formuła przesunięcia.
Kompromisem jest koszt obliczeniowy i opóźnienie. Konwersja głosu neuronowego jest bardziej wymagająca niż LPC. Uzyskanie jej poniżej 10ms w obie strony na sprzęcie konsumenckim to rzeczywisty problem inżynierski. Niskoopoźnieniowy rurociąg VoxBooster oparty na przechwyceniu audio osiąga opóźnienie audio poniżej 10ms poprzez przetwarzanie w wątku audio z ostrożnym rozmiarem buforu, utrzymując przetwarzanie neuronowe na dedykowanym wątku w tle i wstępnie buforując wynik - wybór projektowy, który ma duże znaczenie dla użytku na żywo na Discord lub w komunikacji gier.
Przesunięcie formantu dla konkretnych celów zmiany głosu
Transformacje przejścia płci
To transformacja, którą ludzie najczęściej chcą od zmiennika głosu, a także najtrudniejsza do przekonującego wykonania. Przekonująca transformacja od mężczyzny do kobiety wymaga podniesienia formantów o około 15-25%, jednocześnie podnosząc wysokość - ale dokładne kwoty zależą od Twojego głosu, celu i zawartości fonetycznej tego, co mówisz.
Częstą błędem jest podniesienie wysokości bez dotykania formantów, a następnie pytanie się, dlaczego brzmi oczywiste przetwarzane. Drugi częsty błąd to użycie wstępnie ustawionych wartości kalibrowanych dla innego typu głosu. Jeśli masz głos mężczyzny głębszy niż średnia, wstępnie ustawiony przeznaczony dla głosu mężczyzny w średnim zakresie będzie nadal wyglądał źle.
Zacznij od małych przesunięć formantów (5-10%) i słuchaj. Głosy mężczyzn mają tendencję do F1 około 500 Hz i F2 około 1500 Hz dla neutralnych samogłosek. Głosy kobiet mają F1 bliżej 700 Hz i F2 około 2000 Hz. Podniesienie formantów o 20-25% wprowadzi Cię w prawy tor. Następnie dostosuj wysokość, aby dopasować - zwykle będziesz potrzebować mniej przesunięcia wysokości niż myślisz, ponieważ przesunięcie formantu już robi dużo pracy percepcyjnej.
Głosy postaci
Głosy robotów, postaci obcych, demony i podobne efekty często używają przesunięcia formantu w sposób, który celowo przerywa naturalny model traktu głosowego - to sens. Przesunięcie formantów dramatycznie w dół tworzy stereotypowy efekt “dużego demona”. Ekstremalne przesunięcia w górę z lekkim spadkiem wysokości tworzą bardzo nieludzką teksturę, która czyta się jako mechaniczna lub pozaziemska.
W celach referencyjnych, spójrz na powiązany post na efekt głosu robota i efekt głosu radiowego dla uzupełniających technik przetwarzania, które dobrze się łączą z pracą formantu.
Subtelny kamuflaż lub maskowanie prywatności
Nie każdy przypadek użycia to dramatyczna transformacja. Niektórzy streamerzy chcą mówić w sposób, który jest wyraźnie rozpoznawalny dla ich publiczności, ale nie przypisywalny do ich rzeczywistego głosu. Małe przesunięcia formantów (5-10%) w połączeniu z umiarkowanym dostrojeniem wysokości (2-4 półtony) są wystarczające, aby programy identyfikacji głosu zawiodły bez uczynienia się oczywiste przetwarzanym dla ludzi słuchaczy.
Korekcja wysokości bez zmiany barwy
Jeśli używasz funkcji korekcji wysokości w VoxBooster, aby pozostać na nucie podczas śpiewanych przejść lub do podcastu w barwniejszej wysokości, włączenie zachowania formantu utrzymuje naturalne samogłoski podczas dostrojenia wysokości. To ta sama technika, którą używają profesjonalni radiowcy do przeniesienia swojej zwyczajnej wysokości mowy bez treningu krtani.
Korzystanie z kontroli formantu w VoxBooster
Suwak formantu w panelu efektów głosu VoxBooster jest wyrażony w półtonach, pasując do jednostek suwaka wysokości do intuicyjnego parowania. Oto praktyczny przepływ pracy:
- Otwórz VoxBooster i wybierz tryb Voice Effects z paska bocznego.
- Ustaw podstawowe przesunięcie wysokości dla transformacji, którą chcesz - powiedzmy, +4 półtony na lżejszy głos.
- Po ustawieniu wysokości powoli przesuń suwak formantu w górę. Słuchaj na słuchawkach, jeśli to możliwe. Usłyszysz zmianę głosu z “podniesionej wersji mnie” w stronę “innej osoby”.
- Słodki punkt dla naturalnie brzmiącego przesunięcia +4 półtonów to zazwyczaj około +2 do +3 półtonów przesunięcia formantu. Stosunek nie wynosi 1:1, ponieważ formanty skalują się proporcjonalnie do długości traktu, nie liniowo z muzycznymi półtonami.
- Jeśli używasz trybu klonowania głosu ze sztuczną inteligencją, model neuronowy wybiera formanty automatycznie. Suwak przesunięcia formantu następnie działa jako subtelna daszka dostrojenia na górze wyjścia modelu - przydatne, jeśli docelowy głos brzmi nieco źle w określonym zakresie samogłosek.
Dla użytkowników OBS, VoxBooster rejestruje się jako standardowe urządzenie audio wirtualne. Wybierz go jako źródło mikrofonu w ustawieniach OBS, a audio zmienione formantami przechodzi dokładnie jak każdy inny wejściowy sygnał mikrofonu. Nie jest wymagana wtyczka po stronie OBS. Patrz how-to-use-voice-changer-on-discord dla równoważne ustawienia Discord - zasada routingu jest identyczna.
Możesz również sprawdzić stronę funkcji VoxBooster dla pełnej listy efektów czasu rzeczywistego, które działają obok przesunięcia formantu, i stronę funkcji zmiennika głosu dla pełnej specyfikacji technicznej.
Częste błędy i jak je naprawić
Przesunięcie formantu bez słuchania na słuchawkach. Przecieki głośnika i akustyka pomieszczeń maskują artefakty, które wprowadza przetwarzanie formantu. To, co brzmi dobrze przez głośniki, często będzie brzmieć oczywiste przetwarzane przez słuchawki, to jak słyszy Cię publiczność transmisji.
Korzystanie z wstępnie ustawionych bez kalibracji na Twój głos. Wstępnie ustawione są zbudowane na “typowym” głosie w zbiorze danych dewelopera. Jeśli Twój głos nie jest typowy - niezwykła rezonancja, akcent, zakres wysokości - uzyskasz lepsze rezultaty poświęcając pięć minut kalibracji ręcznej niż cykl przez wstępnie ustawione.
Zbyt wiele przesunięcia w jednym kierunku. Przesunięcie formantu to silny efekt. Przesunięcie o 20% to już znaczna transformacja. Przejście do 40% zaczyna tworzyć puste, rurkowate artefakty, ponieważ przesunąłeś formanty w regiony częstotliwości, gdzie słabo oddziaływują z serią harmoniczną.
Ignorowanie interakcji z tłumieniem szumu. Filtry tłumienia szumu, w tym wbudowany tłumik VoxBooster, działają na sygnał przed lub po łańcuchu efektów w zależności od Twojego routingu. Jeśli tłumienie szumu jest przed przesunięciem formantu, rozmycie spektralne z tłumika może pogorszyć estymację formantu. Jeśli jest poniżej, tłumik może zjadać część wysokoczęstotliwościowej zawartości przesuniętego sygnału formantu. Eksperymentuj z porządkiem, jeśli używasz obu.
Oczekiwanie, że klonowanie sztucznej inteligencji będzie substytutem dostrojenia łańcucha efektów. Klonowanie głosu ze sztuczną inteligencją obsługuje formanty dla Ciebie, ale wyjście modelu jest nadal dotkniętą jakością wejściowego głosu, odpowiedzią częstotliwości mikrofonu i szumem w tle. Czysty sygnał wchodzący do modelu tworzy znacznie czystszą transformację niż nagranie z hałasem lub resonansją pokoju.
Co sprawia, że głos brzmi jak konkretna osoba?
To pytanie głębokie niż się wydaje na pierwszy rzut oka, i jest to istotne dla zrozumienia, co zmienniki głosu ze sztuczną inteligencją faktycznie robią. Identyfikacja mówcy z ich głosu polega na:
- Zakres częstotliwości podstawowej i zmienność (“melodia” ich mowy)
- Częstotliwości formantu i ich dynamiczne trajektorie (“kształt” ich samogłosek)
- Parametry jakości głosu: oddech, chrapanie, nosowość, stopień zamknięcia fałdów głosowych
- Rytm, tempo i prozodię (jak tempo i stres)
- Charakterystyki rezonansowe z przejść nosowych i zatok
Proste przesunięcie wysokości i formantu może przybliżyć pierwsze dwa. Trzeci i czwarty wymagają bardziej wyrafinowanego przetwarzania - modelowania statystycznego rozkładu tych cech dla głosu docelowego, co robi konwersja głosu neuronowego. Prozodię (czwarty) zazwyczaj nie zmieniają zmienniki głosu wcale, dlatego Twój wzór mowy pozostaje rozpoznawalnie Twojąc nawet gdy wszystko inne jest transformowane.
Zrozumienie tego pomaga ustawić realistyczne oczekiwania. Zmiennik głosu może zmienić sposób, w jaki brzmi. Nie może zmienić sposobu mówienia. Kombinacja transformacji głosu z celowym naśladowaniem prozodii to co tworzy najbardziej przekonujące imitacje - ale ta druga część wymaga praktyki, nie oprogramowania.
Dla czytelników zainteresowanych głębszą nauką akustyczną, ta klasyczna papier autorstwa Gunnara Fanta o akustyce traktu głosowego jest fundamentalnym odniesieniem, a dokumentacja urządzenia audio wirtualnego OBS obejmuje jak routowanie audio wirtualne działa na poziomie systemu operacyjnego.
Często zadawane pytania
Co to jest przesunięcie formantu w zmienniku głosu?
Przesunięcie formantu przesuwa rezonansowe częstotliwości Twojego traktu głosowego - szczyty w spektrum Twojego głosu, które definiują dźwięki samogłosek i charakter brzmienia - bez konieczności zmiany wysokości. To sprawia, że transformacja głosu brzmi jak inny człowiek, a nie tylko przyspieszana lub spowolniana wersja Ciebie.
Czy przesunięcie formantu to to samo co zmiana wysokości?
Nie. Zmiana wysokości podnosi lub obniża podstawową częstotliwość Twojego głosu, jak nuta muzyczna idąca w górę lub w dół. Przesunięcie formantu zmienia charakterystyki rezonansowej wnęki - niezależnie od wysokości. Zrobienie obu razem, w prawidłowym stosunku, to co tworzy przekonujące transformacje głosu.
Dlaczego zmiana wysokości samodzielnie brzmi nienaturalnie?
Kiedy zmienisz wysokość głosu bez dostosowania formantów, rezonansowe szczyty pozostają w tej samej pozycji spektralnej, podczas gdy częstotliwość podstawowa się przesuwa. Wynik brzmi jak kreskówkowy wiewiórka lub nagranie w zwolnionym tempie, ponieważ żaden rzeczywisty ludzki głos nie zachowuje się w ten sposób. Naturalne głosy mają formanty, które skalują się z długością traktu głosowego.
Co to jest zachowanie formantu i kiedy go chcę?
Zachowanie formantu utrzymuje Twoje oryginalne częstotliwości rezonansowe nawet wtedy, gdy zmienia się Twoja wysokość. Chcesz go, kiedy śpiewasz lub mówisz i musisz pozostać na wysokości bez brzmienia przetwarzanego. Aplikacje chóralne używają go intensywnie. W kontekście zmiennika głosu zachowanie jest przydatne, kiedy chcesz subtelne dostrojenie bez zmiany charakteru brzmienia.
Jak zmiennik głosu ze sztuczną inteligencją obsługuje formanty inaczej niż starsze narzędzia?
Tradycyjne narzędzia DSP przesuwają formanty jako ustalony skrzywienie spektralnej koperty. Nowoczesne zmienniki głosu ze sztuczną inteligencją analizują głos w sposób ciągły i stosują modele neuronowe, które przewidują naturalne trajektorie formantów dla głosu docelowego, tworząc płynniejsze, bardziej naturalne przejścia nawet podczas szybkiej mowy i wybuchów spółgłosek.
Czy VoxBooster ma kontrolę formantu?
Tak. VoxBooster udostępnia suwak przesunięcia formantu w panelu efektów głosu, niezależnie od suwaka wysokości. Możesz je poruszać razem lub osobno. W trybie klonowania głosu ze sztuczną inteligencją model neuronowy obsługuje formanty automatycznie, ale możesz jeszcze dostroić przesunięcie formantu, aby doprecyzować dane wyjściowe.
Czy użycie przesunięcia formantu spowoduje problemy z antycheatem lub wykrywaniem głosu w grach?
Nie. Przesunięcie formantu to standardowa operacja audio DSP stosowana do strumienia audio przed dotarciem do mikrofonu wirtualnego. VoxBooster korzysta z przechwycenia audio o niskim opóźnieniu i rejestruje standardowe urządzenie audio wirtualne - gry i systemy antycheat widzą normalny wejściowy sygnał mikrofonu, a nie hak na poziomie sterownika.
Wnioski
Przesunięcie formantu to różnica między zmianą głosu, która sprawia, że ludzie pytają “czy używasz zmiennika głosu?” i jednym, który sprawia, że pytają “czy to jest Twój rzeczywisty głos?” Zmiana wysokości bez świadomości formantu brzmi jak sztuczka studyjna. Wysokość i formanty razem, dostrojone do prawidłowego stosunku dla celu transformacji, brzmi jak inny człowiek.
Jeśli poważnie podejmujesz pracę głosową - streaming, tworzenie zawartości, prywatność lub tylko eksperymentowanie - warte jest spędzenie wieczoru na rzeczywistym zrozumieniu, co robią formanty, a następnie zastosowaniu tego zrozumienia do twojej konfiguracji zamiast cyklu przez wstępnie ustawione. Formanty nie są skomplikowane po czym masz model mentalny.
VoxBooster daje Ci niezależne suwaki dla obu, plus klonowanie głosu ze sztuczną inteligencją, które automatycznie obsługuje mapowanie formantu dla transformacji docelowego głosu. Bezpłatna próba 3-dniowa jest wystarczająco czasem, aby przepracować każdy przepływ pracy opisany w tym poście.
Pobierz VoxBooster - bezpłatna próba 3 dni, bez wymagania karty kredytowej.