AI Ses Oluşturucu: Çok Dilli Ses Modelleri Açıklandı

Çok dilli AI ses oluşturucular, son iki yılda uluslararası içerik için mümkün olanı değiştirmiştir. São Paulo’daki bir yaratıcı şimdi İngilizce, İspanyolca ve Portekizce’de bir YouTube kanalı yayınlayabilir - her üçünde aynı ses; bir film stüdyosu, herhangi bir ses oyuncusu stüdyoya girmeden önce bir belgeselin altı dilinde dublaj taslağı üretebilir. Bu rehber, diller arası ses klonlamanın aslında nasıl çalıştığını, hangi dillerin iyi çalıştığını ve hangileri çalışmadığını ve teknolojinin gerçekten nerede değer kattığını açıklar - mevcut AI’nin yapabilecekleri hakkında şişirilmiş vaatler olmadan.

TL;DR

Çapraz dil AI ses oluşturma, diller arasında geçiş yaparken konuşmacı kimliğini (ton, tempo, karakter) korur.
ElevenLabs 32+ dili kapsar; OpenAI Whisper, transkripsiyon-ilk iş akışları için STT katmanı olarak iyi uyum sağlar.
Dil kalitesi eşitsizdir: İngilizce, İspanyolca, Portekizce, Fransızca ve Almanca güçlüdür; nadir diller genellikle aksan yapılarını içerir.
En iyi kullanım durumları: uluslararası YouTube, film dublajı, erişilebilirlik ve dil öğrenme araçları.
VoxBooster Windows’ta gerçek zamanlı çok dilli ses çıkışını işler - sesini bir kez klonla, birden fazla dilde çıktı al.
Dürüst sınırlama: AI sistemi düşük kaynakla sağlanan dillerde aksanı tamamen ortadan kaldıramaz - beklentileri uygun şekilde yönet.

Ses Klonlama Çapraz Dil Gerçekten Ne Yapıyor

Diller arası ses klonlama, çok dilli AI ses oluşturma içindeki belirli bir yetenektir. Standart ses klonlama, kaydettiğiniz dilde sesinizin bir modelini oluşturur. Çapraz dil klonlama daha da ileri gider: ses kimliğinizi kaynak dilinizin fonema setinden ayırır, ardından bu kimliği hedef dilin fonema envanterine eşler.

Teknik olarak, bu konuşmacı gömülümü (kim konuştuğu) içerik gömülümü (ne söylendiği) ve dil fonema modelinden (hedef dilde nasıl telaffuz edildiği) ayrılarak çalışır. Konuşmacı gömülümü aktarılır; içerik ve fonema katmanları hedef dil eşdeğerleriyle değiştirilir.

Pratik sonuç: 30-60 saniye İngilizce kaydeder, sistem seni gibi seslendirecek İspanyolca, Fransızca veya Almanca bir ses üretir. Hedef dildeki dinleyiciler tipik olarak çıktıyı “hafif bir aksanla konuşan yabancı” (alt uçta) ve “ana dil konuşanı” (iyi desteklenen dillerin üst ucunda) olarak tanımlarlar.

Ses klonlamanın neler yapabileceği ve yapamadığı hakkında daha derinlemesine bir bakış için, dil öğrenmesi için ses klonlama üzerindeki kılavuza bakın.

Dil Kapsamı: Veriler Aslında Ne Diyor

Tüm diller AI ses oluşturmada eşit değildir. Kalite neredeyse tamamen veri seti boyutuyla ilişkilidir - model ne kadar yerli konuşma sesinde eğitildiyse, o dil için fonemleri, prozodi ve vurgu desenlerini o kadar iyi işler.

Dil	Tipik Kalite Seviyesi	Notlar
İngilizce (ABD/UK)	Mükemmel	En büyük eğitim veri setleri; en doğal prozodi
İspanyolca (ES/LATAM)	Mükemmel	Kastilya ve Latin Amerika varyantlarının güçlü kapsamı
Portekizce (BR/PT)	Çok İyi	Brezilya Portekizcesi özellikle iyi temsil edilmiş
Fransızca	Çok İyi	Bazı uç durumlarda aksan yapıları
Almanca	İyi	Karmaşık bileşik kelimeler bazen tökezler
İtalyanca	İyi	Duygusal prozodi iyi işlenir
Japonca	İyi	Ton aksan sistemi çoğunlukla korunur
Korece	İyi	Cümle son partikülleri iyi işlenir
Mandarin Çince	İyi	Tonlar çoğunlukla doğrudur; bölgesel aksanlar her zaman korunmaz
Hintçe	Orta	Daha fazla eğitim verisiyle hızla iyileşiyor
Arapça	Orta	Lehçe değişikliği bir zorluk olmaya devam ediyor
Rusça	Orta	Konsonant kümeleri bazen robotik seslenebilir
Lehçe	Orta	Karmaşık fonotaktik bazen yapılara neden olur
Türkçe	Orta	Eklemeli morfoloji TTS zorlukları yaratır
Nadir/Bölgesel diller	Değişken	Belirgin yapıları bekleyin; deneysel olarak davranın

ElevenLabs’ın 2023’te piyasaya sürülen ve 2025’e kadar güncellenen Multilingual v2 modeli, 32 dili desteklemektedir ve yukarıdaki kalite seviyeleri kabaca onların belirtilen güven seviyeleriyle eşleşir. OpenAI’ın Whisper, birincil olarak bir konuşma-metin modeli olmasına rağmen, orijinal konuşmayı bir dilde yakalamak ve başka bir dilde yeniden seslendir etmek istediğiniz transkripsiyon-ilk boru hatlarında STT katmanı olarak yararlıdır.

Çok Dilli AI Ses Pratikte Nasıl Çalışır

Tipik bir prodüksiyon iş akışı, bir komut dosyasından veya mevcut ses kaydından çalışıp çalışmadığınıza bağlı olarak iki yolda bölünür.

Komut Dosyası Birinci İş Akışı (TTS Yolu)

Komut dosyanızı hedef dile yazın veya çevirin.
Klonlanmış sesiniz ile TTS-destekli çok dilli modelden geçirin.
Ses çıkışını gözden geçirin - vurgu desenleri ve tempoyu göz önünde bulundurun, AI bazen özel isimler ve teknik terimlerle yanlış yapabilir.
Fonetik ipuçlarını ayarlayarak veya yeniden yazılan girdilerle yeniden tetikleyerek telaffuz hatalarını düzeltin.
Dışa aktar ve video ile senkronize et.

Bu, YouTube yaratıcıları, kurumsal eğitim içeriği ve sesli kitaplar için standart yoldur. Ana avantaj doğrudan kontrol: yeniden kaydetmeden komut dosyasını düzenleyebilir ve herhangi bir cümleyi yeniden oluşturabilirsiniz.

Ses İlk İş Akışı (Transkripsiyon + Yeniden Ses Yolu)

Kaynak dilinde orijinal sesi kaydedin veya alın.
Whisper veya başka bir doğru STT motoru ile transkripsiyon yapın.
Transkripti çevirin (deyimsel doğruluk için insan incelemesi önerilir).
Orijinal konuşmacının ses klonlamasını kullanarak çevirilen metni çok dilli ses modeline besleyin.
Çıktı sesini orijinal videoya veya ses zaman çizelgesine hizalayın.

Bu, film dublaj yoludur. Ana komplikasyon zamanlama: Dil B’de AI tarafından oluşturulan konuşma, Dil A’daki orijinalin süresine nadiren uyum sağlar. Almanca ve Rusça İngilizce’den daha uzun çalışma eğilimindedir; Japonca ve Mandarin çoğu zaman daha kısa çalışır. Prodüksiyon araçları bunu zaman uzatmasıyla işler, ancak ses doğal olmayan hale gelmeden önce bir sınır vardır.

Dublaj-spesifik iş akışının ayrıntılı bir analizi için, karakter sesler için AI ses oluşturucu üzerindeki rehberimize bakın.

Kullanım Durumu Derin Dalış: Uluslararası YouTube Kanalları

Birçok dilde bir YouTube kanalı çalıştırmak, farklı anlatıcılar ile ayrı kayıt seansları gerektirdi - pahalı, zaman yoğun ve tonsal olarak tutarsız. Çok dilli AI ses oluşturma bunu değiştirir.

10 dilinde bir YouTube kanalı için pratik bir kurulum:

Birincil dilinizde narasyonunuzu bir kez kaydedin (genellikle küresel erişim için İngilizce).
Çok dilli AI sisteminde sesinizi klonlayın.
Çevrilen komut dosyalarından hedef dillerde ses parçaları oluşturun.
Dile özgü ses parçaları veya ayrı yerelleştirilmiş karşıya yüklemeler ile videolar yükleyin.
YouTube’un dublaj parçası özelliğini kullanın (desteklenen bölgelerde) veya dil başına ayrı video karşıya yüklemeleri.

Sonuç tüm pazarlarda bir tutarlı ses kişiliğidir. Brezilya, İspanya ve Almanya’daki izleyiciler aynı kişi gibi seslendirecek bir anlatıcı duyarlar - akustik seviyesinde öyle olduğu için.

Para ile ilgili not: YouTube Partner Programı, AI tarafından oluşturulan ses içeriğine izin verir. Kanallar, içerik gerçek kişiler veya olaylar için yanlış alınabilecekse, video ayarlarında AI tarafından oluşturulan içeriği açıklamalıdır. Bilgilendirici içerik üzerinde anlatıcı sesli konuşma genellikle açıklama gerektirmez. YouTube için AI ses oluşturucu üzerinde tam kesmelerimizi görmek.

Kullanım Durumu Derin Dalış: Film ve Video Dublajı

Film dublajı tarihsel olarak pahalı ve yavaş bir işlemdi - studio kitaplamaları, sendika ücretleri, dudak senkronizasyonu yönetimi, birden fazla çekişim. AI çok dilli ses oluşturma, profesyonel prodüksiyonlardan ses oyuncularını ortadan kaldırmaz, ancak iş akışında nerede girdiklerini değiştirir.

Prodüksiyonda AI dublajının mevcut pratik kullanımı:

Ön taslaklar: Ses oyuncularını kitaplayamadan önce zamanlama, tempo ve ton hizalamasını gözden geçirmek için saatler içinde kaba çok dilli dublaj oluşturun.
Kısa formlu ve sosyal içerik: Dudak senkronizasyonu hassasiyetinin daha az önem taşıdığı 5 dakikadan kısa video içeriği için, AI dublajı üretime hazırdır.
Erişilebilirlik sürümleri: “Yeterince iyi” kalite standardının uygulandığı sağır veya anadili olmayan dinleyiciler için dublaj parçası ekleyin.
Bütçe prodüksiyonları: Geleneksel dublajın ekonomisinin yasakladığı bağımsız filmler, belgesel dizileri ve çevrimiçi kurslar.

Profesyonel dublaj hala duygusal özgünlük ve kare-doğru dudak senkronizasyonu için insan yönetimi gerektirir. AI mekanik katmanı işler - tutarlı ses kimliği, doğru telaffuz - insan oyuncuları ve yönetmenler ise performans nüanslarını işlerler.

AI dublaj boru hatlarının nasıl çalıştığına ilişkin kapsamlı bir inceleme için, film dublajı için ses klonlama üzerindeki rehberimizi okuyun.

Kullanım Durumu Derin Dalış: Erişilebilirlik ve Kapsama Alanı

Çok dilli AI ses oluşturmanın az tartışılan bir uygulaması erişilebilirlik - özellikle azınlık dillerini konuşan veya profesyonel ses içeriğinin nadir olduğu lehçeler kulan dinleyicilere ulaşmak.

Düşünün: İngilizce ve İspanyolca’da kaydedilen tıbbi yönerge videosu, kabaca 1,4 milyar yerli konuşmacıya faydalıdır. Portekizce, Fransızca, Almanca ve Hintçe ekleyin ve yaklaşık 2,8 milyarı kaplarız. Çok dilli AI ses oluşturma, bu genişlemeyi ekonomik olarak uygulanabilir hale getirir küçük kuruluşlar, STK’lar ve çok dilli prodüksiyonu başka türlü finanse edemeyen eğitim kurumları için.

Pratik uyarı: erişilebilirlik içeriği için doğruluk ses estetiklerinden daha önemlidir. Hafif aksanı olan tıbbi açıdan doğru bir AI ses, yerelleştirilmiş versiyon olmamasından çok daha iyidir. Mükemmel sesli bir AI tarafından okunan biraz garip bir çeviri, işe yaramaz şeyden daha kötüdür. Çevrilen komut dosyalarının AI sesli sentezden önceki insan incelemesi, güvenlikle ilgili içerik için pazarlıktır.

Kullanım Durumu Derin Dalış: Dil Öğrenme

Kendi sesinizi hedef dili konuşurken duymak, belirli bir psikolojik avantajı olan bir dil öğrenme tekniğidir - sesi seninki olarak tanırsın, bu da telaffuz hedefini soyut yerine ulaşılabilir hissettirir. Çok dilli AI ses oluşturma bunu yerli konuşmacı sesinin saatlerini kaydetmeden mümkün kılar.

Pratik bir dil öğrenme iş akışı:

Kendi dilinizde 30-60 saniye kayıt kullanarak sesinizi klonlayın.
Hedef dilde bir cümle veya cümle girin.
Çıktıyı dinleyin - sesiniz, hedef dili neredeyse yerli telaffuz ile konuşuyor.
Çıktıyı gölgele: cümleyi eşzamanlı olarak tekrarlayın, tam olarak eşleştirmeye çalışın.
Tekrarla - canlı telaffuzunuz ile AI çıktısı arasındaki boşluk, uygulanmış hedefinizdir.

Bu teknik, kelime kartı flash sistemi ile iyi çiftler oluşturur. Her kart için ses oluşturun: gerçek sesinizde anadili kelime ve klonlanmış sesinizde hedef dil eşdeğeri. Kartın her iki tarafında sesinizi duymak, genel bir TTS hoparlöründen daha güçlü bir bellek çiyesini yaratır.

Bu yaklaşım için tam bir rehber almak için, dil öğrenmesi için ses klonlama okuyun.

Dürüst Sınırlamalar: AI Henüz Yapamayacağı Şeyler

Çok dilli AI ses oluşturma gerçekten etkileyicidir, ancak yapamayacağı şeylerin doğru kapsamı, israf edilen çabayı önlemek için gereklidir.

Düşük kaynakla sağlanan dillerde aksan eliminasyonu. Eğitim verilerine göre ilk 10-15 dışında diller için algılanabilir aksan yapılarını bekleyin. Model, o dildeki prozodi ve fonema sınırlarını doğru bir şekilde modellemek için yeterli yerli konuşma duymamıştır. Bu bir düzeltillebilir ayarlar sorunu değil - bir veri sınırlamasıdır.

İdiyomatik ve kültürel doğallık. AI ses oluşturma, kelimelerin nasıl seslendiğini sentezler, cümle bir ana dil konuşanı için doğal seslendirilip seslendirilmez değil. Dilbilgisi açısından doğru ancak kültürel açıdan katı olan çevirilen bir komut dosyası mükemmel bir sesle bile katı seslenecektir. Doğallığın önemli olduğu içerik için insan çeviri incelemesi hala gereklidir.

Lehçe varyasyonu. “İspanyolca” Kastilya, Meksika, Arjantin, Kolombiya ve 12 taneden fazla diğer bölgesel çeşidi kapsar. “Portekizce” başlıca fonolojik farklar olan Brezilya ve Avrupa varyantlarını kapsar. Çoğu AI modeli varsayılan olarak her dilin “standart” veya “nötr” biçimine ayarlanır - bu bölgesel dinleyicilere yabancı seslenebilir.

Canlı senaryolar için gerçek zamanlı gecikme. Çok dilli bulut tabanlı sentez ağ gidiş-dönüş gecikmesi ekler. Canlı senaryolar için - akış, çağrılar, gerçek zamanlı çeviri - yerel işleme önemli ölçüde daha iyidir. VoxBooster, Windows’ta ses sentezini yerel olarak işler, bu da gidiş-dönüş gecikmesini ortadan kaldırır ve desteklenen diller için sesi 10ms altında canlı tutar.

Duygusal aralık. AI sesler duygusal aralıkta iyileşiyor, ancak uzun bir parça arasında sürdürülen duygusal performans - film sahnesinde acı, konuşmada komik zamanlaması - insan iletisinden daha sığdır.

Çok Dilli Ses Oluşturma için Doğru Aracı Seçme

Farklı araçlar farklı güçlülüklere sahiptir. İşte ana seçeneklerin dürüst bir karşılaştırması:

Araç	Diller	Güç	Zayıflık
ElevenLabs	32+	Ses kalitesi, duygusal aralık	Ölçekte karakter başına fiyatlandırma
Murf	20+	Kurumsal/eğitim sesler	Yaratıcı/karakter çalışması için daha az uygun
Azure Neural TTS	140+	Dil kapsamı	Nadir dillerde tutarsız ses kalitesi
Google Cloud TTS	50+	Güvenilirlik ve çalışma süresi	Sinirsel rakiplerindenmen daha az insan sesli
VoxBooster	10+ dil (genişletiyor)	Yerel işleme, gerçek zamanlı, özel ses klonlama	Yalnızca Windows; bulut dilleri barındırılan hizmetlere karşı sınırlandı
OpenAI TTS	57 aksan/ses	Hız ve basitlik	Özel ses klonlama yok

YouTube yaratıcıları ve içerik prodüksiyonu için, yüksek kaliteli çok dilli sentez motoru ve VoxBooster’ın gerçek zamanlı katmanı kombinasyonu tam bir iş akışı oluşturur: bulutta çevrilen sesi oluşturun, canlı oturumlar ve etkileşimli içerik için VoxBooster’ın gerçek zamanlı katmanını kullanın.

AI gerçek zamanlı çevirinin ses oluşturmanın yanında nasıl çalıştığı hakkında daha derinlemesine bağlam almak için, AI çevirmen gerçek zamanlı ses görmek.

Teknik Kurulum: Çok Dilli Sesi İçerik Ardından Çalışır Hale Getirme

Çok dilli AI ses oluşturmayı sıfırdan ayarlamak için pratik bir rehber:

Adım 1 — Kaynak sesini toplayın. Kendi dilinizde 30-60 saniye temiz konuşma kaydedin. Sessiz bir odada USB kondenser mikrofon yeterlidir. Arka plan gürültüsünü, başaklanmayı ve müziği önleyin - bu ses klonlama kalitesini azaltır.

Adım 2 — Ses klonu oluşturun. Seçilen çok dilli motora sesi yükleyin. Çoğu hizmet bunu “Ses Klonlaması”, “Instant Voice Clone” veya “Ses Lab” olarak etiketler. İşleme süresi genellikle 30-90 saniyedir.

Adım 3 — Hedef dilde kısa bir cümle ile test edin. Uzun bir parça oluşturmadan önce bir cümle ile test edin. Dinle: genel aksan kalitesi, doğru vurgu yerleştirme, doğal olmayan duraklamalar ve yanlış telaffuz edilen isimleri veya teknik terimleri.

Adım 4 — Gerekirse giriş metnini ayarlayın. Bir kelime yanlış telaffuz edilirse, hedef dilin yazım sisteminde fonetik olarak yeniden yazıp deneyin, veya platform desteklerse açık fonetik ipuçları ekleyin. İsimler için, bu genellikle İspanyolca için “Jesus” yerine “Hay-soos” yazması demektir.

Adım 5 — Ölçekte oluşturun. Kalite kabul edilebilir olduğunda, tam uzunluk içeriği oluşturun. Çoğu platform toplu oluşturma için bir API ortaya koyar - çok bölümlü veya çok dilli iş akışlarını otomatikleştirmek için yararlı.

Adım 6 — Gerekirse işle sonrası işle. Diller arasında ton karakterini normalleştirmek için hafif EQ ve hacmi eşitleşen temel sıkıştırma tutarlılığı artırabilir. Minimal işlemeyi tutun - AI ses kalitesi doğal insan kaydından ağır işleme altında daha hızlı degrades.

Çok Dilli AI Sesin Geleceği

Şu anda araştırma aşamalarında olan birkaç yetenek 12-24 ay içinde üretime ilgili olacaktır:

Canlı aramalar veya akış sırasında gerçek zamanlı çapraz dil ses dönüşümü - İngilizce konuş, dinleyiciye İspanyolca oynat.
Lehçe koruması - bölgesel aksanları bir dil içinde koruyan modeller (örneğin Brezilya vs. Lusitania Portekizcesi) özel eğitim ile.
Çeviri arasında duygusal koruma - kaynak performansının duygusal rengini çevrilmiş çıktıda tutun.
Geliştirilmiş düşük kaynakla sağlanan dil kapsamı - topluluk katkısı eğitim veri projeleri uygulanabilir dil aralığını genişletiyor.

Şimdilik pratik tavsiyeleri, iyi çalışan diller (eğitim verilerine göre ilk 8-10) ile çalış, diğerleri için uygun şekilde beklentiler belirle ve AI’ın gerçekten alternatifi yendiği kullanım durumları etrafında ardına inşa etme: hız, ölçekte maliyet ve pazarlar arasında tutarlı ses kimliği.

VoxBooster, düşük gecikme gerçek zamanlı çıktısı isteyen Windows kullanıcıları için yerel AI ses işlemeyi bütünleştirir - sesinizi bir kez klonla ve bulut gidiş-dönüşü olmadan birden fazla desteklenen dilde canlıdan kullan. Gerçek içerik kullanım durumunuza karşı test etmek için ücretsiz 3 günlük deneme deneyin.

VoxBooster İndir — ücretsiz 3 günlük deneme, kredi kartı gerekli değil.

Sıkça Sorulan Sorular

Çok dilli AI ses oluşturucu nedir?

Çok dilli AI ses oluşturucu, tek bir ses modeli veya model ailesi kullanarak birden fazla dilde konuşmayı sentezleyen yazılımdır. Modern sistemler, diller arasında konuşmacının ses kimliğini - tona, tempo ve stilini koruyabilir, böylece klonlanmış bir İngilizce ses yeniden eğitim olmadan doğal sesli İspanyolca, Portekizce veya Almanca üretebilir.

AI ses klonlama başka bir dilde sesimi koruyabilir mi?

Evet, doğru model ile. Diller arası ses transferi, sesinizdeki konuşmacı özelliklerini çıkarır ve hedef dilin bir fonema setine uygular. Kalite değişir - İspanyolca, Fransızca, Portekizce ve Almanca gibi diller iyi çalışır; Türkçe veya Lehçe gibi daha az kaynakla temin edilen diller hafif bir aksanla seslenebilir. Telaffuz kalitesi eğitim verileri arttıkça iyileşir.

ElevenLabs kaç dili destekliyor?

ElevenLabs 2026 itibarıyla 32+ dili desteklemektedir; İngilizce, İspanyolca, Fransızca, Almanca, Portekizce, İtalyanca, Japonca, Korece, Çince, Hintçe, Arapça ve daha fazlasını içerir. Turbo ve Multilingual v2 modelleri en geniş aralığı kapsar. Kalite, en büyük eğitim verilerine sahip dillerde en güçlüdür: İngilizce, İspanyolca ve Avrupa dilleri.

AI ses dublajı geleneksel dublajdan daha iyi midir?

Hız ve maliyet açısından evet. AI dublaj, bir saatlik içeriği geleneksel studio maliyetlerinin bir kısmı kadar dakikalar içinde işleyebilir. Duygusal nüans ve dudak senkronizasyonu hassasiyeti açısından, profesyonel ses oyuncuları hala bir avantaj sahibidir - ancak AI hızla farkı kapatmaktadır. Çoğu prodüksiyon stüdyosu artık ön taslaklar için AI ve son cilalama için insan yönetmenleri kullanmaktadır.

Çok dilli AI ses oluşturma için en iyi kullanım durumları nelerdir?

Yerelleştirilmiş ses parçaları olan uluslararası YouTube kanalları, film ve video dublajı, anadili olmayan konuşmacılar için erişilebilirlik araçları, dil öğrenme telaffuz yardımcıları, birden fazla dilde kurumsal eğitim videoları ve bölgesel dillerde müşteri hizmetleri IVR sistemleri. Birleştirici faktör, tek bir ses kimliğinin birden fazla dilli dinleyicilere ulaşması gereken herhangi bir senaryodur.

AI ses oluşturmada hangi diller en iyi sonuçları verir?

En büyük konuşma veri kümelerine sahip diller, en iyi AI ses sonuçlarını üretir. İngilizce, İspanyolca (Kastilya ve Latin Amerika), Fransızca, Almanca ve Portekizce (Brezilya ve Avrupa) tutarlı bir şekilde yüksek kaliteli, doğal sesli çıktı sağlar. Japonca ve Korece da iyi eğitilmiş modellerde iyi çalışır. Nadir diller ve lehçeler genellikle fark edilebilir aksan yapıları üretir.

Her dil için ayrı ses modelleri gerekiyor mu?

Modern çapraz dil modelleri sayesinde hayır. Multilingual v2 sistemleri, dil-agnostik konuşmacı gömülümlerini çıkarır - bir model 10+ dilde aynı ses kişiliğini çıkabilir. Bununla birlikte, temel dil modelinin her hedef dil için ana konuşma verisi üzerinde eğitilmiş olması gerekir; bu nedenle bazı diller diğerlerinden daha iyi çalışır.