Mongolian VITS — `mn-vits-omnivoice`

Энэ бол Монгол хэлний Text-to-Speech (VITS) загвар. Зөвхөн 30 секундын өөрийн дуу хоолой дээр суурилан, түүнийгээ OmniVoice ашиглан өргөтгөж үүсгэсэн өгөгдөл дээр сургасан.

Онцлох зүйлс

30 секундын өөрийн дуу хоолой дээр үндэслэсэн.
OmniVoice ашиглан өөрийн хоолойгоор өгөгдлөө баяжуулсан (voice cloning + augmentation).
Google FLEURS (mn) өгөгдлийн сангаас тодорхой текстүүдийг шүүж аваад, тэдгээр текстээс өөрийн хоолойгоор аудио үүсгэж сургалтын датасет болгосон.
VITS (end-to-end TTS, монотон выравнивание) архитектур.
42 000 step хүртэл сургасан.

Файлын бүтэц

mn-vits-omnivoice/
├── G_42000.pth           # Generator (inference-д ашиглана)
├── config.json           # Загварын тохиргоо
├── tensorboard/          # Сургалтын TB лог
│   ├── events.out.tfevents.*
│   └── eval/events.out.tfevents.*
└── README.md

TensorBoard

Сургалтын TB логуудыг tensorboard/ фолдер дотроос үзнэ:

huggingface-cli download <your-username>/mn-vits-omnivoice --include "tensorboard/*" --local-dir ./tb
tensorboard --logdir ./tb

Сургалтын дэлгэрэнгүй

Параметр	Утга
Архитектур	VITS (StochasticDurationPredictor)
Sampling rate	24 000 Hz
Cleaner	`mn_cleaners` (Cyrillic-as-symbol)
Batch size	16
Learning rate	2e-4
Step	42 000
Өгөгдөл	OmniVoice-ээр клон хийсэн өөрийн дуу хоолой × 895 FLEURS-mn өгүүлбэр

Хязгаарлалт

Зөвхөн нэг хоолой (single speaker, өөрийн хоолой).
Богино өгөгдөл (~895 өгүүлбэр) дээр сургасан тул урт/нийлмэл өгүүлбэрт чанар буурч болно.
Зөвхөн Кирилл монгол үсэг дэмжинэ.

Лиценз

MIT. Сургалтын код VITS

Downloads last month: 3