Mongolian VITS — mn-vits-omnivoice
Энэ бол Монгол хэлний Text-to-Speech (VITS) загвар. Зөвхөн 30 секундын өөрийн дуу хоолой дээр суурилан, түүнийгээ OmniVoice ашиглан өргөтгөж үүсгэсэн өгөгдөл дээр сургасан.
Онцлох зүйлс
- 30 секундын өөрийн дуу хоолой дээр үндэслэсэн.
- OmniVoice ашиглан өөрийн хоолойгоор өгөгдлөө баяжуулсан (voice cloning + augmentation).
- Google FLEURS (mn) өгөгдлийн сангаас тодорхой текстүүдийг шүүж аваад, тэдгээр текстээс өөрийн хоолойгоор аудио үүсгэж сургалтын датасет болгосон.
- VITS (end-to-end TTS, монотон выравнивание) архитектур.
- 42 000 step хүртэл сургасан.
Файлын бүтэц
mn-vits-omnivoice/
├── G_42000.pth # Generator (inference-д ашиглана)
├── config.json # Загварын тохиргоо
├── tensorboard/ # Сургалтын TB лог
│ ├── events.out.tfevents.*
│ └── eval/events.out.tfevents.*
└── README.md
TensorBoard
Сургалтын TB логуудыг tensorboard/ фолдер дотроос үзнэ:
huggingface-cli download <your-username>/mn-vits-omnivoice --include "tensorboard/*" --local-dir ./tb
tensorboard --logdir ./tb
Сургалтын дэлгэрэнгүй
| Параметр | Утга |
|---|---|
| Архитектур | VITS (StochasticDurationPredictor) |
| Sampling rate | 24 000 Hz |
| Cleaner | mn_cleaners (Cyrillic-as-symbol) |
| Batch size | 16 |
| Learning rate | 2e-4 |
| Step | 42 000 |
| Өгөгдөл | OmniVoice-ээр клон хийсэн өөрийн дуу хоолой × 895 FLEURS-mn өгүүлбэр |
Хязгаарлалт
- Зөвхөн нэг хоолой (single speaker, өөрийн хоолой).
- Богино өгөгдөл (~895 өгүүлбэр) дээр сургасан тул урт/нийлмэл өгүүлбэрт чанар буурч болно.
- Зөвхөн Кирилл монгол үсэг дэмжинэ.
Лиценз
MIT. Сургалтын код VITS
- Downloads last month
- 3