Mongolian VITS — mn-vits-omnivoice

Энэ бол Монгол хэлний Text-to-Speech (VITS) загвар. Зөвхөн 30 секундын өөрийн дуу хоолой дээр суурилан, түүнийгээ OmniVoice ашиглан өргөтгөж үүсгэсэн өгөгдөл дээр сургасан.

Онцлох зүйлс

  • 30 секундын өөрийн дуу хоолой дээр үндэслэсэн.
  • OmniVoice ашиглан өөрийн хоолойгоор өгөгдлөө баяжуулсан (voice cloning + augmentation).
  • Google FLEURS (mn) өгөгдлийн сангаас тодорхой текстүүдийг шүүж аваад, тэдгээр текстээс өөрийн хоолойгоор аудио үүсгэж сургалтын датасет болгосон.
  • VITS (end-to-end TTS, монотон выравнивание) архитектур.
  • 42 000 step хүртэл сургасан.

Файлын бүтэц

mn-vits-omnivoice/
├── G_42000.pth           # Generator (inference-д ашиглана)
├── config.json           # Загварын тохиргоо
├── tensorboard/          # Сургалтын TB лог
│   ├── events.out.tfevents.*
│   └── eval/events.out.tfevents.*
└── README.md

TensorBoard

Сургалтын TB логуудыг tensorboard/ фолдер дотроос үзнэ:

huggingface-cli download <your-username>/mn-vits-omnivoice --include "tensorboard/*" --local-dir ./tb
tensorboard --logdir ./tb

Сургалтын дэлгэрэнгүй

Параметр Утга
Архитектур VITS (StochasticDurationPredictor)
Sampling rate 24 000 Hz
Cleaner mn_cleaners (Cyrillic-as-symbol)
Batch size 16
Learning rate 2e-4
Step 42 000
Өгөгдөл OmniVoice-ээр клон хийсэн өөрийн дуу хоолой × 895 FLEURS-mn өгүүлбэр

Хязгаарлалт

  • Зөвхөн нэг хоолой (single speaker, өөрийн хоолой).
  • Богино өгөгдөл (~895 өгүүлбэр) дээр сургасан тул урт/нийлмэл өгүүлбэрт чанар буурч болно.
  • Зөвхөн Кирилл монгол үсэг дэмжинэ.

Лиценз

MIT. Сургалтын код VITS

Downloads last month
3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support