ОписаниС модСли

WORK IN PROGRESS!!! ВСкущая вСрсия v1.

Адаптация ΠΌΠΎΠ΄Π΅Π»ΠΈ T-lite-it-1.0 Π½Π° русский язык. Π’ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π±Ρ‹Π» Π·Π°ΠΌΠ΅Π½Π΅Π½ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, Π·Π°Ρ‚Π΅ΠΌ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½ΠΎ Π΄ΠΎΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ (Continued pretraining) Π½Π° русскоязычном корпусС, послС Ρ‡Π΅Π³ΠΎ Π±Ρ‹Π»Π° ΠΏΡ€ΠΈΠΌΠ΅Π½Π΅Π½Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° LEP (Learned Embedding Propagation).

Благодаря Π½ΠΎΠ²ΠΎΠΌΡƒ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€Ρƒ (Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½Ρ‹ΠΉ tiktoken cl100k с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ ΡƒΠ½ΠΈΠ³Ρ€Π°ΠΌ Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€Π° Π½Π° 48 Ρ‚. Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ* русскоязычных тСкстов возрасла Π΄ΠΎ 60% ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с исходной модСлью T-lite-it-1.0.

*Под ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ подразумСваСтся количСство русскоязычных символов/слов Π² сСкунду Π½Π° ΠΎΠ΄ΠΈΠ½Π°ΠΊΠΎΠ²Ρ‹Ρ… тСкстовых ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡΡ….

ΠŸΠΎΠΏΡ€ΠΎΠ±ΠΎΠ²Π°Ρ‚ΡŒ

МодСль ΠΌΠΎΠΆΠ½ΠΎ ΠΏΠΎΠΏΡ€ΠΎΠ±ΠΎΠ²Π°Ρ‚ΡŒ Π² поднятом Space (Π²Π½ΠΈΠ·Ρƒ Π² ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Π°Ρ… Π²Ρ‹Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»ΠΈ): https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5

ВокСнизация

image/png

image/png

ΠœΠ΅Ρ‚Ρ€ΠΈΠΊΠΈ ΠΈ ΠΎΡ†Π΅Π½ΠΊΠ° качСства

МодСль Π±Ρ‹Π»Π° ΠΎΡ†Π΅Π½Π΅Π½Π° Π½Π° Ru-Arena-General, MERA, llmtf_open

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° Ru-Arena-General

Π—Π°ΠΌΠ΅Ρ€Ρ‹ Π±Ρ‹Π»ΠΈ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π΄Π΅Π½Ρ‹ с использованиСм ΠΎΡ„Ρ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ ΠΊΠΎΠ΄Π° Π»ΠΈΠ΄Π΅Ρ€Π±ΠΎΡ€Π΄Π° (https://github.com/VikhrModels/ru_llm_arena), Π½ΠΎ с repetition_penalty=1.1.

image/png

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° Shlepa

image/png

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° MERA

image/png

Π Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° llmtf_open

TODO

How to cite:

Tikhomirov M., Chernyshov D. Facilitating Large Language Model Russian Adaptation with Learned Embedding Propagation //Journal of Language and Education. – 2024. – Π’. 10. – β„–. 4. – Π‘. 130-145.

Tikhomirov M., Chernyshev D. Impact of Tokenization on LLaMa Russian Adaptation //2023 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2023. – Π‘. 163-168.

ΠŸΡ€Π΅Π΄ΡƒΠΏΡ€Π΅ΠΆΠ΄Π΅Π½ΠΈΠ΅

ΠžΡ‚Π²Π΅Ρ‚Ρ‹ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΎΡ‚Ρ€Π°ΠΆΠ°ΡŽΡ‚ мнСния Π°Π²Ρ‚ΠΎΡ€ΠΎΠ², Π° лишь ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΡΡŽΡ‚ знания ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹Π΅ ΠΈΠ· Π΄Π°Π½Π½Ρ‹Ρ… Π½Π° всСх этапах обучСния (ΠΏΡ€Π΅Π΄ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅, смСна Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€Π°, ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° инструкциях, ΠΊΠ°Π»ΠΈΠ±Ρ€ΠΎΠ²ΠΊΠ° качСства ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ²). МодСль Π±Ρ‹Π»Π° ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π° ΠΈΠ· стороннСй ΠΏΡ€Π΅Π΄ΠΎΠ±ΡƒΡ‡Π΅Π½Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ, ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΡŒ Π·Π° ΠΏΡ€Π΅Π΄ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ΠΌ ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ Π½Π΅ являСтся ΠΎΡ‚Π²Π΅Ρ‚ΡΡ‚Π²Π΅Π½Π½ΠΎΡΡ‚ΡŒΡŽ Ρ‚Π΅ΠΊΡƒΡ‰ΠΈΡ… Π°Π²Ρ‚ΠΎΡ€ΠΎΠ². ΠŸΡ€ΠΈ создании Π΄Π°Π½Π½ΠΎΠΉ вСрсии ΠΌΠΎΠ΄Π΅Π»ΠΈ Π½Π΅ ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠ»ΠΎΡΡŒ Π½ΠΈΠΊΠ°ΠΊΠΈΡ… Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… дСйствий, Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Π½Ρ‹Ρ… Π½Π° ΠΈΠ·ΠΌΠ΅Π½Π΅Π½ΠΈΠ΅ Π·Π°Π»ΠΎΠΆΠ΅Π½Π½Ρ‹Ρ… Π² LLM "ΠΌΠ½Π΅Π½ΠΈΠΉ". Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠΉΡ‚Π΅ с ΠΎΡΡ‚ΠΎΡ€ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒΡŽ.

Downloads last month
63
Safetensors
Model size
8B params
Tensor type
BF16
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for RefalMachine/RuadaptQwen2.5-7B-Lite-Beta

Base model

Qwen/Qwen2.5-7B
Finetuned
(957)
this model
Finetunes
4 models
Quantizations
1 model

Datasets used to train RefalMachine/RuadaptQwen2.5-7B-Lite-Beta

Spaces using RefalMachine/RuadaptQwen2.5-7B-Lite-Beta 16

Collection including RefalMachine/RuadaptQwen2.5-7B-Lite-Beta