Buckets:

amkyawdev
/

mm-llm-storage

2.88 GB

8 files

Updated about 1 month ago

Ctrl+K

Name	Size	Uploaded	Xet hash
myanmar-llm-data-formatted		about 1 month ago	3 items
README.md	6.81 kB xet	about 1 month ago	4f72481d
myanmar-llm-adp-execution-feedback.jsonl	50.8 MB xet	about 1 month ago	5e0845ab
myanmar-llm-clean.jsonl	2.79 GB xet	about 1 month ago	bf0f5567
myanmar-llm-data-formatted.jsonl	3.7 kB xet	about 1 month ago	b955e62d
myanmar-llm-formatted.jsonl	24.8 MB xet	about 1 month ago	840742e9

README.md

Combined Myanmar LLM Dataset

A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.

English | မြန်မာဘာသာ

English

Overview

This dataset combines three source datasets for training LLMs with Myanmar language and coding capabilities:

Dataset	Description	Samples
`amkyawdev/myanmar-llm-data`	Myanmar language conversations, translations, Q&A	20,327
`amkyawdev/mm-llm-coder-agent-dataset`	Agent workflow for coding tasks	1,000,020
`amkyawdev/mm-llm-coder-dataset`	Code generation tasks	2,000,000

Total Samples: 3,020,347

Dataset Structure

Each sample contains:

{
    "messages": [  # Chat messages (list of dicts with role/content)
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "User input here"},
        {"role": "assistant", "content": "Response here"}
    ],
    "instruction": "Task instruction (for code datasets)",
    "category": "Task category (greeting, translation, code_debugging, etc.)",
    "language": "en or my",
    "difficulty": "beginner, intermediate, or advanced",
    "response": "Expected response/output",
    "task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
}

Extended Fields (from mm-llm-coder-agent-dataset)

Some samples include additional fields:

Field	Description
`framework`	Framework used (React, Express, etc.)
`runtime`	Runtime environment
`database`	Database system
`environment`	Development environment
`tools_used`	Tools used in the task
`code_snippets`	Code examples
`validated`	Whether validated
`rating`	Quality rating
`complexity_score`	Task complexity score

Usage

from datasets import load_dataset

# Load the entire dataset
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# Load specific split
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# Access a single sample
sample = train_ds[0]
print(sample["messages"])

Use Cases

Myanmar Language Models: Training LLMs that understand Burmese/Myanmar language
Code Generation: Training models for programming tasks
Multilingual Tasks: Translation between English and Myanmar
Chatbots: Building conversational AI for Myanmar speakers
Agent Workflows: Training coding agents

Dataset Card Citation

If you use this dataset, please cite:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

မြန်မာဘာသာ

အနှစ်ချူပါ

ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။

ဒေါင်းလုဒ်	ဖော်ပါ	ပါဝင်မှု
`amkyawdev/myanmar-llm-data`	မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A	၂၀,၃၂၇
`amkyawdev/mm-llm-coder-agent-dataset`	ကုဒ်ရေးလုပ်တဲ့ agents များ	၁,၀၀၀,၀၂၀
`amkyawdev/mm-llm-coder-dataset`	ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ	၂,၀၀၀,၀၀၀

ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇

ဖွဲ့စည်းပါ

နမူနာတစ်ခုခုမှာ ပါဝင်တာများ:

{
    "messages": [  # ပါးဆက်ပါ (role/content ရှိတဲ့ dict များ)
        {"role": "system", "content": "သင်သည် အကူအညီပါ။"},
        {"role": "user", "content": "သုံးစွဲသူပါ"},
        {"role": "assistant", "content": "အဖြေပါ"}
    ],
    "instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
    "category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
    "language": "en သို့မဟုတ် my",
    "difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
    "response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
    "task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
}

သုံးပါ

from datasets import load_dataset

# ဒေါင်းလုဒ်လုပ်ချက်
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# ပါဝင်မှု
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# နမူနာတစ်ခုယူပါ
sample = train_ds[0]
print(sample["messages"])

သုံးပြုနည်း အမျိုးမျိုး

မြန်မာစာ LLM: မြန်မာစာနားလည်တဲ့ LLM များကို လေ့ကျင့်ခြင်း
ကုဒ်ထုတ်လုပ်ခြင်း: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
ဘာသာပြန်: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
ခွန်းဖြေ: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း

ကိုးကားချက်

ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

License

Apache 2.0 License

Dataset URL

https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset

Total size: 2.88 GB

Files: 8

Last updated: Apr 29

Pre-warmed CDN: US EU US EU