2.88 GB
8 files
Updated about 1 month ago
NameSize
myanmar-llm-data-formatted
README.md6.81 kB
xet
myanmar-llm-adp-execution-feedback.jsonl50.8 MB
xet
myanmar-llm-clean.jsonl2.79 GB
xet
myanmar-llm-data-formatted.jsonl3.7 kB
xet
myanmar-llm-formatted.jsonl24.8 MB
xet
README.md

Combined Myanmar LLM Dataset

A comprehensive dataset combining three Myanmar-related datasets for training large language models, optimized for code generation and Myanmar language understanding.

English | မြန်မာဘာသာ


English

Overview

This dataset combines three source datasets for training LLMs with Myanmar language and coding capabilities:

Dataset Description Samples
amkyawdev/myanmar-llm-data Myanmar language conversations, translations, Q&A 20,327
amkyawdev/mm-llm-coder-agent-dataset Agent workflow for coding tasks 1,000,020
amkyawdev/mm-llm-coder-dataset Code generation tasks 2,000,000

Total Samples: 3,020,347

Dataset Structure

Each sample contains:

{
    "messages": [  # Chat messages (list of dicts with role/content)
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "User input here"},
        {"role": "assistant", "content": "Response here"}
    ],
    "instruction": "Task instruction (for code datasets)",
    "category": "Task category (greeting, translation, code_debugging, etc.)",
    "language": "en or my",
    "difficulty": "beginner, intermediate, or advanced",
    "response": "Expected response/output",
    "task_type": "Type of task (qa_conversation, agent_workflow, etc.)"
}

Extended Fields (from mm-llm-coder-agent-dataset)

Some samples include additional fields:

Field Description
framework Framework used (React, Express, etc.)
runtime Runtime environment
database Database system
environment Development environment
tools_used Tools used in the task
code_snippets Code examples
validated Whether validated
rating Quality rating
complexity_score Task complexity score

Usage

from datasets import load_dataset

# Load the entire dataset
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# Load specific split
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# Access a single sample
sample = train_ds[0]
print(sample["messages"])

Use Cases

  • Myanmar Language Models: Training LLMs that understand Burmese/Myanmar language
  • Code Generation: Training models for programming tasks
  • Multilingual Tasks: Translation between English and Myanmar
  • Chatbots: Building conversational AI for Myanmar speakers
  • Agent Workflows: Training coding agents

Dataset Card Citation

If you use this dataset, please cite:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

မြန်မာဘာသာ

အနှစ်ချူပါ

ဒီ dataset သည် မြန်မာစာ နှင့် ကုဒ်ရေးလုပ်တဲ့ LLM များကို လေ့ကျင့်ဖို့အတွက် သုံးခုေကာင်း ဒေါင်းလုဒ်များကို ပေါင်းစပ်ထားပပါ။

ဒေါင်းလုဒ် ဖော်ပါ ပါဝင်မှု
amkyawdev/myanmar-llm-data မြန်မာစာပါးဆက်ပါ၊ ဘာသာပြန်၊ Q&A ၂၀,၃၂၇
amkyawdev/mm-llm-coder-agent-dataset ကုဒ်ရေးလုပ်တဲ့ agents များ ၁,၀၀၀,၀၂၀
amkyawdev/mm-llm-coder-dataset ကုဒ်ထုတ်လုပ်တဲ့ အလုပ်များ ၂,၀၀၀,၀၀၀

ပါဝင်မှု စုစုပါး: ၃,၀၂၀,၃၄၇

ဖွဲ့စည်းပါ

နမူနာတစ်ခုခုမှာ ပါဝင်တာများ:

{
    "messages": [  # ပါးဆက်ပါ (role/content ရှိတဲ့ dict များ)
        {"role": "system", "content": "သင်သည် အကူအညီပါ။"},
        {"role": "user", "content": "သုံးစွဲသူပါ"},
        {"role": "assistant", "content": "အဖြေပါ"}
    ],
    "instruction": "အလုပ်ညွှန်ကိုးကါ (ကုဒ် dataset များအတွက်)",
    "category": "အလုပ်အမျိုးအစား (greeting, translation, code_debugging, etc.)",
    "language": "en သို့မဟုတ် my",
    "difficulty": "beginner, intermediate, သို့မဟုတ် advanced",
    "response": "မျှော်လင့်တဲ့ အဖြေ/ထွက်ပါ",
    "task_type": "အလုပ်အမျိုးအစား (qa_conversation, agent_workflow, etc.)"
}

သုံးပါ

from datasets import load_dataset

# ဒေါင်းလုဒ်လုပ်ချက်
dataset = load_dataset("amkyawdev/combined-myanmar-llm-dataset")

# ပါဝင်မှု
train_ds = load_dataset("amkyawdev/combined-myanmar-llm-dataset", split="train")

# နမူနာတစ်ခုယူပါ
sample = train_ds[0]
print(sample["messages"])

သုံးပြုနည်း အမျိုးမျိုး

  • မြန်မာစာ LLM: မြန်မာစာနားလည်တဲ့ LLM များကို လေ့ကျင့်ခြင်း
  • ကုဒ်ထုတ်လုပ်ခြင်း: ပရိုဂရမ်ရေးလုပ်တဲ့ မော်ဒယ်များကို လေ့ကျင့်ခြင်း
  • ဘာသာပြန်: အင်္ဂလိပ်နဲ့ မြန်မာပါးကြား ပြန်ဆိုခြင်း
  • ခွန်းဖြေ: မြန်မာစာပါးဆက်ပါ AI များကို ဆောက်လုပ်ခြင်း

ကိုးကားချက်

ဒီဒေါင်းလုဒ်များကို သုံးပါက ကျေးဇူးပါ။:

@dataset{combined_myanmar_llm,
  title={Combined Myanmar LLM Dataset},
  author={amkyawdev},
  year={2024},
  url={https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset}
}

License

Apache 2.0 License

Dataset URL

https://huggingface.co/datasets/amkyawdev/combined-myanmar-llm-dataset

Total size
2.88 GB
Files
8
Last updated
Apr 29
Pre-warmed CDN
US EU US EU

Contributors