PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型
这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先,必要英文术语仅用于模型平台兼容。
当前初赛提交候选为 v6。
模型简介
本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。
推荐提示词:
<image>OCR:
基础模型
- 基础模型:PaddleOCR-VL-1.6。
- 微调方式:LoRA 微调后导出合并模型。
- 目标任务:代码文字识别 / 开发工具 OCR。
数据概况
当前训练索引 train.json 共 1102 条样本。公开仓库不直接发布训练数据,只说明数据类型和质量控制方法。数据主要覆盖:
- IDE / 编辑器代码截图。
- 终端、Shell、PowerShell 命令和输出。
- Traceback、报错日志和诊断信息。
- YAML / JSON / TOML / INI 配置文件。
- Git diff、patch 和 PR 页面。
- Markdown / 文档代码块。
- API 表格、参数表和字段说明。
- 小字号、压缩、暗色主题、拍屏等困难样本。
最终 benchmark 测试集冻结,不参与训练和训练期调参。
使用场景
本模型适用于从开发场景截图中抽取可见文字,并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。
推荐解码参数:
max_tokens=4096
repetition_penalty=1.08
temperature=0
阶段性评估
benchmark v4 包含 100 个样本,覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判,并按类别权重汇总最终分。测试集不参与训练和训练期调参。
当前提交候选 v6 在 benchmark v4 上的结果:
| 指标 | 数值 |
|---|---|
| final_score_v4 | 61.08 |
| 全局六维分 | 64.06 |
| 类别宏平均 | 63.86 |
| 最弱类别 | 44.54 |
| 严格可用率 | 47.00% |
| 完成率 | 96.00% |
| 安全分 | 79.00% |
| 平均 LLM | 74.05 |
| 平均 NED | 0.1360 |
完整 benchmark 与 demo 说明见 GitHub docs/ocr_benchmark_v4.md。
局限性
模型在以下场景仍可能出错:
- 极小或模糊文本。
- 复杂 API 表格。
- 深层嵌套配置文件。
- 长 Traceback 输出。
- 多区域混排截图。
- 罕见符号、代码标点和缩进敏感内容。
模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。
致谢
本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。
- Downloads last month
- 37
Model tree for snnh/paddleocr_vl_code_ocr
Base model
baidu/ERNIE-4.5-0.3B-Paddle Finetuned
PaddlePaddle/PaddleOCR-VL-1.5 Finetuned
PaddlePaddle/PaddleOCR-VL-1.6