PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型

这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先,必要英文术语仅用于模型平台兼容。

当前初赛提交候选为 v6。

模型简介

本模型基于 PaddleOCR-VL-1.6 微调,面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

推荐提示词:

<image>OCR:

基础模型

  • 基础模型:PaddleOCR-VL-1.6。
  • 微调方式:LoRA 微调后导出合并模型。
  • 目标任务:代码文字识别 / 开发工具 OCR。

数据概况

当前训练索引 train.json 共 1102 条样本。公开仓库不直接发布训练数据,只说明数据类型和质量控制方法。数据主要覆盖:

  • IDE / 编辑器代码截图。
  • 终端、Shell、PowerShell 命令和输出。
  • Traceback、报错日志和诊断信息。
  • YAML / JSON / TOML / INI 配置文件。
  • Git diff、patch 和 PR 页面。
  • Markdown / 文档代码块。
  • API 表格、参数表和字段说明。
  • 小字号、压缩、暗色主题、拍屏等困难样本。

最终 benchmark 测试集冻结,不参与训练和训练期调参。

使用场景

本模型适用于从开发场景截图中抽取可见文字,并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型,不应补全图片中不可见的内容。

推荐解码参数:

max_tokens=4096
repetition_penalty=1.08
temperature=0

阶段性评估

benchmark v4 包含 100 个样本,覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判,并按类别权重汇总最终分。测试集不参与训练和训练期调参。

当前提交候选 v6 在 benchmark v4 上的结果:

指标 数值
final_score_v4 61.08
全局六维分 64.06
类别宏平均 63.86
最弱类别 44.54
严格可用率 47.00%
完成率 96.00%
安全分 79.00%
平均 LLM 74.05
平均 NED 0.1360

完整 benchmark 与 demo 说明见 GitHub docs/ocr_benchmark_v4.md

局限性

模型在以下场景仍可能出错:

  • 极小或模糊文本。
  • 复杂 API 表格。
  • 深层嵌套配置文件。
  • 长 Traceback 输出。
  • 多区域混排截图。
  • 罕见符号、代码标点和缩进敏感内容。

模型输出应只作为 OCR 转写结果使用,不能视为代码语义理解或代码正确性保证。

致谢

本模型为 PaddleOCR 全球衍生模型挑战赛构建,基础能力来自 PaddleOCR-VL 系列模型。

Downloads last month
37
Safetensors
Model size
1.0B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for snnh/paddleocr_vl_code_ocr

Finetuned
(3)
this model