PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型

这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先，必要英文术语仅用于模型平台兼容。

当前初赛提交候选为 v6。

模型简介

本模型基于 PaddleOCR-VL-1.6 微调，面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

推荐提示词：

<image>OCR:

当前训练索引 train.json 共 1102 条样本。公开仓库不直接发布训练数据，只说明数据类型和质量控制方法。数据主要覆盖：

最终 benchmark 测试集冻结，不参与训练和训练期调参。

本模型适用于从开发场景截图中抽取可见文字，并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型，不应补全图片中不可见的内容。

推荐解码参数：

max_tokens=4096
repetition_penalty=1.08
temperature=0

benchmark v4 包含 100 个样本，覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判，并按类别权重汇总最终分。测试集不参与训练和训练期调参。

当前提交候选 v6 在 benchmark v4 上的结果：

完整 benchmark 与 demo 说明见 GitHub docs/ocr_benchmark_v4.md。

模型在以下场景仍可能出错：

模型输出应只作为 OCR 转写结果使用，不能视为代码语义理解或代码正确性保证。

本模型为 PaddleOCR 全球衍生模型挑战赛构建，基础能力来自 PaddleOCR-VL 系列模型。

Safetensors

Model size

1.0B params

Tensor type

BF16

Base model

Finetuned

Finetuned

Finetuned

(3)

this model