---
language:
- zh
- en
license: apache-2.0
base_model: PaddlePaddle/PaddleOCR-VL-1.6
pipeline_tag: image-text-to-text
tags:
- paddleocr
- ocr
- vision-language
- code-ocr
- developer-tools
---

# PaddleOCR-VL-1.6 开发场景代码 OCR 微调模型

这是 PaddleOCR 全球衍生模型挑战赛提交用模型卡。本文档中文优先，必要英文术语仅用于模型平台兼容。

当前初赛提交候选为 v6。

## 模型简介

本模型基于 PaddleOCR-VL-1.6 微调，面向开发场景 OCR。目标是识别 IDE 截图、终端输出、Traceback、配置文件、Git diff、文档代码块、API 表格、小字号和暗色主题等开发相关图片中的可见文字。

推荐提示词：

```text
<image>OCR:
```

## 基础模型

- 基础模型：PaddleOCR-VL-1.6。
- 微调方式：LoRA 微调后导出合并模型。
- 目标任务：代码文字识别 / 开发工具 OCR。

## 数据概况

当前训练索引 `train.json` 共 1102 条样本。公开仓库不直接发布训练数据，只说明数据类型和质量控制方法。数据主要覆盖：

- IDE / 编辑器代码截图。
- 终端、Shell、PowerShell 命令和输出。
- Traceback、报错日志和诊断信息。
- YAML / JSON / TOML / INI 配置文件。
- Git diff、patch 和 PR 页面。
- Markdown / 文档代码块。
- API 表格、参数表和字段说明。
- 小字号、压缩、暗色主题、拍屏等困难样本。

最终 benchmark 测试集冻结，不参与训练和训练期调参。

## 使用场景

本模型适用于从开发场景截图中抽取可见文字，并尽量保留代码符号、缩进、换行、结构和阅读顺序。它不是代码修复或代码生成模型，不应补全图片中不可见的内容。

推荐解码参数：

```text
max_tokens=4096
repetition_penalty=1.08
temperature=0
```

## 阶段性评估

benchmark v4 包含 100 个样本，覆盖 8 类开发 OCR 场景。评估采用六维 LLM 裁判，并按类别权重汇总最终分。测试集不参与训练和训练期调参。

当前提交候选 v6 在 benchmark v4 上的结果：

| 指标 | 数值 |
| --- | ---: |
| final_score_v4 | 61.08 |
| 全局六维分 | 64.06 |
| 类别宏平均 | 63.86 |
| 最弱类别 | 44.54 |
| 严格可用率 | 47.00% |
| 完成率 | 96.00% |
| 安全分 | 79.00% |
| 平均 LLM | 74.05 |
| 平均 NED | 0.1360 |

完整 benchmark 与 demo 说明见 [GitHub docs/ocr_benchmark_v4.md](https://github.com/snnh/paddleocr-vl-code-ocr/blob/main/docs/ocr_benchmark_v4.md)。

## 局限性

模型在以下场景仍可能出错：

- 极小或模糊文本。
- 复杂 API 表格。
- 深层嵌套配置文件。
- 长 Traceback 输出。
- 多区域混排截图。
- 罕见符号、代码标点和缩进敏感内容。

模型输出应只作为 OCR 转写结果使用，不能视为代码语义理解或代码正确性保证。

## 许可说明

本 Hugging Face 仓库发布的微调模型权重按 Apache License 2.0 开源。GitHub 仓库中的代码、脚本、配置摘要和文档同样按 Apache License 2.0 开源，除非具体文件另有说明。

基础模型 PaddleOCR-VL-1.6 本身标注为 Apache-2.0。第三方数据集、训练/评估来源素材和比赛单独提交的评估集不随模型权重或 GitHub 仓库重新分发、重新授权，仍受各自来源的许可、使用条款和限制约束。

## 致谢

本模型为 PaddleOCR 全球衍生模型挑战赛构建，基础能力来自 PaddleOCR-VL 系列模型。