library_name: transformers
language:
- 英文
- 泰文
base_model:
- Qwen/Qwen2.5-VL-7B-Instruct
tags:
Typhoon-OCR-7B:专为泰英双语现实场景文档解析打造的模型,灵感来源于基于Qwen2.5-VL-Instruction框架的olmOCR等模型。
体验我们的在线演示:Demo
查看代码与示例:Github
发布说明博客:OpenTyphoon博客
注意:本模型需配合特定提示词使用,其他提示词将无法生效。
现实文档支持能力
1. 结构化文档:财务报表、学术论文、书籍、政府表格
输出格式:
- 通用文本采用Markdown格式
- 表格数据使用HTML格式(支持合并单元格和复杂布局)
- 图表和图示通过标签进行结构化视觉解析
图像多层解析流程:
- 元素识别:检测景观、建筑、人物、标识和嵌入文本
- 上下文分析:推断地理位置、事件或文档章节信息
- 文本提取:识别泰英双语嵌入文字(如图表标签、说明文字)
- 艺术结构分析:捕捉影响文档风格的版式设计和图表类型
- 综合摘要:整合所有信息形成结构化描述,支持摘要生成和检索任务
2. 版式复杂文档:收据、菜单、票据、信息图
输出格式:
- 支持表格嵌入的Markdown格式,保持原始布局结构
性能表现

核心发现
在泰语文档理解任务中,Typhoon OCR对复杂版式和混合语言内容的处理能力超越GPT-4o和Gemini 2.5 Flash。但在泰文书籍基准测试中,由于插图类型和结构的多样性,当前图像标签解析系统表现略有下降,这为未来图像理解能力的提升指明了方向。
当前版本主要聚焦于泰英双语的优质OCR识别,后续版本将增强高级图像分析和图表解读功能。
使用示例
(推荐) 完整推理代码参见:Colab笔记本
(推荐) 使用Typhoon-OCR安装包
pip install typhoon-ocr
from typhoon_ocr import ocr_document
markdown = ocr_document("test.png")
print(markdown)
手动运行
以下是核心代码片段,支持API或本地模型两种调用方式。
API调用:
openai = OpenAI(base_url="https://api.opentyphoon.ai/v1", api_key="TYPHOON_API_KEY")
response = openai.chat.completions.create(
model="typhoon-ocr-preview",
messages=构建好的消息体,
max_tokens=16384,
temperature=0.1,
top_p=0.6,
extra_body={"repetition_penalty": 1.2}
)
本地模型调用:
model = Qwen2_5_VLForConditionalGeneration.from_pretrained("scb10x/typhoon-ocr-7b", torch_dtype=torch.bfloat16).eval()
output = model.generate(
**输入参数,
temperature=0.1,
max_new_tokens=12000,
repetition_penalty=1.2
)
提示词规范
本模型仅支持以下预定义提示词模板,其中{base_text}
需通过typhoon-ocr
工具包的get_anchor_text
函数从PDF元数据提取:
PROMPTS_SYS = {
"default": "返回文档的Markdown表示,表格用Markdown格式呈现...",
"structure": "返回包含HTML表格和<figure>标签的文档结构化表示..."
}
生成参数建议
作为OCR专用模型,建议采用严格参数配置:
temperature=0.1,
top_p=0.6,
repetition_penalty=1.2
应用场景与限制
本模型为任务专用型,不包含通用问答能力。由于大语言模型特性,可能存在一定程度的幻觉现象,建议开发者根据实际应用场景进行风险评估。
关注我们
https://twitter.com/opentyphoon
技术支持
https://discord.gg/us5gAYmrxw
引用规范
若Typhoon2对您的研究有所帮助,请引用:
@misc{typhoon2,
title={Typhoon 2系列:开源的泰语文本与多模态大语言模型},
author={作者列表},
year=2024,
eprint={2412.13702},
primaryClass={cs.CL}
}