donut-base-japanese-visual-novel开源模型 - 精准识别视觉小说文本与选项

首页

Donut Base Japanese Visual Novel

由 oshizo 开发

该模型是在视觉小说风格图像的合成数据集上对naver-clova-ix/donut-base进行训练的成果，专门用于识别视觉小说中的文本和选项。

图像生成文本

Transformers

日语开源协议:MIT #视觉小说文本识别 #日语文档解析 #游戏UI提取

下载量 14

发布时间 : 5/3/2023

模型简介

Donut模型经过微调，专门用于识别视觉小说风格的图像中的文本内容，包括对话、选项和角色名称。

模型特点

视觉小说专用

专门针对视觉小说风格的图像进行优化，能准确识别对话、选项和角色名称。

布局适应

训练包含多种常见视觉小说布局及其变体，能处理不同排版格式。

注音过滤

设计目标是不受注音假名影响，专注于准确读取正文内容。

UI元素过滤

能尽量避免读取SAVE、LOAD等UI元素及日期显示等非对话内容。

模型能力

视觉小说图像识别

日语文本提取

对话选项解析

角色名称识别

使用案例

游戏开发

视觉小说文本提取

自动识别视觉小说游戏截图中的对话内容和选项

输出结构化JSON格式的对话信息

游戏测试自动化

用于自动化测试视觉小说游戏中的文本显示

验证游戏文本是否正确显示

本地化工具

翻译辅助

提取视觉小说文本用于翻译工作

提供待翻译文本的准确提取

🚀 甜甜圈模型（基础大小模型，在视觉小说风格合成数据集上微调）

这是一个在视觉小说风格图像的合成数据集上对naver-clova-ix/donut-base进行训练的模型，可用于相关图像的识别处理。

🚀 快速开始

请参考示例笔记本sample_predictions_colab.ipynb。你可以通过oshizo/donut-base-japanese-visual-novel获取相关资源。

💻 使用示例

基础用法

你可以按照示例笔记本sample_predictions_colab.ipynb中的步骤进行操作。

识别结果示例

以下是一些识别结果的示例，展示了模型对不同视觉小说风格图像的识别效果。

{'options': '', 'names': '结月', 'messages': '这座神社有个古老的传说。在神树之下立下誓言，愿望必将实现。敞开心扉，相信自己的想法吧。'}

示例图片1

{'options': ['走吧！', '这次就算了', '等做好准备再说（退出对话）', '请详细告诉我旅行的目的'], 'names': '莉莲', 'messages': '我们的使命是通过新的发现和交流，构筑地球与宇宙的未来。你准备好加入这场伟大的旅程了吗？'}

示例图片2

{'options': ['全力攻击！夺取胜利！', '稳健防守，等待敌人的破绽。'], 'names': '', 'messages': '诱敌深入，运用战术。'}

示例图片3

{'options': '当然，我会帮忙的！', 'names': '下尾崎菊欠郎', 'messages': '这个书房里可能藏着重要的线索。你能帮我一起找找吗？'}

示例图片4

🔧 技术细节

模型规格

属性	详情
模型类型	在视觉小说风格合成数据集上微调的Donut基础模型
输出格式	输出包含`options`、`names`、`messages`三个键的JSON

训练布局

包含的布局：训练数据中包含以下布局以及各布局不存在的模式。
未包含的布局：以下模式等未包含在训练数据中的模式可能无法被很好地识别。

其他限制

⚠️ 重要提示

由于模型仅在宽度1920px、高度1080px的图像上进行训练和评估，当图像纵横比差异较大时，识别精度可能会下降。

解码器的分词器基于XLMRobertaTokenizer，并额外添加了约1500种日语汉字，因此可能存在分词器中不存在而无法输出的汉字。

训练方法

更多详细信息可参考以下笔记文章：端到端文档图像识别模型Donut微调笔记

📄 许可证

本项目采用MIT许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文