Kaleidoscope_small_v1开源文档问答模型 - 支持俄英双语，从文档精准提取答案

首页

Kaleidoscope Small V1

由 2KKLabs 开发

基于sberbank-ai/ruBert-base微调的文档问答模型，擅长从文档上下文中提取答案，支持俄语和英语。

问答系统

Transformers

支持多种语言#俄语文档问答 #多模态处理 #BERT微调

下载量 98

发布时间 : 2/21/2025

模型简介

该模型专为文档问答任务设计，经过自定义JSON数据集微调，适用于客户支持、文档搜索等场景。

模型特点

多语言支持

主要针对俄语优化，同时支持英语问答（未经充分测试）

上下文理解

通过滑动窗口分词处理长文档，有效捕捉上下文关联

高效训练

采用混合精度训练和AdamW优化器，在RTX 3070上完成20轮微调

模型能力

文档内容理解

问题答案提取

多语言文本处理

长上下文分析

使用案例

客户支持

自动化问答系统

从产品文档中自动回答客户问题

示例显示能准确提取'阿尔伯特·爱因斯坦提出相对论'等事实

文档检索

合同条款查询

快速定位法律/合同文档中的特定条款

🚀 文档问答模型 - Kaleidoscope_small_v1

本模型是sberbank-ai/ruBert-base的微调版本，专为文档问答任务而设计。它能够从给定的文档上下文中提取答案，并在包含上下文、问题和答案三元组的自定义JSON数据集上进行了微调。

✨ 主要特性

目标：根据用户的问题从文档中提取答案。
基础模型：sberbank-ai/ruBert-base。
数据集：一个自定义的JSON文件，包含上下文、问题和答案字段。
预处理：通过将问题和文档上下文连接起来形成输入，引导模型关注相关部分。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model = AutoModelForQuestionAnswering.from_pretrained("LaciaStudio/Kaleidoscope_small_v1")
model.to(device)

file_path = input("Enter document path: ")
with open(file_path, "r", encoding="utf-8") as f:
    context = f.read()

while True:
    question = input("Enter question (or 'exit' to quit): ")
    if question.lower() == "exit":
        break
    inputs = tokenizer(question, context, return_tensors="pt", truncation=True, max_length=384)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    outputs = model(**inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits
    start_index = torch.argmax(start_logits)
    end_index = torch.argmax(end_logits)
    answer_tokens = inputs["input_ids"][0][start_index:end_index + 1]
    answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)
    print("Answer:", answer)

问答示例

俄语

上下文：

Альберт Эйнштейн разработал теорию относительности.

问题：

Кто разработал теорию относительности?

答案：

альберт эинштеин

英语

上下文：

I had a red car.

问题：

What kind of car did I have?

答案：

a red car

📚 详细文档

训练设置

训练轮数：20。
批次大小：每个设备4。
预热步数：总步数的0.1。
启用FP16训练（如果CUDA可用）。
硬件：在1xRTX 3070上进行训练。

训练过程描述

该模型使用Transformers库和自定义训练管道进行微调。训练过程的关键方面包括：

自定义数据集：加载器读取包含上下文、问题和答案三元组的JSON文件。
特征准备：脚本使用滑动窗口方法对文档和问题进行分词，以处理长文本。
训练过程：利用混合精度训练和AdamW优化器来改进优化。
评估和检查点：训练脚本在验证集上评估模型性能，保存检查点，并根据验证损失采用早期停止策略。

此模型非常适合交互式文档问答任务，是客户支持、文档搜索和自动问答系统等应用的强大工具。虽然主要针对俄语文本，但也支持英语输入。

🔧 技术细节

该模型使用自定义训练管道，结合Transformers库进行微调。通过将问题和文档上下文连接起来形成输入，引导模型关注相关部分。在训练过程中，利用混合精度训练和AdamW优化器来提高优化效率。同时，使用滑动窗口方法对长文本进行处理，确保模型能够处理较长的文档。

📄 许可证

本模型采用cc-by-nc-4.0许可证。

微调由LaciaStudio | LaciaAI完成

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文