开源MixQG-3B模型 - 根据上下文和答案免费生成相关问题！

首页

Mixqg 3b

由 Salesforce 开发

MixQG是一种基于混合答案类型的神经问题生成模型，能够根据给定的上下文和答案生成相关问题。

问答系统

Transformers

英语#问答生成 #混合答案类型 #学术研究辅助

下载量 448

发布时间 : 3/2/2022

模型简介

MixQG是一种新型问题生成模型，基于混合答案类型的问答数据集进行预训练，主要用于根据上下文和答案生成相关问题。

模型特点

混合答案类型支持

能够处理多种答案类型的问题生成任务

大规模预训练

基于30亿参数规模的模型进行训练

中文支持

特别针对中文问题生成进行了优化

模型能力

文本生成

问题生成

自然语言处理

使用案例

教育

自动生成测试问题

根据教材内容自动生成相关问题用于测试

提高教师工作效率，快速创建测试题目

问答系统

增强问答系统

为问答系统生成相关问题以丰富知识库

提升问答系统的覆盖范围和用户体验

🚀 MixQG (3b规模模型)

MixQG是一个新的问题生成模型，它在包含多种答案类型的问答数据集集合上进行了预训练。该模型在论文MixQG: Neural Question Generation with Mixed Answer Types中被提出，相关代码发布在此仓库中。

🚀 快速开始

如何使用

基础用法

使用Huggingface的pipeline抽象：

from transformers import pipeline

nlp = pipeline("text2text-generation", model='Salesforce/mixqg-3b', tokenizer='Salesforce/mixqg-3b')
    
CONTEXT = "In the late 17th century, Robert Boyle proved that air is necessary for combustion."
ANSWER = "Robert Boyle"

def format_inputs(context: str, answer: str):
    return f"{answer} \\n {context}"

text = format_inputs(CONTEXT, ANSWER)

nlp(text)
# should output [{'generated_text': 'Who proved that air is necessary for combustion?'}]

高级用法

直接使用预训练模型：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained('Salesforce/mixqg-3b')
model = AutoModelForSeq2SeqLM.from_pretrained('Salesforce/mixqg-3b')

CONTEXT = "In the late 17th century, Robert Boyle proved that air is necessary for combustion."
ANSWER = "Robert Boyle"

def format_inputs(context: str, answer: str):
    return f"{answer} \\n {context}"
    
text = format_inputs(CONTEXT, ANSWER)

input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_ids = model.generate(input_ids, max_length=32, num_beams=4)
output = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
print(output)
# should output "Who proved that air is necessary for combustion?"

📚 详细文档

引用

@misc{murakhovska2021mixqg,
      title={MixQG: Neural Question Generation with Mixed Answer Types}, 
      author={Lidiya Murakhovs'ka and Chien-Sheng Wu and Tong Niu and Wenhao Liu and Caiming Xiong},
      year={2021},
      eprint={2110.08175},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

🔧 技术细节

伦理考量

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导，请参考我们的可接受使用政策（AUP）和人工智能可接受使用政策（AI AUP）。