Persian-Mistral-7B开源模型 - 免费实现波斯语问答和自然语言处理

首页

Persian Mistral 7B

由 aidal 开发

基于 mistral-7b 微调的波斯语问答和自然语言处理模型

大型语言模型

Transformers

支持多种语言#波斯语问答 #多语言支持 #LoRA微调

下载量 590

发布时间 : 3/9/2024

模型简介

Persian-mistral 是基于 mistral-7b 微调的版本，专为波斯语问答和自然语言处理任务设计。

模型特点

波斯语优化

专门针对波斯语进行了微调和优化，显著提升了波斯语处理能力

扩展分词器

在波斯语维基百科语料库上训练了 SentencePiece 分词器，并与原分词器集成

多阶段训练

采用预训练和指令微调两阶段训练方法，提升模型性能

LoRA 微调

使用 LoRA (Low-Rank Adaptation) 方法进行高效微调

模型能力

波斯语文本生成

波斯语问答

波斯语文本补全

多语言处理

使用案例

医疗信息

医疗问答

回答关于疾病治疗方法的专业问题

能准确生成医疗相关内容的波斯语回答

历史信息

历史事件描述

生成关于历史事件的详细描述

能准确生成历史相关内容的波斯语回答

教育

波斯语学习辅助

帮助学习者理解和生成波斯语内容

提供流畅自然的波斯语输出

🚀 波斯语米斯特拉尔7B模型

波斯语米斯特拉尔7B模型是专门为波斯语问答和自然语言处理任务设计的微调版本模型，能有效提升波斯语相关任务的处理能力。

Hugging Face Transformers Library

模型描述 | 输出示例 | 基准测试结果 | 使用方法 | 训练与微调

🚀 快速开始

以下是使用该模型的简单步骤，你可以按照下面的代码示例进行操作。

✨ 主要特性

基于米斯特拉尔7B模型进行微调，专为波斯语问答和自然语言处理任务设计。
通过在多个波斯语数据集上训练，提升了对波斯语的理解和处理能力。

📦 安装指南

使用该模型需要安装transformers库，你可以使用以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("aidal/Persian-Mistral-7B")
model = AutoModelForCausalLM.from_pretrained("aidal/Persian-Mistral-7B")
input_text = "پایتخت ایران کجاست؟"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

📚 详细文档

模型描述

波斯语米斯特拉尔是米斯特拉尔7B的微调版本，专为波斯语问答和自然语言处理任务而设计。

输出示例

示例1：

输入："درمان اصلی برای افراد مبتلا او آر اس، جایگزینی مایعات و الکترولیت ها در بدن"
训练后输出："درمان اصلی برای افراد مبتلا او آر اس، جایگزینی مایعات و الکترولیت ها در بدن است. که به طور معمول از طریق تزریق وریدی استفاده می شود."
训练前输出：" درمان اصلی برای افراد مبتلا او آر اس، جایگزینی مایعات و الکترولیتها.The most important treatment for people with diarrhea is oral rehydration solution."

示例2：

输入："سال ۱۹۴۴ متفقین به فرانسه اشغال شده توسط آلمان، در عملیاتی در نرماندی حمله کرده و"
训练后输出："سال ۱۹۴۴ متفقین به فرانسه اشغال شده توسط آلمان، در عملیاتی در نرماندی حمله کرده و 150,000 نفر از آنها را کشتند."
训练前输出："سال ۱۹۴۴ متفقین به فرانسه اشغال شده توسط آلمان، در عملیاتی در نرماندی حمله کرده و خرج گرفت.The United States and France have condemned the killing of a French aid worker in Afghanistan by Tal"

基准测试结果

模型	数据集	得分
base-model-7b	ARC-easy	41.92%
base-model-7b	ARC-easy	39.12%
fa-model-7b	ARC-easy	37.89%
base-model-7b	ARC-challenge	37.12%
fa-model-7b	ARC-challenge	39.29%

训练与微调

扩展分词器：基础的米斯特拉尔分词器不支持波斯语。作为初始步骤，我们在波斯语维基百科语料库上训练了一个SentencePiece分词器，随后将其与米斯特拉尔分词器集成。
预训练：在接下来的步骤中，我们扩展了基础模型的嵌入层，使其与波斯语分词器的大小相匹配。然后，我们使用LoRA方法在三个不同的数据集上训练模型：波斯语维基百科、伊斯兰书籍集合和Khamenei.ir的内容。

Hugging Face Transformers Library