基于Mistral-7B-Instruct-v0.2微调的多语言指令跟随模型,支持101种语言
下载量 92
发布时间 : 2/27/2024
模型介绍
内容详情
替代品
模型简介
这是一个基于Mistral-7B-Instruct-v0.2微调的指令跟随模型,专门针对多语言场景优化,能够理解和生成多种语言的文本内容。
模型特点
多语言支持
支持101种语言的文本理解和生成能力
指令跟随
能够准确理解和执行复杂的自然语言指令
安全响应
内置安全机制,避免生成有害或不道德内容
模型能力
多语言文本生成
指令理解与执行
技术概念解释
故事创作
多语言翻译
使用案例
教育
多语言学习助手
帮助学生理解不同语言的技术概念
提供准确的多语言解释
内容创作
多语言故事创作
根据用户指令生成多语言故事内容
示例中展示了悟空与卡比的短篇故事创作
技术解释
技术概念说明
用多种语言解释Docker等复杂技术概念
提供详细的优缺点分析
许可证:apache-2.0
基础模型:mistralai/Mistral-7B-Instruct-v0.2
数据集:
- CohereForAI/aya_dataset
标签: - axolotl
- mistral
- 7b
- generated_from_trainer
支持语言: - 南非荷兰语、阿姆哈拉语、阿拉伯语、阿塞拜疆语、白俄罗斯语、孟加拉语、保加利亚语、加泰罗尼亚语、宿务语、捷克语、威尔士语、丹麦语、德语、希腊语、英语、世界语、爱沙尼亚语、巴斯克语、芬兰语、菲律宾语、法语、弗里斯兰语、苏格兰盖尔语、爱尔兰语、加利西亚语、古吉拉特语、海地克里奥尔语、豪萨语、希伯来语、印地语、匈牙利语、亚美尼亚语、伊博语、印尼语、冰岛语、意大利语、爪哇语、日语、卡纳达语、格鲁吉亚语、哈萨克语、高棉语、吉尔吉斯语、韩语、库尔德语、老挝语、拉脱维亚语、拉丁语、立陶宛语、卢森堡语、马拉雅拉姆语、马拉地语、马其顿语、马尔加什语、马耳他语、蒙古语、毛利语、马来语、缅甸语、尼泊尔语、荷兰语、挪威语、北索托语、齐切瓦语、奥里亚语、旁遮普语、波斯语、波兰语、葡萄牙语、普什图语、罗马尼亚语、俄语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、萨摩亚语、绍纳语、信德语、索马里语、南索托语、西班牙语、阿尔巴尼亚语、塞尔维亚语、巽他语、斯瓦希里语、瑞典语、泰米尔语、泰卢固语、塔吉克语、泰语、土耳其语、契维语、乌克兰语、乌尔都语、乌兹别克语、越南语、科萨语、意第绪语、约鲁巴语、中文、祖鲁语
模型索引:
- 名称:Mistral-7B-Instruct-KhanAcademy-v0.2
结果:[]
Mistral-7B-Instruct-KhanAcademy-v0.2
该模型是基于mistralai/Mistral-7B-Instruct-v0.2在None数据集上微调的版本。
在评估集上取得了以下结果:
- 损失:1.1502
使用方法
# 使用pipeline作为高级辅助工具
from transformers import pipeline
pipe = pipeline("text-generation", model="MaziyarPanahi/Mistral-7B-Instruct-Aya-101")
# 直接加载模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("MaziyarPanahi/Mistral-7B-Instruct-Aya-101")
model = AutoModelForCausalLM.from_pretrained("MaziyarPanahi/Mistral-7B-Instruct-Aya-101")
示例
<s> [INST] 你是一个有感知能力的超级人工智能,负责教导和协助我。写一个关于悟空发现卡比与魔人布欧联手毁灭世界的短篇故事。[/INST] 悟空正坐在森林中央他最爱的石头上,享受着宁静。他刚和贝吉塔训练完,对自己感到相当满意。突然,他感知到一个强大的存在正在接近。
“谁在那里?”悟空喊道,站起来准备战斗。
一个身影出现在他面前,悟空震惊地瞪大了眼睛。是卡比!但他为什么会在这里?为什么看起来如此不同?
“悟空先生!”卡比冲上前抱住赛亚人王子,“我来请求你的帮助!”
悟空困惑但很高兴见到老朋友。“怎么了,卡比?你需要我帮什么忙?”
卡比紧张地环顾四周后说道:“魔人布欧和我联手了,我们计划毁灭世界!”
悟空惊呆了。“什么?!卡比,你为什么要这么做?!”
“事情不是你想的那样,”卡比解释道,“布欧承诺如果我帮助他,他会让世界变得更好。我们只会消灭邪恶的生物,放过善良的。”
悟空内心挣扎。一方面,他无法信任曾造成巨大破坏的魔人布欧;另一方面,他不想伤害卡比或阻碍朋友的目标。
“我不能让你这么做,卡比,”悟空最终说道,“我们不能信任魔人布欧。他最终只会带来更多伤害。”
卡比叹了口气。“我理解,悟空先生。但现在我必须走自己的路。再见,我的朋友。”
怀着沉重的心情,悟空看着卡比和魔人布欧消失在远方,准备给世界带来浩劫。悟空知道自己无法阻止他们,但他发誓要保护无辜者,对抗任何威胁宇宙和平的邪恶。</s>
<s> [INST] 你是一个乐于助人、尊重他人且诚实的助手。始终尽可能提供有帮助的回答,同时确保安全。你的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保你的回答在社会上是公正的且具有积极性质。
如果问题没有意义或事实不连贯,请解释原因而不是回答不正确的内容。如果你不知道问题的答案,请不要分享虚假信息。
描述Docker系统的优缺点。[/INST] Docker是一个用于开发、运输和运行应用程序的开源平台,利用容器技术。它通过将代码和依赖项封装到容器中,简化了创建、部署和扩展应用程序的过程。以下是使用Docker的一些优点和缺点:
优点:
1. 环境一致性:Docker在不同平台和环境中提供一致的环境,确保应用程序在任何地方都能以相同的方式运行。
2. 更快的开发:Docker允许开发者快速启动新环境并在隔离的容器中测试代码,减少开发时间。
3. 提高安全性:容器将应用程序彼此隔离并与主机系统隔离,使攻击者更难利用漏洞。
4. 可扩展性:Docker通过根据需要添加更多容器,使应用程序易于扩展,帮助企业应对增加的流量和需求。
5. 减少依赖:Docker减少了运行应用程序所需的依赖项数量,使其更易于管理和维护。
6. 可移植性:Docker容器可以轻松在不同环境(如开发、测试和生产)之间移动,无需重大更改。
7. 自动化部署:Docker与Kubernetes和Docker Swarm等流行的部署工具集成,使部署过程更易于自动化。
8. 节省成本:Docker通过允许企业使用更少的服务器和资源,以及实现更高效的资源利用,可以降低基础设施成本。
缺点:
1. 学习曲线:Docker的学习曲线陡峭,尤其是对于容器技术的新手。
2. 资源密集:在单个主机上运行多个容器可能会消耗大量资源,可能导致性能问题。
3. 复杂性:Docker为开发和部署过程引入了额外的复杂性,这对小型团队或项目可能具有挑战性。
4. 供应商锁定:Docker市场份额很大,但也有Kubernetes和LXC等竞争技术。选择其中一种可能导致供应商锁定。
5. 自定义性有限:虽然Docker提供了很大的灵活性,但对于某些用例可能不够自定义。
6. 安全风险:尽管Docker在许多方面提高了安全性,但也引入了新的风险,例如配置错误的容器或Docker引擎本身的漏洞。
7. 监控挑战:大规模管理和监控容器可能具有挑战性,需要专门的工具和专业知识。</s>
<s> [INST] 您是一个有用、尊重他人且诚实的助手。始终尽可能提供最有帮助的回答,同时确保安全。您的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保您的回答在社会上是公正的且具有积极性质。
如果问题没有意义或事实不连贯,请解释原因而不是回答不正确的内容。如果您不知道问题的答案,请不要分享虚假信息。
用法语描述Docker系统的优缺点。[/INST] 优点:
1. 简化应用程序管理:Docker允许在同一环境中管理多个应用程序,从而简化依赖项和配置的管理。
2. 可移植性:Docker镜像可以在任何兼容平台上运行,便于应用程序的分发和部署。
3. 隔离性:每个应用程序都在自己的容器中隔离,避免了应用程序之间的冲突并提高了安全性。
4. 快速性:容器的创建和启动速度快,加速了开发和部署过程。
5. 可扩展性:容器可以通过添加更多资源轻松扩展,从而更有效地管理工作负载。
缺点:
1. 复杂性:Docker系统的设置和使用可能复杂,开发者需要额外学习。
2. 镜像大小:Docker镜像可能很大,导致部署时加载时间长。
3. 更新管理:应用程序和组件的更新管理在Docker中可能复杂,因为每个应用程序需要独立更新。
4. 安全性:如果安全配置不正确,容器可能容易受到攻击。
5. 成本:Docker系统可能需要额外的服务器和许可证费用。</s>
多语言支持
<s> [INST] 您是一个有用、尊重他人且诚实的助手。始终尽可能提供最有帮助的回答,同时确保安全。您的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保您的回答在社会上是公正的且具有积极性质。
用俄语回答任何问题。
描述Docker系统的优缺点。[/INST] Docker — это система контейнеризации, которая позволяет развертывать приложения в изолированных окружениях. Это упрощает процесс развертывания и обслуживания приложений, но также может иметь некоторые ограничения.
Преимущества:
- Упрощенное развертывание и обслуживание приложений
- Изолированные окружения для каждого приложения
- Повышенная безопасность
- Улучшение производительности
- Разделение ресурсов между приложениями
Ограничения:
- Дополнительный слой абстракции
- Возможные проблемы с настройкой
- Некоторые функции могут быть ограничены в контейнерах
- Возможны проблемы с совместимостью</s>
<s> [INST] Ви - корисний, поважний та чесний помічник. Завжди відповідайте максимально корисно, будучи безпечним. Ваші відповіді не повинні містити шкідливого, неетичного, расистського, сексистського, токсичного, небезпечного або нелегального контенту. Будь ласка, переконайтеся, що ваші відповіді соціально неупереджені та мають позитивний характер.
Якщо питання не має сенсу або не є фактично послідовним, поясніть чому, замість того, щоб відповідати щось некоректне. Якщо ви не знаєте відповіді на питання, будь ласка, не діліться неправдивою інформацією.
Опишіть переваги та недоліки системи Docker.[/INST] Дійсно, Docker є дуже корисним інструментом для розробників та операторів систем. Він дозволяє створювати контейнери з програмними пакетами, які можуть бути легко переміщатися між різними середовищами. Це дозволяє уникнути проблем з сумісністю та залежностями, які часто трапляються при встановленні програмних пакетів на різних системах. Крім того, Docker дозволяє використовувати однакове середовище розробки на різних платформах, що робить процес розробки більш ефективним.
Однак, Docker також має свої недоліки. Наприклад, він може споживати багато ресурсів системи, особливо пам'яті. Крім того, Docker може бути складним для нових користувачів, оскільки він має багато концепцій, які потрібно зрозуміти, перш ніж почати працювати з ним.
Таким чином, Docker є корисним інструментом для розробників та операторів систем, але його необхідно використовувати з обережністю та розумінням його переваг та недоліків.
模型描述
需要更多信息
预期用途与限制
需要更多信息
训练与评估数据
需要更多信息
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:5e-06
- 训练批次大小:2
- 评估批次大小:2
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:4
- 梯度累积步数:4
- 总训练批次大小:32
- 总评估批次大小:8
- 优化器:Adam,参数betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:cosine
- 学习率预热步数:10
- 训练轮数:1
训练结果
训练损失 | 训练轮数 | 步数 | 验证损失 |
---|---|---|---|
1.9039 | 0.0 | 1 | 3.1495 |
0.9933 | 0.25 | 101 | 1.2402 |
0.9439 | 0.5 | 202 | 1.1683 |
0.9762 | 0.75 | 303 | 1.1502 |
框架版本
- Transformers 4.39.0.dev0
- Pytorch 2.2.0+cu121
- Datasets 2.17.0
- Tokenizers 0.15.0
查看axolotl配置
axolotl版本:0.4.0
base_model: mistralai/Mistral-7B-Instruct-v0.2
model_type: MistralForCausalLM
tokenizer_type: LlamaTokenizer
is_mistral_derived_model: true
hub_model_id: MaziyarPanahi/Mistral-7B-Instruct-KhanAcademy-v0.2
hf_use_auth_token: true
load_in_8bit: false
load_in_4bit: false
strict: false
datasets:
- path: CohereForAI/aya_dataset
type:
system_prompt: ""
field_instruction: inputs
field_output: targets
format: "[INST] {instruction} [/INST]"
no_input_format: "[INST] {instruction} [/INST]"
dataset_prepared_path:
val_set_size: 0.05
output_dir: ./models/MaziyarPanahi/Mistral-7B-Instruct-Aya-101
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: false
wandb_project:
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:
gradient_accumulation_steps: 4
micro_batch_size: 2
num_epochs: 1
optimizer: adamw_bnb_8bit
lr_scheduler: cosine
learning_rate: 0.000005
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 4
eval_table_size:
eval_max_new_tokens: 128
saves_per_epoch: 1
debug:
deepspeed:
weight_decay: 0.0
fsdp:
fsdp_config:
special_tokens:
bos_token: "<s>"
eos_token: "</s>"
unk_token: "<unk>"
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文