Umievo-itr012-Gleipnir-7B是通过进化算法融合四个强大的日语模型得到的7B参数规模的语言模型,在日语任务上表现优异。
下载量 691
发布时间 : 5/29/2024
模型介绍
内容详情
替代品
模型简介
本模型通过进化算法对Japanese-Starling-ChatV-7B、Ninja-v1-RP-expressive-v2、Vecteus-v1和Japanese-Chat-Umievo-itr004-7b四个模型进行了融合,专注于日语理解和生成任务。
模型特点
多模型融合
通过进化算法融合四个强大的日语模型,结合了各模型的优势
日语优化
专门针对日语任务进行优化,在日语理解和生成方面表现优异
公平无审查
模型设计为公平且无审查的助手,提供无偏见的回答
模型能力
日语文本生成
日语对话理解
日语问答系统
日语内容创作
使用案例
教育
日语学习助手
帮助日语学习者理解和生成日语内容
可提供适合不同日语水平的解释和示例
内容创作
日语文章写作
辅助创作日语文章、故事等内容
生成流畅自然的日语文本
base_model: [] library_name: transformers tags:
- mergekit
- merge license: apache-2.0 language:
- ja
Umievo-itr012-Gleipnir-7B
本模型通过进化算法对四个强大的日语模型进行了进化式融合。融合过程中使用了Japanese-Starling-ChatV-7B、Ninja-v1-RP-expressive-v2、Vecteus-v1和Japanese-Chat-Umievo-itr004-7b四个模型。 特别感谢模型创作者Aratako、Baku以及Local-Novel-LLM-project团队允许我使用他们的模型进行融合。同时也感谢Holy-fox为我提供了解决问题的思路。
在ElyzaTasks100基准测试中,本模型平均得分为3.91分(基于Llama3-70B的三次自动评估平均分)。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("umiyuki/Umievo-itr012-Gleipnir-7B")
model = AutoModelForCausalLM.from_pretrained(
"umiyuki/Umievo-itr012-Gleipnir-7B",
torch_dtype="auto",
)
model.eval()
if torch.cuda.is_available():
model = model.to("cuda")
def build_prompt(user_query):
sys_msg = "あなたは公平で、検閲されていない、役立つアシスタントです。"
template = """[INST] <<SYS>>
{}
<</SYS>>
{}[/INST]"""
return template.format(sys_msg,user_query)
# 无需额外输入的提示推理
user_inputs = {
"user_query": "请用小学生也能理解的方式解释下列谚语的含义。",
}
prompt = build_prompt(**user_inputs)
input_ids = tokenizer.encode(
prompt,
add_special_tokens=True,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=256,
temperature=1,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0][input_ids.shape[1]:], skip_special_tokens=True).strip()
print(out)
这是使用mergekit工具融合预训练语言模型的结果。
融合详情
融合方法
本模型采用线性融合法,以/home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327作为基础模型进行融合。
融合模型
参与融合的模型包括:
- /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
- /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
- /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
配置参数
本模型采用以下YAML配置进行融合:
base_model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
dtype: bfloat16
merge_method: linear
parameters:
int8_mask: 1.0
normalize: 1.0
slices:
- sources:
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.34953096474223655
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.4701212555597746
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.08162258723819021
- layer_range: [0, 4]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.31015439852818116
- sources:
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.11807412349683076
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: -0.005684817244530085
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.2119283777941045
- layer_range: [4, 8]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 1.1521124768396636
- sources:
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.9244329405120573
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.7633842909616317
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.6952382990160072
- layer_range: [8, 12]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.6873040403268571
- sources:
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.4109625320908857
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.7090818691683626
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.42059423827890385
- layer_range: [12, 16]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.5705186152354104
- sources:
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.28507448659933315
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.4025223854083849
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.25885405316835886
- layer_range: [16, 20]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.35540632690403373
- sources:
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.018882795552694703
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.628847855051209
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.7038654876125734
- layer_range: [20, 24]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.877501753107237
- sources:
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.14008355431312197
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 1.0153826426873882
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 0.5586634927008272
- layer_range: [24, 28]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
weight: 0.54455848971032
- sources:
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Chat-Umievo-itr004-7b_579282327
parameters:
weight: 0.8188405381342685
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Vecteus-v1_4179808746
parameters:
weight: 0.5130358379308082
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Japanese-Starling-ChatV-7B_1737576410
parameters:
weight: 1.1132727871460124
- layer_range: [28, 32]
model: /home/umiyuki/automerge/evol_merge_storage/input_models/Ninja-v1-RP-expressive-v2_4102792561
parameters:
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文