YiSM-34B-0rn是一个基于Yi-1.5-34B和Yi-1.5-34B-Chat融合的大语言模型,旨在平衡指令遵循能力和基础模型特性。
下载量 22
发布时间 : 5/26/2024
模型介绍
内容详情
替代品
模型简介
这是一个自融合模型,结合了Yi-1.5-34B的基础能力和Yi-1.5-34B-Chat的对话能力,适用于多种文本生成任务。
模型特点
平衡性
既保留了基础模型的特性,又能较好地遵循指令
长文本处理
支持最大8K的上下文长度
多任务能力
在多个基准测试中表现优异,包括推理、常识问答等
模型能力
文本生成
指令遵循
问答系统
推理任务
常识理解
使用案例
教育
教学辅助
可用于生成教学材料和解答学生问题
研究
知识探索
帮助研究人员探索和获取各种领域的知识
内容创作
文本创作
辅助进行各种类型的文本创作
license: apache-2.0
library_name: transformers
tags:
- merge
base_model: - 01-ai/Yi-1.5-34B-Chat
- 01-ai/Yi-1.5-34B
pipeline_tag: text-generation
model-index: - name: YiSM-34B-0rn
results:- task:
type: text-generation
name: 文本生成
dataset:
name: AI2推理挑战赛(25样本)
type: ai2_arc
config: ARC-Challenge
split: test
args:
num_few_shot: 25
metrics:- type: acc_norm
value: 69.54
name: 标准化准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc_norm
- task:
type: text-generation
name: 文本生成
dataset:
name: HellaSwag(10样本)
type: hellaswag
split: validation
args:
num_few_shot: 10
metrics:- type: acc_norm
value: 86.67
name: 标准化准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc_norm
- task:
type: text-generation
name: 文本生成
dataset:
name: MMLU(5样本)
type: cais/mmlu
config: all
split: test
args:
num_few_shot: 5
metrics:- type: acc
value: 78.51
name: 准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc
- task:
type: text-generation
name: 文本生成
dataset:
name: TruthfulQA(0样本)
type: truthful_qa
config: multiple_choice
split: validation
args:
num_few_shot: 0
metrics:- type: mc2
value: 59.68
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: mc2
- task:
type: text-generation
name: 文本生成
dataset:
name: Winogrande(5样本)
type: winogrande
config: winogrande_xl
split: validation
args:
num_few_shot: 5
metrics:- type: acc
value: 83.66
name: 准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc
- task:
type: text-generation
name: 文本生成
dataset:
name: GSM8k(5样本)
type: gsm8k
config: main
split: test
args:
num_few_shot: 5
metrics:- type: acc
value: 75.82
name: 准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc
- task:
type: text-generation
name: 文本生成
dataset:
name: IFEval(0样本)
type: HuggingFaceH4/ifeval
args:
num_few_shot: 0
metrics:- type: inst_level_strict_acc and prompt_level_strict_acc
value: 42.84
name: 严格准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: inst_level_strict_acc and prompt_level_strict_acc
- task:
type: text-generation
name: 文本生成
dataset:
name: BBH(3样本)
type: BBH
args:
num_few_shot: 3
metrics:- type: acc_norm
value: 45.38
name: 标准化准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc_norm
- task:
type: text-generation
name: 文本生成
dataset:
name: MATH Lvl 5(4样本)
type: hendrycks/competition_math
args:
num_few_shot: 4
metrics:- type: exact_match
value: 20.62
name: 精确匹配率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: exact_match
- task:
type: text-generation
name: 文本生成
dataset:
name: GPQA(0样本)
type: Idavidrein/gpqa
args:
num_few_shot: 0
metrics:- type: acc_norm
value: 16.22
name: 标准化准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc_norm
- task:
type: text-generation
name: 文本生成
dataset:
name: MuSR(0样本)
type: TAUR-Lab/MuSR
args:
num_few_shot: 0
metrics:- type: acc_norm
value: 14.76
name: 标准化准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc_norm
- task:
type: text-generation
name: 文本生成
dataset:
name: MMLU-PRO(5样本)
type: TIGER-Lab/MMLU-Pro
config: main
split: test
args:
num_few_shot: 5
metrics:- type: acc
value: 41.06
name: 准确率
source:
url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=altomek/YiSM-34B-0rn
name: 开放大模型排行榜
- type: acc
- task:

YiSM-34B-0rn
这是Yi自融合模型。我希望这个模型既能遵循大多数指令,又能保留其基础模型的特性。
成分
设置
我使用max_seq_len 8K和alpha_value 2.65。
SillyTavern预设:
{
"temp": 0.1,
"temperature_last": true,
"top_p": 1,
"top_k": 0,
"top_a": 0,
"tfs": 1,
"epsilon_cutoff": 0,
"eta_cutoff": 0,
"typical_p": 1,
"min_p": 0,
"rep_pen": 1.08,
"rep_pen_range": 0,
"no_repeat_ngram_size": 0,
"penalty_alpha": 0,
"num_beams": 1,
"length_penalty": 1,
"min_length": 0,
"encoder_rep_pen": 1,
"freq_pen": 0.01,
"presence_pen": 0,
"do_sample": true,
"early_stopping": false,
"add_bos_token": true,
"truncation_length": 2048,
"ban_eos_token": false,
"skip_special_tokens": true,
"streaming": true,
"mirostat_mode": 0,
"mirostat_tau": 5,
"mirostat_eta": 0.1,
"guidance_scale": 1,
"negative_prompt": "",
"grammar_string": "",
"banned_tokens": "",
"ignore_eos_token_aphrodite": false,
"spaces_between_special_tokens_aphrodite": true,
"sampler_order": [
6,
0,
1,
3,
4,
2,
5
],
"logit_bias": [],
"n": 1,
"rep_pen_size": 0,
"genamt": 2048,
"max_length": 8192
}
使用条款
下表概述了我的YiSM-34B-0rn模型的主要特性和预期用途:
模型类型 | 用途 | 目标用户 | 关键特性 |
---|---|---|---|
审查版 | 适合普通观众和敏感话题 | 教育机构、家庭和寻求适龄内容的个人 | 限制明确或成人内容 |
中性版 (**本模型) | 平衡可访问性与开放性 | 大学、研究人员和好奇心强的用户 | 鼓励探索和知识交流 |
无审查版 | 适合成人和专业领域 | 专业人士、专家和高级学者 | 提供对多样化观点和知识的无过滤访问 |
请注意,所有YiSM-34B-0rn模型均在apache-2.0许可证下运行,使用前请熟悉其条款和条件。
量化版本
开放大模型排行榜评估结果
详细结果请见此处
指标 | 值 |
---|---|
平均值 | 75.65 |
AI2推理挑战赛(25样本) | 69.54 |
HellaSwag(10样本) | 86.67 |
MMLU(5样本) | 78.51 |
TruthfulQA(0样本) | 59.68 |
Winogrande(5样本) | 83.66 |
GSM8k(5样本) | 75.82 |
截至2024-06-10,在34B规模范围内排名第5(不包括“私有或已删除”模型),若包含所有模型则排名第8 ;P
开放大模型排行榜评估结果
详细结果请见此处
指标 | 值 |
---|---|
平均值 | 30.15 |
IFEval(0样本) | 42.84 |
BBH(3样本) | 45.38 |
MATH Lvl 5(4样本) | 20.62 |
GPQA(0样本) | 16.22 |
MuSR(0样本) | 14.76 |
MMLU-PRO(5样本) | 41.06 |
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文