L
Llama 3 DARE V3 8B
由 rmihaylov 开发
基于Meta-Llama-3-8B和Meta-Llama-3-8B-Instruct模型,采用DARE TIES合并方法创建的预训练语言模型
下载量 14
发布时间 : 4/21/2024
模型介绍
内容详情
替代品
模型简介
这是一个通过mergekit工具合并的8B参数规模语言模型,结合了基础模型和指导模型的优势,适用于多种自然语言处理任务
模型特点
DARE TIES合并技术
采用先进的DARE TIES模型合并方法,有效整合基础模型和指导模型的优势
参数高效整合
通过精细的层间参数密度和权重控制,实现模型能力的优化组合
指令跟随能力
继承了Meta-Llama-3-8B-Instruct模型的指令理解和执行能力
模型能力
文本生成
对话系统
指令理解与执行
自然语言处理
使用案例
对话系统
智能助手
构建能够理解复杂指令的对话式AI助手
内容生成
创意写作
辅助进行故事创作、诗歌写作等创意内容生成
基础模型:
- meta-llama/Meta-Llama-3-8B
- meta-llama/Meta-Llama-3-8B-Instruct 库名称: transformers 标签:
- mergekit
- merge
许可证: other
许可证名称: llama3
许可证链接: LICENSE
额外授权提示: >-
META LLAMA 3 社区许可协议
Llama-3-DARE-v3-8B
这是使用mergekit创建的预训练语言模型合并版本。
合并详情
合并方法
该模型采用DARE TIES合并方法,以meta-llama/Meta-Llama-3-8B作为基础模型进行合并。
合并模型
合并包含以下模型:
配置
生成该模型使用的YAML配置如下:
基础模型:
模型:
路径: meta-llama/Meta-Llama-3-8B
数据类型: bfloat16
合并方法: dare_ties
参数:
int8_mask: 1.0
标准化: 0.0
切片:
- 源模型:
- 层范围: [0, 32]
模型:
模型:
路径: meta-llama/Meta-Llama-3-8B-Instruct
参数:
密度:
- 过滤器: embed_token
值: 0.12392239047187575
- 过滤器: model.norm
值: 0.9321540995757155
- 过滤器: lm_head
值: 0.9321540995757155
- 过滤器: layers.0.
值: 0.9790541113047215
- 过滤器: layers.1.
值: 0.5837293662960215
- 过滤器: layers.2.
值: 0.9412235995535374
- 过滤器: layers.3.
值: 0.31233149627589435
- 过滤器: layers.4.
值: 0.8429344053665633
- 过滤器: layers.5.
值: 0.6736586892578483
- 过滤器: layers.6.
值: 0.24511379602231775
- 过滤器: layers.7.
值: 0.9579106307398759
- 过滤器: layers.8.
值: 0.763438755789315
- 过滤器: layers.9.
值: 0.9682444116383796
- 过滤器: layers.10.
值: 0.08453321074167956
- 过滤器: layers.11.
值: 0.7964240843030714
- 过滤器: layers.12.
值: 0.33878902628372387
- 过滤器: layers.13.
值: 0.8458690962458848
- 过滤器: layers.14.
值: 0.1052429440590172
- 过滤器: layers.15.
值: 0.7623565162481113
- 过滤器: layers.16.
值: 0.9707532532287503
- 过滤器: layers.17.
值: 0.12523916859700104
- 过滤器: layers.18.
值: 0.8415224301240337
- 过滤器: layers.19.
值: 0.12872802862625543
- 过滤器: layers.20.
值: 0.5529482316673654
- 过滤器: layers.21.
值: 0.09282157218446654
- 过滤器: layers.22.
值: 0.8370536041906024
- 过滤器: layers.23.
值: 0.9175102292532279
- 过滤器: layers.24.
值: 0.8983418171724273
- 过滤器: layers.25.
值: 0.8136717935920286
- 过滤器: layers.26.
值: 0.05054222298359671
- 过滤器: layers.27.
值: 0.869544796603939
- 过滤器: layers.28.
值: 0.04716191274361657
- 过滤器: layers.29.
值: 0.13032011470396976
- 过滤器: layers.30.
值: 0.19116844757457122
- 过滤器: layers.31.
值: 0.1455500526734667
权重:
- 过滤器: embed_token
值: 0.12232308541622408
- 过滤器: model.norm.
值: 0.7266901175725669
- 过滤器: lm_head
值: 0.7266901175725669
- 过滤器: layers.0.
值: 0.8207345096435786
- 过滤器: layers.1.
值: 0.9504884225844141
- 过滤器: layers.2.
值: 0.7328920145925348
- 过滤器: layers.3.
值: 0.6736895869883676
- 过滤器: layers.4.
值: 0.7970121175937948
- 过滤器: layers.5.
值: 0.9789312914172503
- 过滤器: layers.6.
值: 0.962551880054289
- 过滤器: layers.7.
值: 0.9561739657469092
- 过滤器: layers.8.
值: 0.8536201095014567
- 过滤器: layers.9.
值: 0.9376890733815005
- 过滤器: layers.10.
值: 0.9551398977410172
- 过滤器: layers.11.
值: 0.9967262117722387
- 过滤器: layers.12.
值: 0.7701592243202565
- 过滤器: layers.13.
值: 0.6842573291853765
- 过滤器: layers.14.
值: 0.798376050387875
- 过滤器: layers.15.
值: 0.801001533828631
- 过滤器: layers.16.
值: 0.14199137490635572
- 过滤器: layers.17.
值: 0.7587521819162459
- 过滤器: layers.18.
值: 0.9769968221517621
- 过滤器: layers.19.
值: 0.5936888514834866
- 过滤器: layers.20.
值: 0.979481555973458
- 过滤器: layers.21.
值: 0.1362420472755318
- 过滤器: layers.22.
值: 0.1451804836602873
- 过滤器: layers.23.
值: 0.9319964347718136
- 过滤器: layers.24.
值: 0.8814265997262563
- 过滤器: layers.25.
值: 0.870638468633288
- 过滤器: layers.26.
值: 0.06311119172889679
- 过滤器: layers.27.
值: 0.902932718098389
- 过滤器: layers.28.
值: 0.9174145551871369
- 过滤器: layers.29.
值: 0.9048467992426628
- 过滤器: layers.30.
值: 0.04929564345988049
- 过滤器: layers.31.
值: 0.922707420329624
- 层范围: [0, 32]
模型:
模型:
路径: meta-llama/Meta-Llama-3-8B
参数:
密度:
- 过滤器: embed_token
值: 0.1479082895745973
- 过滤器: model.norm
值: 0.18334257522610492
- 过滤器: lm_head
值: 0.18334257522610492
- 过滤器: layers.0.
值: 0.17476905394590242
- 过滤器: layers.1.
值: 0.11161623400742576
- 过滤器: layers.2.
值: 0.16109344344908105
- 过滤器: layers.3.
值: 0.2735834275693588
- 过滤器: layers.4.
值: 0.8258891898417566
- 过滤器: layers.5.
值: 0.21085556872053604
- 过滤器: layers.6.
值: 0.20766543320815006
- 过滤器: layers.7.
值: 0.8947694253855037
- 过滤器: layers.8.
值: 0.734275334571558
- 过滤器: layers.9.
值: 0.1632311874735626
- 过滤器: layers.10.
值: 0.940700711783812
- 过滤器: layers.11.
值: 0.07148774488326176
- 过滤器: layers.12.
值: 0.07541557340487534
- 过滤器: layers.13.
值: 0.13833770311269455
- 过滤器: layers.14.
值: 0.9612379711004643
- 过滤器: layers.15.
值: 0.8090075125599039
- 过滤器: layers.16.
值: 0.7255233959581611
- 过滤器: layers.17.
值: 0.2634507144990253
- 过滤器: layers.18.
值: 0.07135903934561608
- 过滤器: layers.19.
值: 0.1180822729914722
- 过滤器: layers.20.
值: 0.07751975543731829
- 过滤器: layers.21.
值: 0.9990557487897024
- 过滤器: layers.22.
值: 0.17045615586066107
- 过滤器: layers.23.
值: 0.19588339382290734
- 过滤器: layers.24.
值: 0.152313213824124
- 过滤器: layers.25.
值: 0.8120646024357844
- 过滤器: layers.26.
值: 0.6661112930033101
- 过滤器: layers.27.
值: 0.7782416079783356
- 过滤器: layers.28.
值: 0.24425477536875875
- 过滤器: layers.29.
值: 0.05962906198631645
- 过滤器: layers.30.
值: 0.023125010859717736
- 过滤器: layers.31.
值: 0.9109899850283665
权重:
- 过滤器: embed_token
值: 0.12126630242759481
- 过滤器: model.norm.
值: 0.07734624352533248
- 过滤器: lm_head
值: 0.07734624352533248
- 过滤器: layers.0.
值: 0.16823028525905875
- 过滤器: layers.1.
值: 0.9417449451303712
- 过滤器: layers.2.
值: 0.7717519522673566
- 过滤器: layers.3.
值: 0.7601040526349441
- 过滤器: layers.4.
值: 0.0019090753772779204
- 过滤器: layers.5.
值: 0.16032547702469566
- 过滤器: layers.6.
值: 0.12224994873335546
- 过滤器: layers.7.
值: 0.27695385066177564
- 过滤器: layers.8.
值: 0.018799614691291815
- 过滤器: layers.9.
值: 0.9759168818301882
- 过滤器: layers.10.
值: 0.006525097827571269
- 过滤器: layers.11.
值: 0.756537797885991
- 过滤器: layers.12.
值: 0.8051453838823787
- 过滤器: layers.13.
值: 0.8879631547059472
- 过滤器: layers.14.
值: 0.713799746085261
- 过滤器: layers.15.
值: 0.03862352880564701
- 过滤器: layers.16.
值: 0.1837448681603537
- 过滤器: layers.17.
值: 0.30267576939315943
- 过滤器: layers.18.
值: 0.17332405807285195
- 过滤器: layers.19.
值: 0.11686420946772721
- 过滤器: layers.20.
值: 0.2826021601318976
- 过滤器: layers.21.
值: 0.14782621450845335
- 过滤器: layers.22.
值: 0.8764989337980243
- 过滤器: layers.23.
值: 0.5836574402524565
- 过滤器: layers.24.
值: 0.8579541606567384
- 过滤器: layers.25.
值: 0.2310998812434597
- 过滤器: layers.26.
值: 0.13443251834995432
- 过滤器: layers.27.
值: 0.9754382468614297
- 过滤器: layers.28.
值: 0.9406099007353652
- 过滤器: layers.29.
值: 0.10203532427654999
- 过滤器: layers.30.
值: 0.747420490316978
- 过滤器: layers.31.
值: 0.06383831695667043
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文