BLOOMZ-P3是基于BLOOM预训练模型的多语言指令微调模型,能够理解和执行数十种语言的人类指令。
下载量 39
发布时间 : 9/17/2022
模型介绍
内容详情
替代品
模型简介
该模型通过多任务微调实现跨语言泛化,适用于自然语言理解和生成任务,支持多种语言和编程语言。
模型特点
多语言支持
支持46种人类语言和13种编程语言的理解和生成
跨语言泛化
通过多任务微调实现未见任务和语言的跨语言泛化能力
指令理解
能够理解和执行自然语言表达的指令任务
模型能力
文本生成
情感分析
语言翻译
问答系统
代码生成
故事创作
关键词提取
跨语言理解
使用案例
自然语言处理
情感分析
分析文本的情感倾向(正面/中立/负面)
示例准确率:92.46%(XStoryCloze-ar验证集)
语言翻译
执行语言间的翻译任务
支持46种语言的互译
内容创作
故事生成
根据提示生成具有特定寓意的故事
可生成多种语言的寓言故事
编程辅助
代码生成
根据自然语言描述生成代码
HumanEval测试集Pass@1准确率6.13%
数据集:
- Muennighoff/P3 许可证:bigscience-bloom-rail-1.0 语言:
- 阿坎语
- 阿拉伯语
- 阿萨姆语
- 班巴拉语
- 孟加拉语
- 加泰罗尼亚语
- 代码
- 英语
- 西班牙语
- 巴斯克语
- 丰语
- 法语
- 古吉拉特语
- 印地语
- 印尼语
- 伊博语
- 基库尤语
- 卡纳达语
- 卢干达语
- 林加拉语
- 马拉雅拉姆语
- 马拉地语
- 尼泊尔语
- 北索托语
- 齐切瓦语
- 奥里亚语
- 旁遮普语
- 葡萄牙语
- 基隆迪语
- 卢旺达语
- 绍纳语
- 南索托语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 茨瓦纳语
- 聪加语
- 图姆布卡语
- 特威语
- 乌尔都语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
- 祖鲁语 编程语言:
- C
- C++
- C#
- Go
- Java
- JavaScript
- Lua
- PHP
- Python
- Ruby
- Rust
- Scala
- TypeScript 管道标签:文本生成 小部件:
- 文本:"一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。Would you rate the previous review as positive, neutral or negative?" 示例标题:"中英情感分析"
- 文本:"一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评?" 示例标题:"中中情感分析"
- 文本:"建议至少五个与"人工神经网络"相关的搜索词。" 示例标题:"越南语-英语查询"
- 文本:"提出至少五个关于"人工神经网络"的关键词。" 示例标题:"法语-法语查询"
- 文本:"用泰卢固语一句话解释神经网络中的反向传播是什么。" 示例标题:"泰卢固语-英语问答"
- 文本:"为什么天空是蓝色的?" 示例标题:"英语-英语问答"
- 文本:"写一个关于巨魔从危险巨龙手中拯救公主的童话故事。这个童话是一部获得全球赞誉的杰作,其寓意是"英雄不问出处"。故事(西班牙语):" 示例标题:"西班牙语-英语寓言"
- 文本:"写一个关于森林中被食人魔突然入侵的木精灵的寓言。这个寓言是一部获得全球赞誉的杰作,其寓意是"暴力是无能者的最后避难所"。寓言(印地语):" 示例标题:"印地语-英语寓言" 推理:false 模型索引:
- 名称:bloomz-p3
结果:
- 任务:
类型:指代消解
数据集:
类型:winogrande
名称:Winogrande XL (xl)
配置:xl
分割:验证
修订:a80f460359d1e9a67c006011c94de42a8759430c
指标:
- 类型:准确率 值:57.06
- 任务:
类型:指代消解
数据集:
类型:Muennighoff/xwinograd
名称:XWinograd (en)
配置:en
分割:测试
修订:9dd5ea5505fad86b7bedad667955577815300cee
指标:
- 类型:准确率 值:60.65
- 任务:
类型:指代消解
数据集:
类型:Muennighoff/xwinograd
名称:XWinograd (fr)
配置:fr
分割:测试
修订:9dd5ea5505fad86b7bedad667955577815300cee
指标:
- 类型:准确率 值:59.04
- 任务:
类型:指代消解
数据集:
类型:Muennighoff/xwinograd
名称:XWinograd (jp)
配置:jp
分割:测试
修订:9dd5ea5505fad86b7bedad667955577815300cee
指标:
- 类型:准确率 值:56.0
- 任务:
类型:指代消解
数据集:
类型:Muennighoff/xwinograd
名称:XWinograd (pt)
配置:pt
分割:测试
修订:9dd5ea5505fad86b7bedad667955577815300cee
指标:
- 类型:准确率 值:60.46
- 任务:
类型:指代消解
数据集:
类型:Muennighoff/xwinograd
名称:XWinograd (ru)
配置:ru
分割:测试
修订:9dd5ea5505fad86b7bedad667955577815300cee
指标:
- 类型:准确率 值:57.14
- 任务:
类型:指代消解
数据集:
类型:Muennighoff/xwinograd
名称:XWinograd (zh)
配置:zh
分割:测试
修订:9dd5ea5505fad86b7bedad667955577815300cee
指标:
- 类型:准确率 值:60.71
- 任务:
类型:自然语言推理
数据集:
类型:anli
名称:ANLI (r1)
配置:r1
分割:验证
修订:9dbd830a06fea8b1c49d6e5ef2004a08d9f45094
指标:
- 类型:准确率 值:41.7
- 任务:
类型:自然语言推理
数据集:
类型:anli
名称:ANLI (r2)
配置:r2
分割:验证
修订:9dbd830a06fea8b1c49d6e5ef2004a08d9f45094
指标:
- 类型:准确率 值:39.3
- 任务:
类型:自然语言推理
数据集:
类型:anli
名称:ANLI (r3)
配置:r3
分割:验证
修订:9dbd830a06fea8b1c49d6e5ef2004a08d9f45094
指标:
- 类型:准确率 值:42.83
- 任务:
类型:自然语言推理
数据集:
类型:super_glue
名称:SuperGLUE (cb)
配置:cb
分割:验证
修订:9e12063561e7e6c79099feb6d5a493142584e9e2
指标:
- 类型:准确率 值:85.71
- 任务:
类型:自然语言推理
数据集:
类型:super_glue
名称:SuperGLUE (rte)
配置:rte
分割:验证
修订:9e12063561e7e6c79099feb6d5a493142584e9e2
指标:
- 类型:准确率 值:85.2
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (ar)
配置:ar
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:56.71
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (bg)
配置:bg
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:46.63
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (de)
配置:de
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:50.16
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (el)
配置:el
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:43.05
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (en)
配置:en
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:59.72
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (es)
配置:es
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:59.32
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (fr)
配置:fr
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:57.99
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (hi)
配置:hi
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:55.02
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (ru)
配置:ru
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:50.12
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (sw)
配置:sw
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:50.04
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (th)
配置:th
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:42.29
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (tr)
配置:tr
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:43.78
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (ur)
配置:ur
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:51.81
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (vi)
配置:vi
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:57.27
- 任务:
类型:自然语言推理
数据集:
类型:xnli
名称:XNLI (zh)
配置:zh
分割:验证
修订:a5a45e4ff92d5d3f34de70aaf4b72c3bdf9f7f16
指标:
- 类型:准确率 值:56.95
- 任务:
类型:程序合成
数据集:
类型:openai_humaneval
名称:HumanEval
配置:无
分割:测试
修订:e8dc562f5de170c54b5481011dd9f4fa04845771
指标:
- 类型:Pass@1 值:6.13
- 类型:Pass@10 值:11.79
- 类型:Pass@100 值:18.73
- 任务:
类型:句子补全
数据集:
类型:story_cloze
名称:StoryCloze (2016)
配置:"2016"
分割:验证
修订:e724c6f8cdf7c7a2fb229d862226e15b023ee4db
指标:
- 类型:准确率 值:94.66
- 任务:
类型:句子补全
数据集:
类型:super_glue
名称:SuperGLUE (copa)
配置:copa
分割:验证
修订:9e12063561e7e6c79099feb6d5a493142584e9e2
指标:
- 类型:准确率 值:91.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (et)
配置:et
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:53.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (ht)
配置:ht
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:58.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (id)
配置:id
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:87.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (it)
配置:it
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:74.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (qu)
配置:qu
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:57.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (sw)
配置:sw
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:61.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (ta)
配置:ta
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:69.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (th)
配置:th
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:61.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (tr)
配置:tr
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:56.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (vi)
配置:vi
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:81.0
- 任务:
类型:句子补全
数据集:
类型:xcopa
名称:XCOPA (zh)
配置:zh
分割:验证
修订:37f73c60fb123111fa5af5f9b705d0b3747fd187
指标:
- 类型:准确率 值:83.0
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (ar)
配置:ar
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:92.46
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (es)
配置:es
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:94.44
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (eu)
配置:eu
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:86.7
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (hi)
配置:hi
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:88.35
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (id)
配置:id
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:92.59
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (my)
配置:my
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:52.68
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (ru)
配置:ru
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:79.62
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (sw)
配置:sw
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:77.76
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (te)
配置:te
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:79.88
- 任务:
类型:句子补全
数据集:
类型:Muennighoff/xstory_cloze
名称:XStoryCloze (zh)
配置:zh
分割:验证
修订:8bb76e594b68147f1a430e86829d07189622b90d
指标:
- 类型:准确率 值:92.26
- 任务:
类型:指代消解
数据集:
类型:winogrande
名称:Winogrande XL (xl)
配置:xl
分割:验证
修订:a80f460359d1e9a67c006011c94de42a8759430c
指标:
目录
模型概述
我们推出了BLOOMZ和mT0系列模型,这些模型能够以零样本方式理解并执行数十种语言的人类指令。我们在跨语言任务混合数据集(xP3)上对BLOOM和mT5预训练的多语言模型进行了微调,发现所得模型能够对未见过的任务和语言进行跨语言泛化。
- 代码库: bigscience-workshop/xmtf
- 论文: 通过多任务微调实现跨语言泛化
- 联系人: Niklas Muennighoff
- 语言: 预训练语言比例参考bloom,微调语言比例参考xP3。模型能理解预训练和微调涉及的所有语言。
- BLOOMZ & mT0模型家族:
基于xP3多任务微调。推荐用于英语提示。 | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
参数量 | 300M | 580M | 1.2B | 3.7B | 13B | 560M | 1.1B | 1.7B | 3B | 7.1B | 176B |
微调模型 | mt0-small | mt0-base | mt0-large | mt0-xl | mt0-xxl | bloomz-560m | bloomz-1b1 | bloomz-1b7 | bloomz-3b | bloomz-7b1 | bloomz |
基于xP3mt多任务微调。推荐用于非英语提示。 | |||||||||||
微调模型 | mt0-xxl-mt | bloomz-7b1-mt | bloomz-mt | 基于P3多任务微调。仅限研究用途!性能严格劣于上述模型! | |||||||
微调模型 | mt0-xxl-p3 | bloomz-7b1-p3 | bloomz-p3 | 原始预训练模型。不推荐使用。 | |||||||
预训练模型 | mt5-small | mt5-base | mt5-large | mt5-xl | mt5-xxl | bloom-560m | bloom-1b1 | bloom-1b7 | bloom-3b | bloom-7b1 | bloom |
使用
预期用途
我们推荐使用该模型执行自然语言表达的任务。例如,给定提示"翻译成英语:Je t’aime.",模型很可能会回答"I love you."。我们论文中的一些提示示例:
- 一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评?
- 建议至少五个与"人工神经网络"相关的搜索词。
- 用泰卢固语一句话解释神经网络中的反向传播是什么。
- 写一个关于巨魔从危险巨龙手中拯救公主的童话故事。这个童话是一部获得全球赞誉的杰作,其寓意是"英雄不问出处"。故事(西班牙语):
欢迎在社区标签页分享您的生成结果!
使用方法
CPU
点击展开
# pip install -q transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "bigscience/bloomz-p3"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)
inputs = tokenizer.encode("翻译成英语:Je t'aime.", return_tensors="pt")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
GPU
点击展开
# pip install -q transformers accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "bigscience/bloomz-p3"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, torch_dtype="auto", device_map="auto")
inputs = tokenizer.encode("翻译成英语:Je t'aime.", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
8位GPU
点击展开
# pip install -q transformers accelerate bitsandbytes
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "bigscience/bloomz-p3"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", load_in_8bit=True)
inputs = tokenizer.encode("翻译成英语:Je t'aime.", return_tensors="pt").to("cuda")
outputs = model.generate(inputs)
print(tokenizer.decode(outputs[0]))
限制
提示工程: 模型性能可能因提示而异。对于BLOOMZ模型,我们建议明确标示输入结束位置,以避免模型尝试继续生成。例如,提示"翻译成英语:Je t'aime"没有句号(.)结尾,可能导致模型继续生成法语内容。更好的提示如:"翻译成英语:Je t'aime."、"翻译成英语:Je t'aime。翻译:"、"Je t'aime.用英语怎么说?",这样能更清楚地告诉模型何时应答。此外,我们建议为模型提供尽可能多的上下文。例如,如果您希望用泰卢固语回答,则应明确告知模型,如"用泰卢固语一句话解释神经网络中的反向传播是什么。"
训练
模型
- 架构: 与bloom相同,也可参考
config.json
文件 - 微调步数: 498
- 微调token数: 20.9亿
- 微调布局: 72路流水线并行,1路张量并行,4路数据并行
- 精度: bfloat16
硬件
- CPU: 每个节点配备512GB内存的AMD CPU
- GPU: 288块A100 80GB GPU,每节点8块GPU(共36节点),使用NVLink 4互联,4条OmniPath链路
- 通信: 完全专用子网的NCCL通信网络
软件
- 编排: Megatron-DeepSpeed
- 优化器与并行: DeepSpeed
- 神经网络: PyTorch (pytorch-1.11 w/ CUDA-11.5)
- FP16支持: apex
评估
我们参考论文表7和bigscience/evaluation-results中关于未见任务的零样本结果。侧边栏报告了每个数据集配置最佳提示的零样本性能。
引用
@article{muennighoff2022crosslingual,
title={通过多任务微调实现跨语言泛化},
author={Muennighoff, Niklas and Wang, Thomas and Sutawika, Lintang and Roberts, Adam and Biderman, Stella and Scao, Teven Le and Bari, M Saiful and Shen, Sheng and Yong, Zheng-Xin and Schoelkopf, Hailey and others},
journal={arXiv预印本 arXiv:2211.01786},
year={2022}
}
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文