fairseq-dense-6.7B开源语言模型 - 可免费便捷应用于文本处理等场景

Fairseq Dense 6.7B

由 KoboldAI 开发

这是Artetxe等人论文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67亿参数模型的Hugging Face transformers适配版本。

大型语言模型

Transformers

英语#大规模语言模型 #67亿参数 #开放评测基准

下载量 123

发布时间 : 3/2/2022

模型简介

一个67亿参数规模的大语言模型，基于Mixtures of Experts架构实现高效的大规模语言建模。

模型特点

大规模参数

具有67亿参数规模，能够处理复杂的语言建模任务

高效架构

采用Mixtures of Experts架构，实现高效的大规模语言建模

Hugging Face适配

已适配Hugging Face transformers框架，便于使用

模型能力

文本生成

语言理解

上下文学习

使用案例

自然语言处理

开放大语言模型评估

在开放大语言模型排行榜上进行综合评估

综合平均得分36.09

指标	数值
平均值	36.09
ARC (25-shot)	39.42
HellaSwag (10-shot)	71.26
MMLU (5-shot)	26.91
TruthfulQA (0-shot)	32.73
Winogrande (5-shot)	65.27
GSM8K (5-shot)	0.0
DROP (3-shot)	17.05

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Fairseq Dense 6.7B

模型简介

模型特点

模型能力

使用案例

🚀 原始密集67亿参数模型转换项目

📚 详细文档

Open LLM Leaderboard 评估结果