Llama 3.3-70B-Instruct-AWQ开源大语言模型 - 免费部署支持多语言对话交流

首页

Llama 3.3 70b Instruct Awq

由 casperhansen 开发

Llama 3.3是Meta开发的多语言大语言模型，拥有700亿参数，针对多语言对话用例优化，在多项基准测试中表现优异。

大型语言模型

Transformers

支持多种语言#700亿参数大模型 #128k超长上下文 #8语种多语言对话

下载量 47.12k

发布时间 : 12/6/2024

模型简介

预训练和指令调优的700亿参数生成模型，支持多语言文本输入/输出，优化了对话场景下的表现。

模型特点

多语言支持

支持8种主要语言的文本生成和对话

长上下文处理

128k tokens的上下文长度，适合处理长文档

高效推理

采用分组查询注意力(GQA)技术提高推理效率

强化学习调优

通过RLHF(基于人类反馈的强化学习)优化对话安全性和帮助性

模型能力

多语言文本生成

指令跟随

代码生成

数学推理

工具使用

使用案例

对话系统

多语言客服机器人

支持多种语言的智能客服对话

在泰语和印地语等非英语语言中表现优异

代码辅助

编程助手

帮助开发者生成和优化代码

HumanEval基准测试pass@1达88.4%

教育辅助

数学问题解答

解决复杂数学问题并展示推理过程

MATH基准测试达77.0分

🚀 Llama 3.3 70B Instruct AWQ版本

这是Llama 3.3 70B指令模型的AWQ版本。在此处查看更多信息：https://github.com/casper-hansen/AutoAWQ。

🚀 快速开始

本项目提供了Llama 3.3 70B指令模型的AWQ版本，可用于多语言对话等场景。你可以通过参考相关链接获取更多技术信息和使用方法。

📚 详细文档

模型信息

Meta Llama 3.3多语言大语言模型（LLM）是一个预训练且经过指令微调的生成式模型，参数量为70B（文本输入/文本输出）。Llama 3.3经过指令微调的纯文本模型针对多语言对话用例进行了优化，在常见行业基准测试中，其表现优于许多现有的开源和闭源聊天模型。

模型开发者：Meta

模型架构：Llama 3.3是一个自回归语言模型，采用了优化的Transformer架构。经过微调的版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF），以符合人类对于有用性和安全性的偏好。

属性	详情
模型开发者	Meta
模型架构	Llama 3.3是一个自回归语言模型，采用了优化的Transformer架构。经过微调的版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF），以符合人类对于有用性和安全性的偏好。
训练数据	公开可用的在线数据的新组合。
参数数量	70B
输入模态	多语言文本
输出模态	多语言文本和代码
上下文长度	128k
GQA	是
令牌数量	15T+
知识截止日期	2023年12月
支持的语言	英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
模型发布日期	70B指令模型：2024年12月6日
状态	这是一个基于离线数据集训练的静态模型。随着我们通过社区反馈改进模型安全性，未来将发布经过微调的模型版本。
许可证	自定义商业许可证，即Llama 3.3社区许可协议，可在以下链接获取：https://github.com/meta-llama/llama-models/blob/main/models/llama3_3/LICENSE

关于模型的问题或评论发送地址：有关如何提供模型反馈或评论的说明，请参阅模型的README。有关生成参数和如何在应用程序中使用Llama 3.3的技术信息，请访问此处。

基准测试

类别	基准测试	样本数量	指标	Llama 3.1 8B指令模型	Llama 3.1 70B指令模型	Llama-3.3 70B指令模型	Llama 3.1 405B指令模型
	MMLU (CoT)	0	macro_avg/acc	73.0	86.0	86.0	88.6
	MMLU Pro (CoT)	5	macro_avg/acc	48.3	66.4	68.9	73.3
可控性	IFEval			80.4	87.5	92.1	88.6
推理能力	GPQA Diamond (CoT)	0	acc	31.8	48.0	50.5	49.0
代码能力	HumanEval	0	pass@1	72.6	80.5	88.4	89.0
	MBPP EvalPlus (base)	0	pass@1	72.8	86.0	87.6	88.6
数学能力	MATH (CoT)	0	sympy_intersection_score	51.9	68.0	77.0	73.8
工具使用能力	BFCL v2	0	overall_ast_summary/macro_avg/valid	65.4	77.5	77.3	81.1
多语言能力	MGSM	0	em	68.9	86.9	91.1	91.6