GQA高效推理

# GQA高效推理

Llama 3.3 70b Instruct Awq

Llama 3.3是Meta开发的多语言大语言模型，拥有700亿参数，针对多语言对话用例优化，在多项基准测试中表现优异。

大型语言模型

Transformers 支持多种语言

Llama 3.2 1B Instruct QLORA INT4 EO8

Llama 3.2 是 Meta 推出的多语言大语言模型系列，包含 1B 和 3B 参数的预训练和指令微调版本，支持 8 种官方语言，优化了多语言对话场景。

大型语言模型

PyTorch 支持多种语言

Llama 3.2 90B Vision Instruct

Llama 3.2-Vision是Meta开发的多模态大语言模型，支持图像和文本输入，文本输出，在视觉识别、图像推理、图像描述和图像问答任务上表现优异。

图像生成文本

Transformers 支持多种语言

Llama 3.1 Minitron 4B Width Base

Llama-3.1-Minitron-4B-Width-Base是一个基础文本到文本模型，通过对Llama-3.1-8B进行剪枝获得，适用于多种自然语言生成任务。

大型语言模型

Transformers 英语

Minitron 8B Base

Minitron-8B-Base是通过剪裁Nemotron-4 15B获得的大型语言模型，采用蒸馏持续训练方法，相比从头训练节省了40倍的训练token和1.8倍的计算成本。

大型语言模型

Transformers 英语

Meta Llama 3.1 是一个多语言大语言模型系列，包含8B、70B和405B三种规模的预训练及指令调优生成模型，针对多语言对话场景优化。

大型语言模型

Transformers 支持多种语言

Meta Llama 3 70B

Meta发布的Llama 3系列大语言模型，包含8B和70B两种规模的预训练及指令调优生成式文本模型，针对对话场景优化，在行业基准测试中表现优异。

大型语言模型

Transformers 英语

Llama 2 70b Chat Hf

Meta开源的700亿参数对话优化大语言模型，在安全性和实用性上媲美主流闭源模型

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24