# 分组查询注意力

Qwen2.5 7B Embed Base
Apache-2.0
Qwen2.5-7B-embed-base是基于Transformer架构的预训练语言模型,专为生成高质量文本嵌入向量而设计。
文本嵌入 英语
Q
ssmits
85
1
Mistral Nemo Base 2407 Chatml
Apache-2.0
Mistral-Nemo-Base-2407是由Mistral AI与NVIDIA联合训练的120亿参数生成式文本预训练模型,性能超越同规模或更小规模的模型。
大型语言模型 Transformers 支持多种语言
M
IntervitensInc
191
3
Llama 3.1 70B
Meta羊驼3.1是支持8种语言的大语言模型系列,包含8B/70B/405B三种规模,在行业基准测试中超越多数开源和闭源聊天模型
大型语言模型 Transformers 支持多种语言
L
meta-llama
97.35k
358
Fox 1 1.6B
Apache-2.0
Fox-1-1.6B是由TensorOpera AI开发的16亿参数小型语言模型,采用分组查询注意力机制,训练数据达3万亿文本和代码。
大型语言模型 Transformers 英语
F
tensoropera
1,741
33
Llama 3 8B Instruct GGUF Q4 K M
Meta Llama3 Instruct 8B是Meta发布的8B参数指令调优大语言模型,针对对话场景优化,在安全性和帮助性方面表现优异。
大型语言模型 英语
L
thesven
76
1
Mistral 7B Instruct V0.1 Sharded
Apache-2.0
Mistral-7B-Instruct-v0.1是基于Mistral-7B-v0.1的指令微调版本,适用于对话生成任务。
大型语言模型 Transformers
M
filipealmeida
1,363
14
Mistral 7B V0.1
Apache-2.0
Mistral-7B-v0.1是一个拥有70亿参数的预训练生成文本模型,性能优于Llama 2 13B版本
大型语言模型 Transformers 英语
M
mistralai
621.54k
3,763
AIbase
智启未来,您的人工智能解决方案智库
简体中文