128K长文本推理
Llama 3 3 Nemotron Super 49B V1 GGUF
其他
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度
大型语言模型
Transformers
英语
L
unsloth
814
1
Llama 3.1 Nemotron Nano 8B V1 GGUF
其他
Llama-3.1-Nemotron-Nano-8B-v1是基于Meta Llama-3.1-8B-Instruct的推理模型,经过后训练增强推理能力、人类聊天偏好及任务执行能力。
大型语言模型
Transformers
英语
L
unsloth
22.18k
3
Llama 3 1 Nemotron Ultra 253B CPT V1
其他
Llama-3.1-Nemotron-Ultra-253B-CPT-v1是基于Meta Llama-3.1-405B-Instruct的大型语言模型,支持128K tokens上下文长度,经过神经架构搜索优化,在准确性和效率之间取得良好平衡
大型语言模型
Transformers
英语
L
nvidia
155
3
Llama 3 3 Nemotron Super 49B V1
其他
Llama-3.3-Nemotron-Super-49B-v1是基于Meta Llama-3.3-70B-Instruct的大型语言模型,专注于推理、对话偏好和任务执行,支持128K tokens上下文长度。
大型语言模型
Transformers
英语
L
nvidia
150.65k
270
Deepseek R1
MIT
DeepSeek-R1是深度求索推出的第一代推理模型,通过大规模强化学习训练,在数学、代码和推理任务上表现优异。
大型语言模型
Transformers
D
deepseek-ai
1.7M
12.03k
Glm 4 9b Chat Hf
其他
GLM-4-9B是智谱AI推出的GLM-4系列最新一代预训练模型的开源版本,具备卓越的语义、数学、推理、代码和知识能力。
大型语言模型
Transformers
支持多种语言
G
THUDM
7,919
13
Phi 3.5 Mini Instruct
MIT
Phi-3.5-mini 是一个轻量级、最先进的开源模型,基于 Phi-3 使用的数据集构建,支持 128K 的上下文长度,特别注重高质量、富含推理能力的数据。
大型语言模型
Transformers
其他
P
microsoft
354.64k
859
Glm 4 9b
其他
GLM-4-9B是智谱AI推出的最新开源预训练模型,在多项基准测试中超越Llama-3-8B,支持128K上下文长度和26种语言。
大型语言模型
Transformers
支持多种语言
G
THUDM
9,944
132