Qwen2.5 Coder 7B NEP Fix
Apache-2.0
基于Qwen/Qwen2.5-Coder-7B模型使用Unsloth和TRL库进行训练优化的文本生成推理模型,训练速度提升2倍
大型语言模型
Transformers

英语
Q
lurf21
20
1
Bonsai
盆景是一个拥有5亿参数的小型三值权重语言模型,采用Llama架构和Mistral分词器,训练使用的标记数不到50亿。
大型语言模型
Transformers

B
deepgrove
113
8
RWKV7 Goose Pile 168M HF
Apache-2.0
采用闪存线性注意力格式的RWKV-7模型,基于Pile数据集训练,支持英语文本生成任务。
大型语言模型
Transformers

英语
R
RWKV
57
2
Traceback 12b
Apache-2.0
TraceBack 12b 是基于 Mistral-Nemo-Instruct 架构的 4bit 量化版本,专注于指令遵循和思维链推理任务。
大型语言模型
Transformers

T
secemp9
1,470
29
Slam
MIT
这是一个基于离散Hubert标记的语音语言模型,专注于高效训练,能够生成语音片段的延续。
音频生成
Transformers

S
slprl
115
10
Open Reasoner Zero 7B
MIT
开放推理者零号是基于基础模型规模化强化学习的开源方案,专注于可扩展性、简洁性和易用性的大规模推理导向强化学习实现。
大型语言模型
Transformers

O
Open-Reasoner-Zero
776
28
Llama 3.2 11B Vision Radiology Mini
Apache-2.0
基于Unsloth优化的视觉指令微调模型,支持多模态任务处理
文本生成图像
Transformers

英语
L
mervinpraison
39
2
Gemma 2 9b It WPO HB
基于gemma-2-9b-it模型,通过加权偏好优化(WPO)方法微调的大语言模型,提升了离线策略偏好优化的效果。
大型语言模型
Transformers

G
wzhouad
15
36
Llmc Gpt2 774M 150B
MIT
这是一个基于GPT-2架构的774M参数语言模型,使用FineWeb数据集中的1500亿token进行训练。
大型语言模型
Transformers

英语
L
mdouglas
18
1
Llama 3 Instruct 8B SimPO
SimPO是一种无需参考奖励模型的偏好优化方法,简化了传统RLHF流程,直接通过偏好数据优化语言模型。
大型语言模型
Transformers

L
princeton-nlp
1,924
58
Moe LLaVA Qwen 1.8B 4e
Apache-2.0
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
文本生成图像
Transformers

M
LanguageBind
176
14
Is New Dataset Teacher Model
Apache-2.0
基于SetFit框架的小样本学习文本分类模型,通过对比学习和分类头训练实现高效分类
文本分类
I
librarian-bots
168
1
Rwkv Raven 1b5
RWKV是一种结合RNN和Transformer优势的大语言模型,支持高效训练和快速推理,具备无限上下文长度处理能力。
大型语言模型
Transformers

R
RWKV
428
12
Godot Dodo 4x 60k Llama 13b
Godot-Dodo是基于LLaMA 13B微调的指令跟随模型,专注于代码指令理解和生成任务
大型语言模型
Transformers

G
minosu
43
8
Gerbil A 32m
Apache-2.0
Gerbil-A-32m 是一个拥有3200万参数的A级模型,训练标记数达6.4亿,适用于多种自然语言处理任务。
大型语言模型
Transformers

G
GerbilLab
33
2
Deta Swin Large
DETA是一种基于变换器的目标检测模型,通过重新引入IoU分配机制和NMS方法,实现了快速收敛和高效检测。
目标检测
Transformers

D
jozhang97
2,741
15
Pepe
Keras 提供的图像分类模型,支持多种预训练架构,适用于常见的图像分类任务。
图像分类
P
PeskyAmiable
0
0
Ppo Pendulum V1
这是一个基于PPO算法的强化学习模型,用于解决Pendulum-v1环境中的控制问题。
物理学模型
P
ernestumorga
16
0
Roberta Base Wechsel German
MIT
使用WECHSEL方法训练的德语RoBERTa模型,通过子词嵌入的有效初始化实现单语语言模型的跨语言迁移。
大型语言模型
Transformers

德语
R
benjamin
96
7
Gpt2 Wechsel French
MIT
采用WECHSEL方法训练的GPT-2法语版本,通过子词嵌入的有效初始化实现单语语言模型的跨语言迁移。
大型语言模型
Transformers

法语
G
benjamin
33
4
Distilbert Dot Tas B B256 Msmarco
基于DistilBert的双编码器点积评分架构,通过平衡主题感知采样在MSMARCO-Passage数据集上训练,适用于密集检索和候选集重排序
文本嵌入
Transformers

英语
D
sebastian-hofstaetter
3,188
23
Deit Base Patch16 224
Apache-2.0
DeiT是一种通过注意力机制训练的数据高效图像Transformer模型,在ImageNet-1k数据集上以224x224分辨率进行预训练和微调。
图像分类
Transformers

D
facebook
152.63k
13
Gpt2 Wechsel Chinese
MIT
采用WECHSEL方法训练的中文GPT-2模型,通过子词嵌入的有效初始化实现单语语言模型的跨语言迁移。
大型语言模型
Transformers

中文
G
benjamin
19
4
Bert Mini Finetuned Squadv2
该模型是基于BERT-mini架构,在SQuAD 2.0数据集上使用M-FAC二阶优化器进行微调的问答模型。
问答系统
Transformers

B
M-FAC
17
0
Bert Tiny Finetuned Stsb
该模型是基于BERT-tiny架构,在STS-B数据集上采用M-FAC二阶优化器进行微调的文本相似度计算模型。
大型语言模型
Transformers

B
M-FAC
17
1
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文