# 轻量级语言模型

Zeta 2
MIT
Zeta 2是一个约4.6亿参数的小型语言模型(SLM),在消费级电脑上精心打造,支持多种语言。
大型语言模型 支持多种语言
Z
Zeta-LLM
26
3
Minillm 0.2B WithWudao
Apache-2.0
MiniLLM是基于bert4torch框架开发的轻量级中文语言模型,覆盖预训练至指令微调全流程,具备基础对话能力
大型语言模型 Transformers
M
Tongjilibo
127
2
Smollm2 135M Eagle
Apache-2.0
基于SmolLM2-135M微调的俄英双语轻量级语言模型,增强俄语处理能力但存在明显局限
大型语言模型 支持多种语言
S
nyuuzyou
50
3
Qwen2.5 1.5B Instruct
Apache-2.0
专为Gensyn RL Swarm设计的1.5B参数指令微调模型,支持通过点对点强化学习进行本地微调
大型语言模型 Transformers 英语
Q
Gensyn
2.1M
4
Latent Recurrent Depth Lm
MIT
一种实验性文本生成架构,通过迭代的潜在处理捕获更深层次的上下文信息
大型语言模型 Transformers 英语
L
codewithdark
38
1
Llama 3.1 0x Mini
0x Mini是由Ozone AI开发的轻量级语言模型,基于Llama-3.1架构优化,提供高效的文本生成能力
大型语言模型 Transformers
L
ozone-research
21
5
Miniplm Qwen 200M
Apache-2.0
基于Qwen架构的2亿参数模型,采用MiniPLM知识蒸馏框架从零开始预训练
大型语言模型 Transformers 英语
M
MiniLLM
203
5
Llammlein 1B
其他
这是一个基于Tinyllama代码框架、使用RedPajama V2德语语料从头训练的德语Tinyllama 1B语言模型。
大型语言模型 Transformers 德语
L
LSX-UniWue
304
14
Meta Llama 3.1 8B Instruct Abliterated GGUF
MIT
一个采用混合量化技术的文本生成模型,输出和嵌入张量使用f16格式,其余张量采用q5_k或q6_k量化,体积小于标准q8_0量化格式且性能与纯f16版本持平。
大型语言模型 英语
M
ZeroWw
98
17
Smollm 135M 4bit
Apache-2.0
这是一个4位量化的135M参数小型语言模型,适用于资源受限环境下的文本生成任务。
大型语言模型 Transformers 英语
S
mlx-community
312
1
Mobillama 1B Chat
Apache-2.0
MobiLlama-1B-Chat是基于MobiLlama-1B微调的指令跟随模型,专为资源受限设备设计,强调高效、低内存占用和快速响应。
大型语言模型 Transformers 英语
M
MBZUAI
44
25
Mobillama 05B
MIT
MobiLlama-05B是一款拥有5亿参数的小型语言模型(SLM),专注于资源受限设备的应用场景,提供高效、低内存占用的文本生成能力。
大型语言模型 Transformers 支持多种语言
M
MBZUAI
187
41
Mamba 3B Slimpj
Apache-2.0
基于Mamba架构的3B参数规模的语言模型,支持英文文本生成任务。
大型语言模型 Transformers 英语
M
Q-bert
56
3
Phi Hermes 1.3B
其他
基于Hermes数据集微调的Phi-1.5模型,主要用于文本生成任务
大型语言模型 Transformers 英语
P
teknium
45
44
Charllama 35M
Openrail
CharLLaMa-35M 是一个微型语言模型,采用LLaMa架构,具有逐字符分词功能,适用于因BPE分词导致任务表现不佳时的各类实验场景。
大型语言模型 Transformers 其他
C
inkoziev
61
5
Llama2 Xs 460M Experimental
本系列仓库开源复现了Meta AI的LLaMA和LLaMA 2大语言模型,但模型规模显著缩小,其中llama1_s实验版含18亿参数,llama2_xs实验版仅含4.6亿参数。
大型语言模型 Transformers 英语
L
ahxt
145
13
Koalpaca KoRWKV 1.5B
Apache-2.0
基于KoRWKV-1.5B在KoAlpaca数据集v1.0上微调的韩文语言模型
大型语言模型 Transformers 韩语
K
beomi
1,941
7
Gpt2023
MIT
基于GPT-2架构的124M参数语言模型,在2.23B token的多样化数据上微调,具备改进的文本生成能力
大型语言模型 Transformers 英语
G
crumb
136
18
Japanese Gpt Neox Small
MIT
基于GPT-NeoX架构的小型日语语言模型,支持文本生成任务
大型语言模型 Transformers 支持多种语言
J
rinna
838
15
Albert Base Japanese V1 With Japanese Tokenizer
MIT
这是一个经过日语预训练的ALBERT模型,使用了BertJapaneseTokenizer作为分词器,处理日语文本更加便捷。
大型语言模型 Transformers 日语
A
ken11
44
3
Xlm Roberta Base Uk
MIT
这是XLM-RoBERTa模型的缩小版本,专门针对乌克兰语和部分英语进行了优化,参数数量从4.7亿缩减至1.34亿。
大型语言模型 Transformers 其他
X
ukr-models
78
12
Minilmv2 L6 H384 Distilled From BERT Large
MiniLMv2 是微软推出的轻量级语言表示模型,通过知识蒸馏技术实现高效推理,适用于多种自然语言处理任务。
大型语言模型 Transformers
M
nreimers
14.21k
1
Roformer Chinese Char Small
RoFormer是基于旋转位置编码(Rotary Position Embedding)增强的中文Transformer模型,适用于文本填充任务。
大型语言模型 中文
R
junnyu
24
0
Minilmv2 L6 H384 Distilled From RoBERTa Large
MiniLMv2 是微软推出的轻量级语言表示模型,通过知识蒸馏技术实现高效性能。
大型语言模型 Transformers
M
nreimers
73
6
Bert L12 H384 A6
基于BookCorpus数据集通过知识蒸馏技术预训练的轻量化BERT模型,隐藏层维度缩减至384,采用6个注意力头。
大型语言模型 Transformers
B
eli4s
16
2
Mminilmv2 L6 H384 Distilled From XLMR Large
MiniLMv2 是微软推出的轻量级语言表示模型,通过知识蒸馏技术实现高效性能。
大型语言模型 Transformers
M
nreimers
197
17
Distilbert Base Uncased Sparse 90 Unstructured Pruneofa
Apache-2.0
这是一个稀疏预训练模型,通过一次性剪枝方法实现90%权重稀疏化,可针对多种语言任务进行微调。
大型语言模型 Transformers 英语
D
Intel
78
2
AIbase
智启未来,您的人工智能解决方案智库
简体中文