长序列处理
Modernpubmedbert
Apache-2.0
基于PubMed数据集训练的句子转换器模型,支持多种嵌入维度,适用于生物医学文本处理。
文本嵌入
M
lokeshch19
380
2
Ruri V3 30m
Apache-2.0
Ruri v3是基于ModernBERT-Ja构建的日语通用文本嵌入模型,支持长达8192个标记的序列处理,具备日语文本嵌入任务的顶尖性能。
文本嵌入
日语
R
cl-nagoya
1,135
3
Codesearch ModernBERT Owl
Apache-2.0
专为代码搜索设计的句子转换器模型,基于ModernBERT架构,支持2048标记的序列长度
文本嵌入
英语
C
Shuu12121
75
1
Sapnous VR 6B
Apache-2.0
Sapnous-6B是一款先进的视觉语言模型,通过强大的多模态能力提升对世界的感知和理解。
图像生成文本
Transformers
英语
S
Sapnous-AI
261
5
Fanformer 1B
MIT
FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型,具有11亿非嵌入参数,训练token量达1万亿。
大型语言模型
Transformers
英语
F
dongyh
114
2
Codemodernbert Owl
Apache-2.0
CodeModernBERT-Owl 是一个从头预训练的模型,专为代码检索与代码理解任务设计,支持多种编程语言并提升检索准确率。
文本嵌入
支持多种语言
C
Shuu12121
285
5
Isoformer
Isoformer 是一个多模态生物序列模型,能够处理DNA、RNA和蛋白质序列,并预测基因表达。
蛋白质模型
Transformers
I
isoformer-anonymous
21
2
Zamba 7B V1 Phase1
Apache-2.0
Zamba-7B-v1-phase1是状态空间模型Mamba与Transformer的混合架构,以Mamba为主干网络,每6个模块共享一个Transformer层,通过下一词预测进行训练。
大型语言模型
Transformers
Z
Zyphra
22
5
Bert Large Cantonese
基于粤语文本从头训练的大型BERT模型,适用于粤语文本的掩码语言建模任务
大型语言模型
Transformers
其他
B
hon9kon9ize
448
8
Saul Instruct V1 GGUF
MIT
Saul-Instruct-v1-GGUF 是 Equall/Saul-Instruct-v1 模型的 GGUF 格式版本,适用于文本生成任务,支持多种量化级别。
大型语言模型
英语
S
MaziyarPanahi
456
8
Phi 2 Super GGUF
MIT
phi-2-super-GGUF 是 abacaj/phi-2-super 模型的 GGUF 量化版本,适用于本地运行和文本生成任务。
大型语言模型
Transformers
P
MaziyarPanahi
158
5
Mamba 130m Hf
Mamba是一个与transformers兼容的序列建模模型,具有高效的推理能力。
大型语言模型
Transformers
M
state-spaces
46.83k
56
Mamba 1.4b Hf
Mamba是基于状态空间模型(SSM)架构的高效语言模型,具有1.4B参数规模,支持文本生成任务
大型语言模型
Transformers
M
state-spaces
5,431
11
Rank Zephyr 7b V1 Full GGUF
MIT
基于 Mistral-7B 的文本排序模型,提供多种量化版本,适用于高效推理。
大型语言模型
英语
R
MaziyarPanahi
708
5
Mixtral 8x7B V0.1 GGUF
Apache-2.0
Mixtral-8x7B-v0.1的GGUF量化版本,支持多种比特量化,适用于文本生成任务。
大型语言模型
支持多种语言
M
MaziyarPanahi
128
1
Sauerkrautlm 7b HerO Mistral 7B Instruct V0.1 GGUF
Apache-2.0
这是一个基于Mistral-7B-Instruct-v0.1微调的德语/英语双语模型,采用GGUF格式量化,支持2-8比特多种量化级别。
大型语言模型
支持多种语言
S
MaziyarPanahi
90
2
Mamba 1B
Apache-2.0
Mamba-1B是一个基于Mamba架构的1B参数规模的语言模型,支持英文文本生成任务。
大型语言模型
Transformers
英语
M
Q-bert
185
28
Dolphin 2.5 Mixtral 8x7b GPTQ
Apache-2.0
Dolphin 2.5 Mixtral 8X7B 是由 Eric Hartford 开发的一个基于 Mixtral 架构的大型语言模型,经过多种高质量数据集的微调,适用于多种自然语言处理任务。
大型语言模型
Transformers
英语
D
TheBloke
164
112
Mixtral 8x7B Instruct V0.1 HF
Apache-2.0
Mixtral-8x7B是一个预训练的生成式稀疏混合专家大语言模型,在多数基准测试中表现优于Llama 2 70B。
大型语言模型
Transformers
支持多种语言
M
LoneStriker
45
4
Jais 30b V1
Apache-2.0
JAIS-30B是一个300亿参数的双语(阿拉伯语和英语)大语言模型,基于GPT-3架构,采用ALiBi位置嵌入技术,在阿拉伯语任务上达到最先进水平。
大型语言模型
Transformers
支持多种语言
J
inceptionai
37
23
Llava V1.5 13B GPTQ
Llava v1.5 13B是由Haotian Liu开发的多模态模型,结合了视觉和语言能力,能够理解和生成基于图像和文本的内容。
文本生成图像
Transformers
L
TheBloke
131
37
Jais 13B 8bit
Apache-2.0
130亿参数阿拉伯语-英语双语大语言模型,基于Transformer架构,支持长序列处理
大型语言模型
Transformers
支持多种语言
J
asas-ai
72
9
Codefuse 13B
其他
CodeFuse-13B是基于GPT-NeoX框架训练的130亿参数代码生成模型,支持40多种编程语言,能处理长达4096字符的代码序列。
大型语言模型
Transformers
C
codefuse-ai
31
49
Codellama 34B Instruct GPTQ
CodeLlama 34B 指导版是Meta发布的340亿参数代码生成模型,基于Llama 2架构,专门针对编程任务进行微调。
大型语言模型
Transformers
其他
C
TheBloke
174
75
Kogpt J 350m
MIT
一个基于GPT-J架构的韩语生成模型,拥有3.5亿参数,适用于多种韩语文本生成任务。
大型语言模型
韩语
K
heegyu
123
7
Nystromformer 4096
基于WikiText-103 v1数据集训练的长序列Nyströmformer模型,支持4096长度的序列处理
大型语言模型
Transformers
N
uw-madison
74
3
Nystromformer 2048
基于WikiText-103数据集训练的Nystromformer模型,支持长序列处理(2048 tokens)
大型语言模型
Transformers
N
uw-madison
38
1
20220415 210530
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-2b在common_voice数据集上微调的语音识别模型
语音识别
Transformers
2
lilitket
20
0
Bigbird Roberta Large
Apache-2.0
BigBird是一种基于稀疏注意力的Transformer模型,能够处理长达4096的序列,适用于长文档任务。
大型语言模型
英语
B
google
1,152
27
Bertin Roberta Large Spanish
BERTIN是基于BERT的西班牙语模型系列,本模型为RoBERTa-large架构,使用Flax框架从零开始训练,数据源为mC4语料库的西班牙语部分。
大型语言模型
西班牙语
B
flax-community
26
0
Nystromformer 512
基于Nyström方法优化的高效Transformer模型,用于处理长序列任务
大型语言模型
Transformers
N
uw-madison
1,570
2
Language Perceiver
Apache-2.0
基于BERT的掩码语言建模任务预训练,支持处理UTF-8字节输入的多模态Transformer模型
大型语言模型
Transformers
英语
L
deepmind
9,840
20
Biobert Large Cased V1.1 Squad
BioBERT是基于BERT的预训练语言模型,专门针对生物医学文本挖掘任务进行优化,适用于问答系统场景。
问答系统
B
dmis-lab
1,227
18
Reformer Enwik8
基于字符级别并在enwik8数据集上训练的Reformer语言模型,用于文本生成和压缩任务。
大型语言模型
Transformers
R
google
637
19
Cpt Base
面向中文理解与生成任务的非对称预训练Transformer模型
大型语言模型
Transformers
中文
C
fnlp
37
14
Yoso 4096
YOSO是一种高效的Transformer变体,通过伯努利采样注意力机制将自注意力复杂度从二次降低到线性,支持长达4096的序列长度。
大型语言模型
Transformers
Y
uw-madison
2,072
0
Cpt Large
面向中文理解与生成的预训练非平衡Transformer模型,支持多种自然语言处理任务
大型语言模型
Transformers
中文
C
fnlp
122
16
Xlarge
Apache-2.0
Funnel Transformer是一种基于自监督学习的英语文本预训练模型,采用类似ELECTRA的目标任务,通过过滤序列冗余实现高效语言处理。
大型语言模型
Transformers
英语
X
funnel-transformer
31
1