长序列处理

# 长序列处理

Codesearch ModernBERT Owl 2.0 Plus

专为高质量代码理解和语义检索设计的最新预训练模型，支持8种编程语言的长序列处理。

Devstral Small 2505.w4a16 Gptq

这是一个基于mistralai/Devstral-Small-2505模型的4位GPTQ量化版本，专为消费级硬件优化。

大型语言模型

Modernpubmedbert

基于PubMed数据集训练的句子转换器模型，支持多种嵌入维度，适用于生物医学文本处理。

Ruri v3是基于ModernBERT-Ja构建的日语通用文本嵌入模型，支持长达8192个标记的序列处理，具备日语文本嵌入任务的顶尖性能。

文本嵌入日语

Codesearch ModernBERT Owl

专为代码搜索设计的句子转换器模型，基于ModernBERT架构，支持2048标记的序列长度

文本嵌入英语

Sapnous-6B是一款先进的视觉语言模型，通过强大的多模态能力提升对世界的感知和理解。

图像生成文本

Transformers 英语

FANformer-1B是通过创新周期性机制增强语言建模能力的自回归模型，具有11亿非嵌入参数，训练token量达1万亿。

大型语言模型

Transformers 英语

Codemodernbert Owl

CodeModernBERT-Owl 是一个从头预训练的模型，专为代码检索与代码理解任务设计，支持多种编程语言并提升检索准确率。

文本嵌入支持多种语言

Isoformer 是一个多模态生物序列模型，能够处理DNA、RNA和蛋白质序列，并预测基因表达。

蛋白质模型

isoformer-anonymous

Zamba 7B V1 Phase1

Zamba-7B-v1-phase1是状态空间模型Mamba与Transformer的混合架构，以Mamba为主干网络，每6个模块共享一个Transformer层，通过下一词预测进行训练。

大型语言模型

Dolphin 2.9.1 Yi 1.5 34b

Dolphin 2.9.1 Yi 1.5 34b是一款高性能大语言模型，基于Yi-1.5-34b架构，经过精心训练，提供高质量的交互体验。

大型语言模型

Bert Large Cantonese

基于粤语文本从头训练的大型BERT模型，适用于粤语文本的掩码语言建模任务

大型语言模型

Transformers 其他

Mistral-SUPRA是基于Mistral-7B初始化的线性RNN模型，兼具Transformer和循环模型的功能。

大型语言模型

Saul Instruct V1 GGUF

Saul-Instruct-v1-GGUF 是 Equall/Saul-Instruct-v1 模型的 GGUF 格式版本，适用于文本生成任务，支持多种量化级别。

大型语言模型英语

Phi 2 Super GGUF

phi-2-super-GGUF 是 abacaj/phi-2-super 模型的 GGUF 量化版本，适用于本地运行和文本生成任务。

大型语言模型

Mamba是一个基于状态空间模型(SSM)的高效语言模型，具有线性时间复杂度的序列建模能力。

大型语言模型

Mamba 是一个与 transformers 兼容的高效序列模型，具有 7.9 亿参数，适用于因果语言建模任务。

大型语言模型

Mamba是一个与transformers兼容的序列建模模型，具有高效的推理能力。

大型语言模型

Mamba是基于状态空间模型(SSM)架构的高效语言模型，具有1.4B参数规模，支持文本生成任务

大型语言模型

Rank Zephyr 7b V1 Full GGUF

基于 Mistral-7B 的文本排序模型，提供多种量化版本，适用于高效推理。

大型语言模型英语

Mixtral 8x7B V0.1 GGUF

Mixtral-8x7B-v0.1的GGUF量化版本，支持多种比特量化，适用于文本生成任务。

大型语言模型支持多种语言

Sauerkrautlm 7b HerO Mistral 7B Instruct V0.1 GGUF

这是一个基于Mistral-7B-Instruct-v0.1微调的德语/英语双语模型，采用GGUF格式量化，支持2-8比特多种量化级别。

大型语言模型支持多种语言

Sauerkrautlm Mixtral 8x7B GGUF

SauerkrautLM Mixtral 8X7B 是一款基于 Mixtral 架构的多语言文本生成模型，经过 SFT 和 DPO 微调与对齐，支持英语、德语、法语、意大利语和西班牙语。

大型语言模型

Transformers 支持多种语言

Mamba-1B是一个基于Mamba架构的1B参数规模的语言模型，支持英文文本生成任务。

大型语言模型

Transformers 英语

Mythalion Kimiko V2 AWQ

Mythalion Kimiko v2 - AWQ 是 nRuaif 创建的 Mythalion Kimiko v2 模型的 AWQ 量化版本，具有高效、准确和快速推理等特点。

大型语言模型

Dolphin 2.5 Mixtral 8x7b GPTQ

Dolphin 2.5 Mixtral 8X7B 是由 Eric Hartford 开发的一个基于 Mixtral 架构的大型语言模型，经过多种高质量数据集的微调，适用于多种自然语言处理任务。

大型语言模型

Transformers 英语

Mixtral 8x7B Instruct V0.1 HF

Mixtral-8x7B是一个预训练的生成式稀疏混合专家大语言模型，在多数基准测试中表现优于Llama 2 70B。

大型语言模型

Transformers 支持多种语言

JAIS-30B是一个300亿参数的双语（阿拉伯语和英语）大语言模型，基于GPT-3架构，采用ALiBi位置嵌入技术，在阿拉伯语任务上达到最先进水平。

大型语言模型

Transformers 支持多种语言

Llava V1.5 13B GPTQ

Llava v1.5 13B是由Haotian Liu开发的多模态模型，结合了视觉和语言能力，能够理解和生成基于图像和文本的内容。

文本生成图像

Mistral 7B Instruct V0.1 GPTQ

Mistral 7B Instruct v0.1 的 GPTQ 量化版本，支持在 ExLlama 或 Transformers 框架下运行

大型语言模型

130亿参数阿拉伯语-英语双语大语言模型，基于Transformer架构，支持长序列处理

大型语言模型

Transformers 支持多种语言

CodeFuse-13B是基于GPT-NeoX框架训练的130亿参数代码生成模型，支持40多种编程语言，能处理长达4096字符的代码序列。

大型语言模型

Codellama 34B Instruct GPTQ

CodeLlama 34B 指导版是Meta发布的340亿参数代码生成模型，基于Llama 2架构，专门针对编程任务进行微调。

大型语言模型

Transformers 其他

一个基于GPT-J架构的韩语生成模型，拥有3.5亿参数，适用于多种韩语文本生成任务。

大型语言模型韩语

Long T5 Tglobal Xl

LongT5 是一个基于 Transformer 的文本到文本模型，专门设计用于处理长序列输入，最高支持 16384 个标记。

大型语言模型

Transformers 英语

Nystromformer 4096

基于WikiText-103 v1数据集训练的长序列Nyströmformer模型，支持4096长度的序列处理

大型语言模型

Nystromformer 2048

基于WikiText-103数据集训练的Nystromformer模型，支持长序列处理（2048 tokens）

大型语言模型

20220415 210530

该模型是基于facebook/wav2vec2-xls-r-2b在common_voice数据集上微调的语音识别模型

Long T5 Local Large

长T5是基于T5扩展的文本到文本Transformer模型，支持高效处理长序列输入，特别适用于文本生成任务。

大型语言模型

Transformers 英语

Bigbird Roberta Large

BigBird是一种基于稀疏注意力的Transformer模型，能够处理长达4096的序列，适用于长文档任务。

大型语言模型英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24