高效参数利用

# 高效参数利用

TimeMoE-200M 是一个基于专家混合（Mixture of Experts, MoE）架构的十亿级时间序列基础模型，专注于时间序列预测任务。

Codegen25 7b Multi P

CodeGen2.5是一个用于程序合成的自回归语言模型系列，基于CodeGen2改进，在StarCoderData上训练，以较小规模实现高性能。

大型语言模型

Xdoc Base Squad2.0

XDoc 是一个统一预训练模型，能够通过单一模型处理不同格式的文档。仅需36.7%的参数量，XDoc在下游任务中即可实现相当或更优的性能表现，在实际部署中具有显著成本效益。

大型语言模型

Deberta V3 Xsmall

DeBERTaV3是微软提出的改进版DeBERTa模型，通过ELECTRA风格的梯度解耦嵌入共享预训练方法提升效率，在自然语言理解任务中表现优异。

大型语言模型

Transformers 英语

T5 Efficient Large Dm2000

T5高效大型-DM2000是谷歌T5模型的一个变体，采用深度窄型架构，优先增加模型深度以提高下游任务性能。

大型语言模型英语

T5 Efficient Base

T5-Efficient-BASE是基于谷歌T5架构的变体，采用深度窄型设计优化下游任务表现，参数量2.229亿

大型语言模型英语

T5 Efficient Tiny Ff12000

T5-Efficient-TINY-FF12000是Google原始T5的一个变体，采用深度窄型架构，在参数数量相近的模型中表现出更优的下游任务性能。

大型语言模型英语

T5 Efficient Small Dm768

T5-Efficient-SMALL-DM768 是 Google 原始 T5 的一个变体，采用深度窄型架构，优先增加模型深度以提高下游性能。

大型语言模型英语

T5 Efficient Small Nl22

T5高效小型-NL22是谷歌T5模型的深度窄型变体，专注于通过增加模型深度提升下游任务性能。

大型语言模型英语

T5 Efficient Tiny

T5-Efficient-TINY是谷歌T5模型的深度窄型变体，专注于通过增加模型深度而非宽度来提升下游任务性能。

大型语言模型英语

T5 Efficient Small Kv256

T5-Efficient-SMALL-KV256是谷歌T5的变体，采用深度窄型架构优化下游任务性能，参数量1.17亿，需微调使用。

大型语言模型英语

T5 Efficient Small

T5-Efficient-SMALL是Google原版T5的一个变体，采用深度窄型架构，在参数数量相近的情况下，下游任务性能优于其他架构。

大型语言模型英语

Chinese Legal Electra Small Generator

中文ELECTRA是哈工大-讯飞联合实验室基于谷歌ELECTRA模型发布的中文预训练模型，体积小且性能优越。

大型语言模型

Transformers 中文

T5 Efficient Mini

T5-Efficient-MINI是谷歌原版T5的一个变体，采用深度窄型架构，在参数数量相似的模型架构中表现出更优的下游任务性能。

大型语言模型英语

T5 Efficient Tiny Nl8

T5-Efficient-TINY-NL8是Google T5模型的一个高效变体，采用深度窄型架构优化下游任务性能。

大型语言模型英语

T5 Efficient Small Kv32

T5-Efficient-SMALL-KV32是Google原版T5的一个变体，采用深度窄型架构，专注于提高下游任务性能。

大型语言模型英语

T5 Efficient Base Nl48

T5-Efficient-BASE-NL48 是 Google T5 的变体，采用深度窄型架构，优先增加模型深度以提高下游任务性能。

大型语言模型英语

T5 Efficient Tiny Nl32

T5-Efficient-TINY-NL32是Google原版T5的一个变体，采用深度窄型架构，优先增加模型深度以优化下游任务性能。

大型语言模型英语

T5 Efficient Tiny Nl2

T5-Efficient-TINY-NL2是Google原版T5的一个变种，采用深度窄型架构，专注于提高下游任务性能。

大型语言模型英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24