低学习率优化

# 低学习率优化

32b Glm4 Dans Personality Engine V1.3.0 TestArticle 1

基于THUDM/GLM-4-32B-Base-0414模型在Dans-DiscountModels/pretokenization-test-4数据集上微调的大语言模型

大型语言模型

Dans-DiscountModels

Videomae Base Finetuned 1e 08 Bs4 Ep2

基于MCG-NJU/videomae-base微调的视频理解模型，在未知数据集上进行了训练

一个基于PyTorch和Diffusers库的扩散模型，用于无条件生成手写数字的黑白图像。

Florence 2 DocVQA

基于微软Florence-2模型使用Docmatix数据集（5%数据量）微调1天的版本，适用于图像文本理解任务

文本生成图像

基于公共领域图像训练的Flux LoRA模型，专长于复古漫画风格的人物描绘

Florence 2 DocVQA

这是微软Florence-2模型使用Docmatix数据集（5%数据量）以1e-6学习率微调1天后的版本

文本生成图像

Mbart Large 50 En Es Translation Lr 1e 05 Weight Decay 0.1

基于facebook/mbart-large-50微调的英语-西班牙语翻译模型，在评估集上表现出色。

Mbart Large 50 En Es Translation Lr 1e 05 Weight Decay 0.01

基于facebook/mbart-large-50微调的英语到西班牙语翻译模型，在评估集上取得了45.09的BLEU分数。

Mbart Large 50 En Es Translation Lr 1e 05 Weight Decay 0.0

该模型是基于facebook/mbart-large-50微调的英语到西班牙语翻译模型，在评估集上取得了45.03的BLEU分数。

基于google/vit-base-patch16-224-in21k在beans数据集上微调的视觉Transformer模型

Mt5 Base Turkish Summarization

基于google/mt5-base在mlsum/tu数据集上微调的土耳其语文本摘要模型

BERT是一种基于Transformer架构的预训练语言模型，由Google开发。它通过双向上下文理解文本，适用于多种自然语言处理任务。

Distilbert Token Itr0 1e 05 All 01 03 2022 14 33 33

该模型是基于DistilBERT在未指定数据集上微调的版本，主要用于文本分类任务。

大型语言模型

Mrc Pretrained Roberta Large 1

KLUE-RoBERTa-large是基于RoBERTa架构的韩语预训练语言模型，由韩国研究团队开发，针对韩语自然语言处理任务进行了优化。

大型语言模型

BERT是一种基于Transformer架构的预训练语言模型，由Google开发。该模型在多种自然语言处理任务中表现出色，包括文本分类、问答和命名实体识别等。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24