合成数据训练

# 合成数据训练

Jedi 7B 1080p GGUF

基于Transformer架构的图像文本到文本生成模型，专为计算机/GUI相关场景设计，具备智能代理能力。

文本生成图像英语

lmstudio-community

Smolvlm 500M Anime Caption V0.2

专注于描述动漫风格图像的视觉语言模型，基于SmolVLM-500M-Base微调

图像生成文本

Safetensors 英语

Phi 4 Mini Reasoning GGUF

Phi-4-mini-reasoning 是一个基于合成数据构建的轻量级开放模型，专注于高质量、富含推理的数据，并针对更高级的数学推理能力进行了进一步微调。

大型语言模型

Smartshot Zeroshot Finetuned V0.1.2

基于roberta-base-zeroshot-v2.0-c微调的零样本分类模型，采用SmartShot方法和合成数据提升性能

文本分类其他

Smolvlm 500M Anime Caption V0.1

专注于描述动漫风格图像的视觉语言模型，基于SmolVLM-500M-Base微调，训练数据包含18万组由大语言模型生成的合成图像/字幕对。

图像生成文本英语

URAE 是一个专注于高分辨率图像生成的模型，通过数据和参数效率优化，在有限资源下实现高质量图像生成。

基于VILA-v1.5-8B构建的视频字幕生成模型，能够为输入视频生成详细且符合人类偏好的字幕。

视频生成文本

PoseLess是一种创新的机器人手部控制框架，通过使用投影表示直接将2D图像映射到关节角度，无需显式的姿态估计。

多模态融合

Poseless-3B 是一种基于视觉语言模型（VLM）的机器人手部控制框架，能够直接将2D图像映射到关节角度，无需显式姿态估计。

Gliner Biomed Bi Large V1.0

GLiNER-BioMed是基于GLiNER框架的专为生物医学领域设计的高效开放NER模型套件，能够识别多种类型的生物医学实体。

序列标注英语

Gliner Biomed Bi Base V1.0

GLiNER-BioMed是基于GLiNER框架的高效开放生物医学命名实体识别模型套件，专为生物医学领域设计，能够识别多种实体类型。

序列标注英语

Gliner Biomed Large V1.0

GLiNER-BioMed是基于GLiNER框架的专门高效开放生物医学NER模型套件，在生物医学实体识别任务中实现了最先进的零样本和小样本性能。

Gliner Biomed Base V1.0

GLiNER-生物医学版是基于GLiNER框架开发的专用生物医学命名实体识别模型，能够识别多种生物医学实体类型。

Asagi-8B是一个大规模的日语视觉与语言模型（VLM），基于广泛的日语数据集训练，整合了多样化的数据来源。

图像生成文本

Transformers 日语

在单块GPU上24小时内训练出的高质量语音语言模型，基于Qwen2.5-0.5B微调，使用Hubert标记作为词汇表

Modernbert Large Bias Type Classifier

基于ModernBERT-large微调的文本分类模型，用于检测和分类文本中的多种偏见类型。

Transformers 英语

Asagi-14B是一个大规模的日语视觉与语言模型（VLM），在广泛的日语数据集上进行了训练，整合了多样化的数据来源。

图像生成文本

Transformers 日语

Flux.1 Dev Controlnet Upscaler

由Jasper研究团队开发的用于低分辨率图像放大的ControlNet模型

Multilingual Sentiment Analysis

一个基于DistilBERT微调的多语言情感分析模型，支持21种语言，适用于社交媒体、客户反馈等多场景分析。

Transformers 支持多种语言

Euclid Convnext Xxlarge 120524

专为强化低级几何感知能力训练的多模态大语言模型，通过合成高保真视觉描述增强几何分析能力

文本生成图像

Transformers 英语

euclid-multimodal

Gec Spanish BARTO SYNTHETIC

基于BART架构的西班牙语语法纠错模型，使用COWS-L2H数据集和80,984条合成数据训练，专为单句纠错优化

Transformers 支持多种语言

EVA Qwen2.5 72B V0.2

基于Qwen2.5-72B微调的大语言模型，专注于文本生成和指令跟随任务

大型语言模型

mStyleDistance是一个多语言风格嵌入模型，旨在将具有相似写作风格的文本紧密嵌入，不同风格的文本远离嵌入，不受内容和语言限制。

Pegasus X Base Synthsumm Open 16k

基于pegasus-x-base微调的文本摘要模型，使用合成数据训练，擅长处理长文档摘要任务。

Transformers 英语

Phi-3.5是由Microsoft开发的基于Phi-3架构的先进大语言模型，专注于高质量、富含推理的数据，支持128K标记上下文长度。

大型语言模型

Flux.1 Dev Controlnet Upscaler

由Jasper研究团队开发的用于低分辨率图像放大的ControlNet模型

Reflection Llama 3.1 70B

Reflection Llama-3.1 70B 是一款开源大语言模型，采用'反思调优'技术训练，能够自主检测推理错误并修正方向。

大型语言模型

Depth Anything V2 Metric Indoor Large Hf

基于Depth Anything V2使用合成Hypersim数据集进行室内度量深度估计的微调版本，兼容transformers库。

Depth Anything V2 Metric Indoor Base Hf

基于Depth Anything V2模型，针对室内度量深度估计任务使用Hypersim合成数据集微调的版本

Depth Anything V2 Metric Indoor Small Hf

基于Depth Anything V2针对室内度量深度估计任务进行微调的模型，使用合成数据集Hypersim训练，兼容transformers库。

Depth Anything V2 Metric Outdoor Small Hf

基于Depth Anything V2的微调版本，专为户外场景度量深度估计设计，使用合成数据集Virtual KITTI进行训练。

Depth Anything V2 Metric Outdoor Base Hf

基于Depth Anything V2使用合成Virtual KITTI数据集针对室外度量深度估计任务微调的版本，兼容transformers库

Depth Anything V2 Metric Outdoor Large Hf

基于Depth Anything V2针对户外度量深度估计任务进行微调的版本，使用合成数据集Virtual KITTI进行训练

Robust Sentiment Analysis

基于distilbert/distilbert-base-uncased微调的情感分析模型，仅使用合成数据训练，支持5种情感分类。

Transformers 英语

StyleDistance是一种风格嵌入模型，旨在将写作风格相似的文本紧密嵌入，不同风格的文本远离嵌入，而不受内容影响。

文本嵌入英语

Gliclass Large V1.0

一款高效的零样本分类器，基于合成数据训练，适用于主题分类、情感分析及RAG流程中的重排序任务。

Transformers 英语

Gliclass Base V1.0

GLiClass是一款高效零样本分类器，受GLiNER启发，适用于文本分类、情感分析及RAG流程中的重排序任务。

Transformers 英语

Gliclass Base V1.0 Lw

GLiClass是一款高效零样本分类器，基于合成数据训练，适用于文本分类、情感分析及RAG流程中的重排序任务。

Transformers 英语

Gemma 2 9B It SPPO Iter3

基于自博弈偏好优化方法在第三轮迭代中开发的89亿参数语言模型，以google/gemma-2-9b-it为起点，使用UltraFeedback数据集进行微调

大型语言模型

Transformers 英语

Llama 3 Instruct 8B SPPO Iter3

基于Meta-Llama-3-8B-Instruct架构，采用Self-Play Preference Optimization方法在第三次迭代中开发的大语言模型。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24