免费部署！ModernBERT-large-llm-router开源模型，精准区分大小语言模型查询

首页

Modernbert Large Llm Router

由 AdamLucek 开发

该模型是基于ModernBERT-large微调的LLM路由分类器，用于区分复杂查询（使用大语言模型）和简单查询（使用小语言模型）。

文本分类

Transformers

开源协议:Apache-2.0 #LLM路由分类 #高精度F1 #查询复杂度分析

下载量 24

发布时间 : 1/5/2025

模型简介

基于ModernBERT-large微调的文本分类模型，专门用于LLM路由决策，将查询分类为需要大语言模型处理或小语言模型处理。

模型特点

高效路由

能够准确区分复杂查询和简单查询，优化LLM资源使用

高准确率

在测试集上F1分数达到0.9933，表现优异

基于ModernBERT

基于先进的ModernBERT-large架构微调，继承了其强大的文本理解能力

模型能力

文本分类

查询复杂度评估

LLM路由决策

使用案例

LLM资源优化

智能路由系统

在多个LLM服务间分配查询请求，优化计算资源使用

减少大模型的不必要调用，降低成本

聊天系统

根据用户问题复杂度选择适当的回答模型

提升响应速度同时保持复杂问题的回答质量

属性	详情
学习率	5e-05
训练批次大小	32
评估批次大小	16
随机种子	42
优化器	使用 `adamw_torch_fused`，`betas=(0.9, 0.999)`，`epsilon=1e-08`，无额外优化器参数
学习率调度器类型	线性
训练轮数	5

训练损失	轮数	步数	验证损失	F1 值
0.0303	1.0	479	0.0317	0.9881
0.014	2.0	958	0.0374	0.9927
0.0044	3.0	1437	0.0502	0.9921
0.0004	4.0	1916	0.0554	0.9927
0.0003	5.0	2395	0.0536	0.9933

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Modernbert Large Llm Router

模型简介

模型特点

模型能力

使用案例

🚀 ModernBERT-large-llm-router

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

训练过程

训练超参数

训练结果

框架版本

📄 许可证