Selene-1-Mini-Llama-3.1-8B开源评委语言模型 - 小体积媲美大模型，性能超GPT-4

首页

Selene 1 Mini Llama 3.1 8B

由 AtlaAI 开发

Atla Selene Mini 是当前最先进的小型评委语言模型(SLMJ)，性能可媲美体积大10倍的模型，在多个基准测试中超越GPT-4o。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #评委型语言模型 #多语言评估 #高效评分

下载量 2,840

发布时间 : 1/22/2025

模型简介

基于Llama-3.1-8B的后训练模型，专为评估任务设计，支持多种评分标准和结构化评估输出。

模型特点

高性能评估能力

在RewardBench、EvalBiasBench和AutoJ基准测试中超越GPT-4o

多任务评估支持

支持绝对评分、分类判断和成对偏好三类评估任务

多语言支持

主要支持英语，同时兼容多种欧洲和亚洲语言

长上下文处理

支持128K的上下文长度

模型能力

文本生成

回答评估

无害性评分

逻辑一致性判断

RAG幻觉检测

多语言处理

使用案例

内容评估

回答质量评分

以1-5分评估回复的质量

提供结构化评分和定性评价

无害性检测

评估内容的安全性和无害性

识别潜在有害内容

RAG系统

幻觉检测

检测生成内容中的事实性错误

提高RAG系统的可靠性

对话系统

对话质量评估

评估对话系统的回复质量

优化对话系统性能

🚀 Atla Selene Mini模型

Atla Selene Mini是一款先进的小型语言裁判模型（SLMJ），在性能上可与比它大10倍的模型相媲美，在RewardBench、EvalBiasBench和AutoJ等评测中超越了GPT - 4o。

🛝 在线体验 | 📄 技术报告 | 💻 GitHub仓库 | 👀 通过API免费使用

🚀 快速开始

快速上手（HF Transformers）

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # 加载模型的设备

model_id = "AtlaAI/Selene-1-Mini-Llama-3.1-8B"

model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "I heard you can evaluate my responses?" # 替换为你的提示 / 我们在github.com/atla-ai/selene-mini/tree/main/prompt-templates提供了训练时使用的提示模板
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

✨ 主要特性

Atla Selene Mini是一款最先进的小型语言裁判模型（SLMJ）。Selene Mini的性能可与比它大10倍的模型相媲美，在RewardBench、EvalBiasBench和AutoJ等评测中超越了GPT - 4o。

居中图片

该模型基于Llama - 3.1 - 8B在广泛的评估任务和评分标准上进行了后训练，在涵盖三种不同类型任务的11个基准测试中，总体表现优于之前的小型模型：

绝对评分，例如“在1 - 5的范围内评估此回复的无害性”。
分类，例如“此回复是否回答了用户的问题？回答是或否”。
成对偏好，例如“以下哪个回复在逻辑上更一致 - A还是B？”

它也是RewardBench上排名第一的8B生成模型。

居中图片

该模型的大版本现已推出。你可以点击此处免费开始使用全球最强大的评估模型。

📚 详细文档

模型详情

属性	详情
开发者	Atla
模型类型	基于Llama - 3.1 - 8B进行后训练
支持语言（NLP）	主要为英语，但支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
上下文长度	128K

模型使用

Selene Mini可用作通用评估模型。它支持不同的输入和评分标准，生成结构化的评估输出，并提供带有推理的定性评价。

你可以尝试以下两个常见用例的操作指南：

为了获得最佳效果，我们在此处提供了训练时使用的提示。

请记住应用Llama 3的对话模板，否则可能会导致意外行为。你可以在此链接找到对话类，也可以参考下面的代码来应用它。

联系我们

如果你有任何问题，可以发送邮件至support@atla-ai.com。
你也可以加入我们的Discord社区！

引用信息

如果你使用了该模型，请使用以下格式进行引用：

@misc{alexandru2025atlaseleneminigeneral,
      title={Atla Selene Mini: A General Purpose Evaluation Model}, 
      author={Andrei Alexandru and Antonia Calvi and Henry Broomfield and Jackson Golden and Kyle Dai and Mathias Leys and Maurice Burger and Max Bartolo and Roman Engeler and Sashank Pisupati and Toby Drane and Young Sun Park},
      year={2025},
      eprint={2501.17195},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.17195}, 
}