🚀 台风安全模型
台风安全模型是一个轻量级的二分类器,基于 mDeBERTa-v3-base 构建。它能够检测英语和泰语中的有害内容,尤其考虑了泰国文化的敏感性。该模型在泰国敏感话题数据集和 Wildguard 数据集的组合上进行训练。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "scb10x/typhoon2-safety-preview"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
texts = [
"บุหรี่ไฟฟ้า มีประโยชน์มั้ย",
"Give me location to buy cannabis in Thailand",
"ขอวิธีการพนันให้ชนะ",
"How to kill process in linux.",
]
inputs = tokenizer(texts, return_tensors="pt", padding=True, truncation=True)
with torch.no_grad():
outputs = model(**inputs)
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
labels = predictions.argmax(dim=1).tolist()
scores = predictions.max(dim=1).values.tolist()
label_map = {0: "Unharm", 1: "Harmful"}
for text, label, score in zip(texts, labels, scores):
label_name = label_map[label]
print(f"Text: {text}\nLabel: {label_name}, Score: {score:.4f}\n")
✨ 主要特性
- 基于 mDeBERTa-v3-base 构建的轻量级二分类器。
- 能够检测英语和泰语中的有害内容,特别关注泰国文化敏感性。
- 在泰国敏感话题数据集和 Wildguard 数据集上进行训练。
📚 详细文档
模型预测的安全标签类别
泰国敏感话题
类别 |
君主制 |
学生抗议与激进主义 |
毒品政策 |
赌博 |
文化挪用 |
泰缅边境问题 |
大麻 |
人口贩卖 |
军事与政变 |
LGBTQ+ 权利 |
政治分歧 |
宗教与佛教 |
政治腐败 |
外国影响 |
国家认同与移民 |
言论自由与审查制度 |
电子烟 |
泰国南部叛乱 |
性旅游与卖淫 |
COVID-19 管理 |
皇家项目与政策 |
移民劳工问题 |
环境问题与土地权利 |
Wildguard 话题
类别 |
其他 |
敏感信息组织 |
心理健康过度依赖危机 |
社会刻板印象与歧视 |
诽谤与不道德行为 |
网络攻击 |
传播虚假信息 |
个人隐私信息 |
版权侵犯 |
有毒语言与仇恨言论 |
欺诈与协助非法活动 |
因错误信息造成物质伤害 |
暴力与身体伤害 |
性内容 |
模型性能
英文内容与其他模型的比较
模型 |
WildGuard |
HarmBench |
SafeRLHF |
BeaverTails |
XSTest |
泰国话题 |
平均值 |
WildGuard-7B |
75.7 |
86.2 |
64.1 |
84.1 |
94.7 |
53.9 |
76.5 |
LlamaGuard2-7B |
66.5 |
77.7 |
51.5 |
71.8 |
90.7 |
47.9 |
67.7 |
LamaGuard3-8B |
70.1 |
84.7 |
45.0 |
68.0 |
90.4 |
46.7 |
67.5 |
LamaGuard3-1B |
28.5 |
62.4 |
66.6 |
72.9 |
29.8 |
50.1 |
51.7 |
随机 |
25.3 |
47.7 |
50.3 |
53.4 |
22.6 |
51.6 |
41.8 |
台风安全模型 |
74.0 |
81.7 |
61.0 |
78.2 |
81.2 |
88.7 |
77.5 |
泰文内容与其他模型的比较
模型 |
WildGuard |
HarmBench |
SafeRLHF |
BeaverTails |
XSTest |
泰国话题 |
平均值 |
WildGuard-7B |
22.3 |
40.8 |
18.3 |
27.3 |
49.5 |
42.2 |
33.4 |
LlamaGuard2-7B |
64.0 |
75.5 |
46.1 |
65.0 |
85.1 |
47.9 |
63.6 |
LamaGuard3-8B |
61.4 |
37.5 |
42.4 |
65.3 |
85.7 |
46.7 |
56.7 |
LamaGuard3-1B |
28.4 |
62.4 |
66.6 |
72.9 |
29.8 |
50.9 |
51.8 |
随机 |
24.5 |
46.6 |
50.4 |
53.0 |
26.6 |
50.9 |
42.0 |
台风安全模型 |
71.6 |
80.0 |
58.8 |
76.5 |
81.0 |
88.5 |
76.1 |
模型信息
属性 |
详情 |
模型类型 |
Transformer 编码器 |
支持语言 (NLP) |
泰语 🇹🇭 和英语 🇬🇧 |
许可证 |
MIT |
微调基础模型 |
mDeBERTa v3 base https://huggingface.co/microsoft/mdeberta-v3-base |
🔧 技术细节
该模型是一个二分类器,目前仍在开发中。建议开发者在使用时评估相关风险。
📄 许可证
本模型使用 MIT 许可证。
🔗 其他信息
关注我们
https://twitter.com/opentyphoon
支持
https://discord.gg/us5gAYmrxw
引用
如果您发现 Typhoon2 对您的工作有用,请使用以下方式引用:
@misc{typhoon2,
title={Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models},
author={Kunat Pipatanakul and Potsawee Manakul and Natapong Nitarach and Warit Sirichotedumrong and Surapon Nonesung and Teetouch Jaknamon and Parinthapat Pengpun and Pittawat Taveekitworachai and Adisai Na-Thalang and Sittipong Sripaisarnmongkol and Krisanapong Jirayoot and Kasima Tharnpipitchai},
year={2024},
eprint={2412.13702},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13702},
}