语言: 中文
许可证: MIT
库名称: transformers
任务标签: 文本生成
标签:
- 文本生成
- AI检测
- 改写
- 原创性
- 隐私
数据集:
- checkgpt
基础模型: Qwen/Qwen2.5-3B-Instruct
模型类型: 因果语言模型
AuthorMist原创性模型


概述
AuthorMist原创性模型是一款专业语言模型,专为将AI生成文本转化为更接近人类写作风格而设计,同时保留原文含义。该模型采用强化学习技术开发,特别针对规避Originality.ai等AI文本检测系统进行了优化。
模型基于Qwen2.5-3B Instruct,通过组相对策略优化(GRPO)进行微调,以检测器反馈作为奖励信号。在保持高语义相似度的前提下,该模型在降低多平台AI文本检测率方面表现优异。
核心特性
- 检测规避:专门针对Originality.ai检测算法训练,具备跨平台泛化能力
- 语义保持:与原文语义相似度>0.94
- 自然输出:生成流畅连贯的自然文本
- 广泛适用:适用于学术、技术、创意写作等多种领域
模型详情
- 基础模型:Qwen2.5-3B Instruct
- 训练方法:基于组相对策略优化(GRPO)的强化学习
- 训练数据:CheckGPT数据集中10,000篇人类撰写摘要及对应AI生成版本
- 覆盖领域:计算机科学、人文社科、物理学等
- 文本长度:优化支持100-500词文本
性能表现
在规避AI文本检测方面表现卓越:
- 平均AUROC:六大检测系统0.49
- 平均F1分数:所有检测器0.09
- 语义相似度:原文保持>0.94
特别在以下平台表现突出:
- Hello SimpleAI (AUROC: 0.07)
- Sapling (AUROC: 0.13)
- Winston.ai (AUROC: 0.35)
使用方法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "authormist/authormist-originality"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
ai_text = "此处填入AI生成文本..."
prompt = f"""请改写以下文本使其更接近人类写作风格,同时保留原意:
{ai_text}
改写结果:"""
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
inputs.input_ids,
max_new_tokens=512,
temperature=0.7,
top_p=0.9,
do_sample=True
)
paraphrased_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(paraphrased_text.split("改写结果:")[1].strip())
伦理考量
本模型出于研究目的发布,用于推进AI文本检测局限性与隐私保护技术的认知。我们强调以下伦理准则:
- 学术诚信:不得在需要区分人类/AI创作的学术场景中滥用
- 透明度:鼓励用户在使用AI辅助工具时保持创作透明度
- 隐私保护:主要合法用途是保护作者隐私,防止对合规AI辅助写作的歧视
- 研究价值:为AI检测系统局限性研究提供重要参考
引用
研究使用请引用:
@article{authormist2025,
title={AuthorMist: 基于强化学习的AI文本检测规避},
author={David, Isaac and Gervais, Arthur},
journal={arXiv预印本},
year={2025}
}
许可证
MIT许可证
致谢
感谢Qwen2.5开发团队提供基础模型,以及CheckGPT数据集创建者提供训练数据。