library_name: transformers
tags:
- 文本改写
license: mit
pipeline_tag: summarization
模型卡片
《改写可逃避AI生成文本检测器,但检索是有效防御手段》论文提出了一种强大的语篇改写模型DIPPER。
DIPPER是基于google/t5-efficient-xxl构建的大模型,并在630万数据点上进行了微调。
我在此提出一个轻量级、非上下文感知的等效版本,以降低使用成本。
本模型基于google/t5-large-nl32构建,并在10万数据点上进行了微调。
值得注意的是,这些数据点均不包含上下文信息。如需深入了解该主题,请参阅原始论文。
用于微调本模型的数据集:数据集
模型详情
模型描述
这是发布在Hugging Face Hub上的🤗 transformers模型卡片,内容为自动生成。
模型来源
用途
本模型旨在实现可控文本改写。所用数据集鼓励通过词汇(单词)和语序(段落结构)参数来控制改写强度。
具体使用方法请参见示例代码。
直接使用
模型可直接使用,无需额外微调(但支持进一步微调)。
下游应用
本模型基于T5检查点微调。如需迁移学习,建议直接从基础模型google/t5-large-nl32开始。
推荐建议
若条件允许,推荐使用更强大的DIPPER模型。
本模型性能足够强劲,在使用facebook/opt-2.7b模型进行困惑度评分时,表现优于基于句子的ChatGPT改写器。
快速开始
使用以下代码即可运行模型。
训练详情
训练数据
训练数据见:kpar3-no-ctx
预处理仅包含通过google/t5-efficient-large-nl32分词器进行的分词处理。
数据为标准改写对,但每对首元素包含"lexical = x"和"order = y"参数。
x和y取值于{0, 20, 40, 60, 80, 100},表示改写强度。
例如:"lexical = 0"表示应最大限度替换词汇,同时保持原意;
"order = 0"表示应最大限度重组段落结构。
数据集参数值仅以20为增量。
训练超参数
学习率 = 1e-4
bf16 = True
训练轮数 = 2
自动批处理大小 = True
生成束搜索数 = 2
生成最大长度 = 200
训练效率
在NVIDIA GTX 3090显卡上,10万数据点的微调耗时约14 GPU小时。
使用示例
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("google/t5-efficient-large-nl32")
model = AutoModelForSeq2SeqLM.from_pretrained("SamSJackson/paraphrase-dipper-no-ctx")
model = model.to(device)
text = "每周三,我都会带着爱犬去中央公园散步。"
lexical = 20
order = 40
prompt = f"lexical = {lexical}, order = {order} {text}"
input_ids = tokenizer(
prompt,
return_tensors='pt',
padding="longest",
max_length=1000,
truncation=True,
).to(device)
outputs = model.generate(
**input_ids,
top_p=0.75,
do_sample=True,
max_new_tokens=300,
)
response = tokenizer.batch_decode(outputs, skip_special_tokens=True)
response = f"{' '.join(response)}"
print(response)
引用
BibTeX:
@misc{krishna2023paraphrasing,
title={Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense},
author={Kalpesh Krishna and Yixiao Song and Marzena Karpinska and John Wieting and Mohit Iyyer},
year={2023},
eprint={2303.13408},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
联系方式
如有疑问,请通过Hugging Face平台联系我。