基础模型: FacebookAI/roberta-base
数据集:
- SynthSTEL/styledistance_training_triplets
- StyleDistance/synthstel
语言:
- en
库名称: sentence-transformers
许可证: mit
管道标签: sentence-similarity
标签:
- datadreamer
- datadreamer-0.35.0
- synthetic
- sentence-transformers
- feature-extraction
- sentence-similarity
小部件示例:
- 示例标题: 示例1
源句: 你听说威尔士边锋的事了吗?他因伤将不得不退出未来的比赛。
对比句:
- 我们正在筹集资金改善学校储物设施和添置新游乐设备!
- 你听说威尔士边锋的事了吗?他因伤将遗憾退出未来的比赛。
- 示例标题: 示例2
源句: 你策划了DesignMeets Decades of Design活动;执行得堪称完美。
对比句:
- 我们将很难证明小偷没有面临真实威胁!
- 你筹办了DesignMeets Decades of Design聚会;实现得无懈可击。
- 示例标题: 示例3
源句: 威廉·巴尔是否坚持承诺让罗伯特·穆勒完成调查?
对比句:
- 这位艺术家会制作音乐专辑吗,还是未来会有其他侧重方向?
- 威廉·巴尔是否坚持承诺让罗伯特·穆勒完成调查?
模型卡片
本仓库包含论文《StyleDistance: 通过合成平行样本构建更强的内容无关风格嵌入》提出的模型。
StyleDistance是一种风格嵌入模型,旨在将写作风格相似的文本紧密嵌入,不同风格的文本远离嵌入,而不受内容影响。该模型可用于文本风格分析、聚类、作者身份识别与验证任务,以及自动风格转换评估。
训练数据与模型变体
StyleDistance基于SynthSTEL数据集进行对比训练,该合成数据集包含40种风格特征在文本中使用的正负例样本。通过使用这种合成数据,StyleDistance相比现有风格嵌入模型能实现更强的内容独立性。本特定模型结合了合成数据集与利用Reddit作者数据集训练风格嵌入的真实数据集进行训练。如需纯合成数据训练的版本,请参见StyleDistance纯合成版。
使用示例
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
model = SentenceTransformer('StyleDistance/styledistance') # 加载模型
input = model.encode("你听说威尔士边锋的事了吗?他因伤将不得不退出未来的比赛。")
others = model.encode(["我们正在筹集资金改善学校储物设施和添置新游乐设备!", "你听说威尔士边锋的事了吗?他因伤将遗憾退出未来的比赛。"])
print(cos_sim(input, others))
引用文献
@misc{patel2025styledistancestrongercontentindependentstyle,
title={StyleDistance: 通过合成平行样本构建更强的内容无关风格嵌入},
author={Ajay Patel and Jiacheng Zhu and Justin Qiu and Zachary Horvitz and Marianna Apidianaki and Kathleen McKeown and Chris Callison-Burch},
year={2025},
eprint={2410.12757},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.12757},
}
DataDreamer训练说明
本模型使用DataDreamer 🤖💤生成的合成数据集进行训练。合成数据集卡片和模型卡片参见此处。训练参数参见此处。
资金声明
本研究部分受美国国家情报总监办公室(ODNI)下属情报高级研究计划局(IARPA)通过HIATUS计划合同#2022-22072200005资助。本文所述观点和结论仅代表作者立场,不应视为ODNI、IARPA或美国政府的官方政策或认可。美国政府有权为政府目的复制和分发本研究成果,无论其版权标注如何。