🚀 mStyleDistance多语言风格嵌入模型
mStyleDistance是一个多语言风格嵌入模型,旨在将具有相似写作风格的文本紧密嵌入,而将不同风格的文本嵌入得更远,不受内容和语言的限制。该模型可用于多语言文本的风格分析、聚类、作者身份识别和验证任务,以及自动风格迁移评估。
🚀 快速开始
本仓库包含在论文 mStyleDistance: Multilingual Style Embeddings and their Evaluation 中介绍的模型。此模型是仅支持英语的 StyleDistance 模型的多语言版本。
✨ 主要特性
- 多语言支持:能够处理多种语言的文本,不受语言限制。
- 风格嵌入:将具有相似写作风格的文本紧密嵌入,不同风格的文本嵌入得更远,与内容无关。
- 广泛应用:可用于多语言文本的风格分析、聚类、作者身份识别和验证任务,以及自动风格迁移评估。
📦 安装指南
暂未提供安装步骤相关内容。
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim
model = SentenceTransformer('StyleDistance/mstyledistance') # 加载模型
input = model.encode("ÉL TIENE PROBLEMAS PARA LOGRAR LA TEMPERATURA ADECUADA PARA COCINAR LA GALLINA CORNISH.")
others = model.encode(["TOCARÁS LA GUITARRA CON TU AMIGO; SERÁ UNA EXCELENTE OPORTUNIDAD PARA MEJORAR TUS HABILIDADES MUSICALES.", "Él tiene problemas para lograr la temperatura adecuada para cocinar la gallina Cornish."])
print(cos_sim(input, others))
示例展示
以下是一些使用该模型进行风格分析的示例:
- 示例1
- 源句子:彼は技術的な複雑さと格闘し、彼の作品は驚くべき視覚的緊張を生み出した。
- 对比句子:
- Serviste mariscos frescos en el condado de Middlesex y áreas circundantes.
- Él sirvió mariscos frescos en el condado de Middlesex y áreas circundantes.
- 示例2
- 源句子:Bien sûr, ils termineront la construction du pont en une semaine.
- 对比句子:
- Oh, you mean when I single-handedly tackled that bespoke headboard project?
- Remember when I completed that bespoke headboard project on my own?
- 示例3
- 源句子:我将使用有限的色调和小尺寸进行像素艺术的简化和风格化设计。
- 对比句子:
- Я ценю ТТ-пистолет за его огневую мощь; его проникающая способность впечатляет меня.
- 你将使用有限的色调和小尺寸进行像素艺术的简化和风格化设计。
📚 详细文档
训练数据和变体
mStyleDistance在 mSynthSTEL 上进行对比训练,这是一个合成生成的数据集,包含约40种风格特征在9种非英语语言文本中的正负示例。通过利用这个合成数据集,mStyleDistance比目前可用的其他风格嵌入模型能够实现更强的内容独立性,并且能够处理多语言文本。
模型信息
属性 |
详情 |
基础模型 |
FacebookAI/xlm - roberta - base |
训练数据集 |
StyleDistance/mstyledistance_training_triplets |
库名称 |
sentence - transformers |
任务类型 |
特征提取 |
许可证 |
MIT |
标签 |
datadreamer, datadreamer - 0.35.0, synthetic, sentence - transformers, feature - extraction, sentence - similarity |
📄 许可证
本模型使用MIT许可证。
📖 引用
如果您使用了该模型,请引用以下论文:
@misc{qiu2025mstyledistancemultilingualstyleembeddings,
title={mStyleDistance: Multilingual Style Embeddings and their Evaluation},
author={Justin Qiu and Jiacheng Zhu and Ajay Patel and Marianna Apidianaki and Chris Callison-Burch},
year={2025},
eprint={2502.15168},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.15168},
}
🔖 训练信息
本模型使用 DataDreamer 🤖💤 生成的合成数据集进行训练。合成数据集卡片和模型卡片可在 这里 找到,训练参数可在 这里 找到。
💸 资金致谢
本研究部分得到了国家情报总监办公室(ODNI)、情报高级研究计划局(IARPA)通过HIATUS计划合同 #2022 - 22072200005的支持。本文所包含的观点和结论仅代表作者本人,不一定代表ODNI、IARPA或美国政府的官方政策,无论是明示还是暗示。美国政府有权为政府目的复制和分发重印本,无论其中的版权声明如何。