🚀 xlm-roberta-large-english-cap-minor-platforms
本模型基于xlm-roberta-large
,在英文训练数据上进行微调。这些数据使用了来自比较议程项目的次要主题代码进行标注,可用于零样本分类和文本分类等任务。
🚀 快速开始
模型使用
以下是使用该模型进行文本分类的示例代码:
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large")
pipe = pipeline(
model="poltextlab/xlm-roberta-large-english-cap-minor-platforms",
task="text-classification",
tokenizer=tokenizer,
use_fast=False,
token="<your_hf_read_only_token>"
)
text = "We will place an immediate 6-month halt on the finance driven closure of beds and wards, and set up an independent audit of needs and facilities."
pipe(text)
gated访问说明
由于该模型采用了gated访问机制,在加载模型时必须传递token
参数。在早期版本的Transformers包中,可能需要使用use_auth_token
参数代替。
✨ 主要特性
- 多语言支持:支持多种语言,适用于不同语言环境下的文本分类任务。
- 微调优化:基于
xlm-roberta-large
模型在英文训练数据上进行微调,提高了特定任务的性能。
- 与CAP集成:使用了比较议程项目的次要主题代码进行标注,与该项目的研究紧密结合。
📚 详细文档
模型性能
该模型在包含8922个示例(占可用数据的20%)的测试集上进行了评估,具体指标如下:
推理平台
此模型被CAP Babel Machine使用,这是一个开源且免费的自然语言处理工具,旨在简化和加速比较研究项目。
合作事宜
通过扩展训练集可以显著提高模型性能。我们欢迎大家提交任何领域和语言的CAP编码语料库,可通过发送邮件至poltextlab{at}poltextlab{dot}com或使用CAP Babel Machine进行提交。
调试与问题解决
该模型架构使用了sentencepiece
分词器。在transformers==4.27
之前的版本中运行该模型,需要手动安装sentencepiece
。
如果在使用from_pretrained()
方法加载模型时遇到RuntimeError
,添加ignore_mismatched_sizes=True
参数应该可以解决问题。
📄 许可证
本模型采用MIT许可证。
⚠️ 重要提示
我们的模型仅用于学术用途。如果您不属于学术机构,请提供使用我们模型的理由。请允许我们在几个工作日内手动审核订阅申请。
💡 使用建议
在使用模型时,请确保按照上述说明正确传递token
参数,以避免因访问权限问题导致模型加载失败。同时,在早期版本的Transformers包中,注意使用use_auth_token
参数代替token
。