标签:
模型卡片:无监督SimCSE-BERT大号未编码版本
模型详情
模型描述
需要更多信息
-
开发团队: 普林斯顿NLP小组
-
共享方 [可选]: 普林斯顿NLP小组
-
模型类型: 特征提取
-
支持语言 (NLP): 需要更多信息
-
许可协议: 需要更多信息
-
基础模型: BERT
-
更多信息参考资源:
用途
直接用途
本模型可用于特征提取任务。
下游用途 [可选]
需要更多信息。
非适用场景
该模型不应被用于故意制造针对人群的敌对或疏远环境。
偏差、风险与局限性
大量研究已探讨语言模型中的偏差与公平性问题(参见Sheng等人(2021)和Bender等人(2021))。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
建议
应让用户(包括直接使用者和下游使用者)充分了解模型的潜在风险、偏差和局限性。需要更多信息以提供进一步建议。
训练详情
训练数据
模型创建者在关联GitHub仓库中说明:
我们从英文维基百科随机采样106个句子进行无监督SimCSE训练,并在MNLI和SNLI数据集组合(314k条)上进行有监督训练。
训练流程
数据预处理
需要更多信息
速度、规模与耗时
超参数设置
模型创建者在关联GitHub仓库中说明:
|
无监督BERT |
有监督 |
批处理量 |
64 |
512 |
学习率 (大模型) |
1e-5 |
1e-5 |
评估
测试数据、因素与指标
测试数据
模型创建者在关联论文中说明:
我们的句子嵌入评估代码基于修改版的SentEval,评估内容包括语义文本相似度(STS)任务和下游迁移任务。
对于STS任务,我们采用"all"设置并报告Spearman相关系数。详见关联论文附录B。
评估因素
需要更多信息
评估指标
需要更多信息
评估结果
需要更多信息
模型分析
模型创建者在关联论文中指出:
一致性与对齐性
我们发现:(1)预训练嵌入虽具良好对齐性,但一致性较差(即嵌入呈现高度各向异性);(2)BERT-flow等后处理方法显著改善一致性但损害对齐性;(3)无监督SimCSE在保持良好对齐性的同时有效提升预训练嵌入的一致性;(4)引入监督数据可进一步优化对齐性。
环境影响
碳排放量可通过Lacoste等人(2019)提出的机器学习影响计算器估算。
- 硬件类型: 配备CUDA 11的Nvidia 3090 GPU
- 使用时长: 需要更多信息
- 云服务商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格 [可选]
模型架构与目标
需要更多信息
计算基础设施
需要更多信息
硬件配置
需要更多信息
软件环境
需要更多信息
引用
BibTeX格式:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
术语表 [可选]
需要更多信息
补充信息 [可选]
需要更多信息
模型卡片作者 [可选]
普林斯顿NLP小组与Ezi Ozoani及Hugging Face团队合作编写。
联系方式
如有代码或论文相关问题,请联系田宇(tianyug@cs.princeton.edu
)和姚行成(yxc18@mails.tsinghua.edu.cn
)。使用代码遇到问题或需报告错误,请提交issue。建议详细描述问题以便更快获得帮助!
快速开始
以下代码可快速加载模型:
点击展开
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")