标签:
模型卡片:无监督SimCSE-BERT基础未编码版
模型详情
模型描述
需要更多信息
- 开发团队: 普林斯顿NLP小组
- 共享方[可选]: Hugging Face
- 模型类型: 特征提取
- 支持语言(NLP): 需要更多信息
- 许可协议: 需要更多信息
- 相关模型:
- 更多信息参考:
用途
直接使用
本模型可用于特征工程任务。
下游应用[可选]
需要更多信息
非适用范围
本模型不得用于故意制造针对特定人群的敌对或排斥环境。
偏见、风险与限制
大量研究已探讨语言模型的偏见与公平性问题(参见Sheng等人(2021)和Bender等人(2021))。模型预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
使用建议
应告知用户(包括直接使用方和下游应用方)本模型的风险、偏见和局限性。需要更多信息以提供进一步建议。
训练详情
训练数据
模型创建者在GitHub代码库中说明:
无监督版SimCSE使用从英文维基百科随机采样的106个句子训练,有监督版则结合MNLI和SNLI数据集(共314k条)进行训练。
训练流程
数据预处理
需要更多信息
速度、规模与耗时
需要更多信息
评估
测试数据、因素与指标
测试数据
模型创建者在关联论文中说明:
我们的句子嵌入评估代码基于修改版的SentEval。评估涵盖语义文本相似度(STS)任务和下游迁移任务。对于STS任务,评估采用"all"设置并报告Spearman相关系数。详见关联论文附录B。
影响因素
需要更多信息
评估指标
需要更多信息
结果
需要更多信息
模型检验
模型创建者在关联论文中指出:
一致性与对齐性。
我们发现:(1)虽然预训练嵌入具有良好对齐性,但其一致性较差(即嵌入呈现高度各向异性);(2)BERT-flow等后处理方法显著改善一致性但会损害对齐性;(3)无监督SimCSE在保持良好对齐性的同时有效提升预训练嵌入的一致性;(4)引入监督数据可进一步优化对齐性。
环境影响
碳排放量可通过Lacoste等人(2019)提出的机器学习影响计算器估算。
- 硬件类型: 配备CUDA 11的Nvidia 3090 GPU
- 使用时长: 需要更多信息
- 云服务商: 需要更多信息
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
技术规格[可选]
模型架构与目标
需要更多信息
计算基础设施
需要更多信息
硬件
需要更多信息
软件
需要更多信息
引用
BibTeX格式:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
术语表[可选]
需要更多信息
补充信息[可选]
需要更多信息
模型卡片作者[可选]
普林斯顿NLP小组与Ezi Ozoani及Hugging Face团队合作编写
联系方式
关于代码或论文的任何问题,请邮件联系田宇(tianyug@cs.princeton.edu
)和邢成(yxc18@mails.tsinghua.edu.cn
)。使用代码时遇到问题或发现漏洞,请提交issue。为获得更高效协助,请尽量提供详细的问题描述!
快速开始指南
以下代码可快速加载模型:
点击展开
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")