标签:
Baikal-情感球模型卡片
模型详情
模型描述
需补充更多信息
-
开发团队: 普林斯顿NLP小组
-
共享方 [可选]: 普林斯顿NLP小组
-
模型类型: 特征提取
-
支持语言 (NLP): 需补充更多信息
-
许可协议: 需补充更多信息
-
基础模型: BERT
-
更多资源:
用途
直接用途
该模型可用于特征提取任务。
下游用途 [可选]
需补充更多信息。
非适用场景
该模型不得用于蓄意制造针对特定群体的敌对或排斥环境。
偏见、风险与局限性
大量研究已探讨语言模型的偏见与公平性问题(参见Sheng等人(2021)和Bender等人(2021))。模型生成的预测可能包含针对受保护群体、身份特征以及敏感社会职业群体的有害刻板印象。
使用建议
用户(包括直接使用者和下游开发者)应充分了解模型的风险、偏见和局限性。需补充具体建议信息。
训练详情
训练数据
模型创建者在GitHub仓库中说明:
无监督SimCSE训练使用从英文维基百科随机采样的106个句子,有监督SimCSE训练结合了MNLI和SNLI数据集(共314k条)。
训练流程
数据预处理
需补充更多信息
速度、规模与耗时
需补充更多信息
评估
测试数据、因素与指标
测试数据
模型创建者在相关论文中说明:
我们的句子嵌入评估代码基于修改版的SentEval,评估涵盖语义文本相似度(STS)任务和下游迁移任务。
对于STS任务,评估采用"all"设置并报告Spearman相关系数。详见论文附录B。
影响因素
需补充更多信息
评估指标
需补充更多信息
结果
需补充更多信息
模型分析
模型创建者在相关论文中指出:
均匀性与对齐性
我们发现:(1) 预训练嵌入虽具良好对齐性,但均匀性较差(即嵌入呈现高度各向异性);(2) BERT-flow等后处理方法显著改善均匀性但会损害对齐性;(3) 无监督SimCSE在保持良好对齐性的同时有效提升预训练嵌入的均匀性;(4) 引入监督数据可进一步优化对齐性。
环境影响
碳排放量可通过Lacoste等人(2019)提出的机器学习影响计算器估算。
- 硬件类型: NVIDIA 3090 GPU(CUDA 11)
- 使用时长: 需补充更多信息
- 云服务商: 需补充更多信息
- 计算区域: 需补充更多信息
- 碳排放量: 需补充更多信息
技术规格 [可选]
模型架构与目标
需补充更多信息
计算基础设施
需补充更多信息
硬件
需补充更多信息
软件
需补充更多信息
引用
BibTeX格式:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
术语表 [可选]
需补充更多信息
扩展信息 [可选]
需补充更多信息
模型卡片作者 [可选]
普林斯顿NLP小组与Ezi Ozoani及Hugging Face团队合作编写。
联系方式
关于代码或论文的问题请联系田宇(tianyug@cs.princeton.edu
)和姚行诚(yxc18@mails.tsinghua.edu.cn
)。使用代码遇到问题可提交issue,请详细描述问题以便快速解决。
快速开始
通过以下代码快速使用模型:
点击展开
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")
model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-bert-large-uncased")