语言: 日语
任务标签: 句子相似度
标签:
- 句子转换器
- 特征提取
- 句子相似度
小部件示例:
源句: "喜欢跑步"
对比句:
- 喜欢在户外跑步
- 对运动一般般
- 讨厌跑步
许可证: 知识共享署名-相同方式共享4.0
日语基础版Sentence BERT模型
本仓库包含一个针对日语的Sentence BERT基础模型。
预训练模型
本模型采用日语BERT模型colorfulscoop/bert-base-ja v1.0作为预训练模型,该模型基于知识共享署名-相同方式共享3.0协议发布。
训练数据
训练使用了日语SNLI数据集,该数据集遵循知识共享署名-相同方式共享4.0协议。
原始训练集被划分为训练集/验证集,最终数据分布如下:
- 训练数据: 523,005条样本
- 验证数据: 10,000条样本
- 测试数据: 3,916条样本
模型架构
本模型基于sentence-transformers中的SentenceTransformer
构建,具体结构如下:
>>> from sentence_transformers import SentenceTransformer
>>> SentenceTransformer("colorfulscoop/sbert-base-ja")
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)
训练过程
本模型通过3分类Softmax分类器对SNLI数据进行微调。采用AdamW优化器,初始学习率2e-5,在前10%训练数据中进行线性预热。批量大小为8,训练1个epoch。
注:原版Sentence BERT论文中SNLI和Multi-Genre NLI训练的批量大小为16。由于本模型训练数据量约为原版一半,故将批量大小相应减半。
训练环境:Ubuntu 18.04.5 LTS系统,单卡RTX 2080 Ti。
测试集准确率达0.8529。
训练代码详见GitHub仓库。
使用方式
首先安装依赖:
$ pip install sentence-transformers==2.0.0
然后初始化模型并编码句子:
>>> from sentence_transformers import SentenceTransformer
>>> model = SentenceTransformer("colorfulscoop/sbert-base-ja")
>>> sentences = ["喜欢在户外跑步", "爱好是出国旅行"]
>>> model.encode(sentences)
许可证
版权所有 (c) 2021 Colorful Scoop
本仓库所有模型均遵循知识共享署名-相同方式共享4.0协议。
免责声明: 使用本模型需自行承担风险。Colorful Scoop不对模型输出作任何担保,对于因模型输出导致的任何问题、损失或损害不承担法律责任。
预训练模型来源
- 名称: bert-base-ja
- 版权: (c) 2021 Colorful Scoop
- 许可证: 知识共享署名-相同方式共享3.0
- 免责声明: 该模型可能生成与训练数据相似的文本、不真实内容或带有偏见的文本。使用风险自负,Colorful Scoop不承担任何法律责任。
- 链接: https://huggingface.co/colorfulscoop/bert-base-ja
微调数据来源