language:
- 日语
- 英语
license_name: sarahina非商业许可协议
license_link: LICENSE
tags:
- transformers
- 句子相似度
- 特征提取
- sentence-transformers
pipeline_tag: 句子相似度
inference: false
datasets:
- hpprc/emb
- cl-nagoya/auto-wiki-qa
- cl-nagoya/ruri-dataset-ft
- hpprc/mqa-ja
- izumi-lab/llm-japanese-dataset
- sentence-transformers/NQ-retrieval
- sbintuitions/JSQuAD
- SkelterLabsInc/JaQuAD
- wikimedia/wikipedia
- cl-nagoya/nu-mnli
- castorini/mr-tydi
Sarashina-Embedding-v1-1B
日本語のREADME/日语README
"更级嵌入模型v1-1B"是基于12亿参数日语大语言模型"更级2.1-1B"开发的日语文本嵌入模型。通过多阶段对比学习训练,该模型在JMTEB(日语海量文本嵌入基准)16个数据集的平均得分达到当前最优水平。
本模型能将句子和段落映射到1792维稠密向量空间,可用于语义文本相似度计算、语义搜索、复述挖掘、文本分类、聚类等场景。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: 更级2.1-1B
- 最大序列长度: 8,192个token
- 输出维度: 1,792维
- 相似度计算方式: 余弦相似度
- 支持语言: 日语
- 许可协议: 更级模型非商业许可协议
完整架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: LlamaModel
(1): Pooling({'word_embedding_dimension': 1792, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': False})
)
使用方式
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后加载模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sbintuitions/sarashina-embedding-v1-1b")
sentences = [
'《更级日记》是平安时代中期由菅原孝标女撰写的回忆录',
'Sarashina是SB Intuitions开发的日语大语言模型系列,已发布7B、13B、70B和8x70B等版本',
'更级嵌入模型是基于日语大语言模型的文本嵌入模型'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
注意事项
训练过程
"更级嵌入模型v1-1B"通过两阶段训练完成:
第一阶段:弱监督学习
为获得跨领域的通用文本嵌入能力,我们使用自主爬取的网络数据和公开数据构成的弱监督数据进行对比训练。
训练数据集
数据集 |
样本量 |
Auto Wiki QA/NLI |
50,521,135 |
自主爬取数据 |
47,370,649 |
MQA |
12,941,472 |
llm-japanese-dataset |
9,074,340 |
维基百科 |
5,555,212 |
自主构建问答数据 |
988,478 |
Natural Questions |
132,796 |
JSQuAD |
62,859 |
SNOW(T15+T23) |
62,758 |
JaQuAD |
31,746 |
MKQA |
3,318 |
|
|
总计 |
126,744,763 |
第二阶段:监督微调
为使模型更精准学习查询-文档相似度,我们使用以下数据集进行监督微调。
微调数据集
许可声明
本模型采用更级模型非商业许可协议。
如有商业使用需求,欢迎通过联系我们页面洽谈合作