标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:1879136
- 损失函数:缓存GIST嵌入损失
许可证: MIT
评估指标:
- 召回率
- 精确率
- F1分数
基础模型:
- BAAI/bge-m3
库名称: sentence-transformers
🔎 KURE-v1
介绍韩国大学检索嵌入模型KURE-v1
该模型在韩语文本检索中表现出色,尤其显著优于大多数多语言嵌入模型。
据我们所知,这是目前公开可用的最佳韩语检索模型之一。
详情请访问KURE代码库
模型版本
模型说明
这是发布在Hugging Face Hub上的transformers模型卡片。
使用示例
安装依赖
首先安装Sentence Transformers库:
pip install -U sentence-transformers
Python代码
加载模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("nlpai-lab/KURE-v1")
sentences = [
'宪法与法院组织法通过何种方式保障基本权利等多元法律探索',
'4.启示与改进方向 如前所述,我国宪法和《法院组织法》将最高法院构成的多元化作为保障基本权利和确立民主主义的根本规范。此外,采用合议制最高法院原则也被解释为要求构成多样性。从这一角度来看,以现任法院院长级高级法官为核心组成最高法院的惯例似乎需要改进。',
'联邦宪法法院于2001年1月24日以5:3多数意见判决《法院组织法》第169条第2款符合宪法 ○ 5名多数法官以保护诉讼当事人人格权、保障公正程序以及不受干扰的法律和真相发现等为由,认为绝对禁止电视拍摄符合宪法 ○ 但其余3名法官认为行政诉讼程序中不存在特殊人格权保护利益,且电视公开原则并不总是危及法律和真相发现过程,提出反对意见 ○ 因为在行政诉讼程序中,诉讼当事人亲自出庭的情况较少,大多由律师代理,且审理对象多为法律问题而非事实问题 □ 另一方面,联邦宪法法院根据《联邦宪法法院法》(BVerfGG)第17a条有限允许审判广播 ○ 虽然《联邦宪法法院法》第17条规定准用《法院组织法》第14至16节规定,但在录音或拍摄审判公开方面规定了与《法院组织法》不同的内容',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
训练详情
训练数据
KURE-v1
- 韩语查询-文档-困难负样本(5)数据
- 2,000,000个样本
训练过程
- 损失函数: 使用sentence-transformers的缓存GIST嵌入损失
- 批大小: 4096
- 学习率: 2e-05
- 训练轮次: 1
评估
评估指标
基准数据集
结果
以下是所有模型在所有基准数据集上的平均结果。
详细结果请参见KURE Github。
Top-1结果
模型 |
平均召回率_top1 |
平均精确率_top1 |
平均NDCG_top1 |
平均F1_top1 |
nlpai-lab/KURE-v1 |
0.52640 |
0.60551 |
0.60551 |
0.55784 |
(后续表格内容保持相同格式翻译...)
引用
如果您觉得我们的论文或模型有帮助,请考虑引用:
@misc{KURE,
publisher = {张永俊, 孙俊英, 李泰民},
year = {2024},
url = {https://github.com/nlpai-lab/KURE}
},
@misc{KoE5,
author = {NLP与人工智能实验室及人类启发AI研究},
title = {KoE5:提升韩语嵌入性能的新数据集与模型},
year = {2024},
publisher = {张永俊, 孙俊英, 李泰民},
journal = {GitHub仓库},
howpublished = {\url{https://github.com/nlpai-lab/KoE5}},
}