库名称:transformers
许可证:mit
数据集:
- nlpai-lab/ko-triplet-v1.0
语言:
- 韩语
- 英语
基础模型:
- intfloat/multilingual-e5-large
管道标签:特征提取
🔎 KoE5
介绍KoE5,一款具备先进检索能力的模型。
该模型在韩语文本检索中展现出卓越性能。
详情请访问KURE代码库
模型版本
模型描述
这是发布在Hugging Face Hub上的transformers模型卡片。
示例代码
安装依赖
首先安装Sentence Transformers库:
pip install -U sentence-transformers
Python代码
加载模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("nlpai-lab/KoE5")
sentences = [
'query: 宪法和法院组织法通过什么方式保障基本权利等多样化的法律探索',
'passage: 4. 启示与改进方向 如前所述,我国宪法和《法院组织法》将最高法院组成多元化作为保障基本权利和确立民主主义的根本规范,以实现多角度的法律探索。此外,采用合议制最高法院原则也被解释为要求组成多样性。从这一角度来看,以现任法院院长级高级法官为中心组成最高法院的惯例似乎需要改进。',
'passage: □ 联邦宪法法院于2001年1月24日以5:3的多数意见裁定《法院组织法》第169条第2款符合宪法 ○ 5名多数法官以保护诉讼关系人的人格权、保障公正程序以及不受阻碍地发现法律和事实等为由,认为绝对禁止电视拍摄符合宪法 ○ 但其余3名法官提出反对意见,认为行政诉讼程序中没有特别的人格权保护利益,且电视公开原则并不总是会危及法律和事实的发现过程 ○ 因为在行政诉讼程序中,诉讼当事人很少亲自出庭,大多由律师代理,且审理对象多为法律问题而非事实问题 □ 另一方面,联邦宪法法院根据《联邦宪法法院法》(BVerfGG)第17a条有限度地允许庭审转播 ○ 《联邦宪法法院法》第17条规定准用《法院组织法》第14至16节的规定,但在录音或拍摄导致的庭审公开方面,规定了与《法院组织法》不同的内容',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
训练详情
训练数据
训练过程
评估
评估指标
基准数据集
结果
以下是所有模型在所有基准数据集上的平均结果。
详细结果请参见KURE Github。
Top-1检索
模型 |
平均召回率_top1 |
平均精确率_top1 |
平均NDCG_top1 |
平均F1_top1 |
nlpai-lab/KURE-v1 |
0.52640 |
0.60551 |
0.60551 |
0.55784 |
dragonkue/BGE-m3-ko |
0.52361 |
0.60394 |
0.60394 |
0.55535 |
BAAI/bge-m3 |
0.51778 |
0.59846 |
0.59846 |
0.54998 |
Snowflake/snowflake-arctic-embed-l-v2.0 |
0.51246 |
0.59384 |
0.59384 |
0.54489 |
nlpai-lab/KoE5 |
0.50157 |
0.57790 |
0.57790 |
0.53178 |
(后续表格内容保持原有格式翻译,此处省略完整表格以节省篇幅)
常见问题
- 是否需要为输入文本添加"query: "和"passage: "前缀?
是的,这是模型的训练方式,否则会导致性能下降。
经验法则:
- 非对称任务(如开放QA中的段落检索、特定信息检索)应分别使用"query: "和"passage: "前缀
- 对称任务(如语义相似度、双语文本挖掘、复述检索)使用"query: "前缀
- 特征提取任务(如线性探测分类、聚类)使用"query: "前缀
引用
如果觉得我们的论文或模型有帮助,请参考以下引用格式:
@misc{KURE,
publisher = {张永俊, 孙俊英, 李泰民},
year = {2024},
url = {https://github.com/nlpai-lab/KURE}
},
@misc{KoE5,
author = {NLP与AI实验室及人类启发式AI研究所},
title = {KoE5:提升韩语嵌入性能的新数据集与模型},
year = {2024},
publisher = {张永俊, 孙俊英, 李泰民},
journal = {GitHub代码库},
howpublished = {\url{https://github.com/nlpai-lab/KoE5}},
}
局限性
长文本会被截断至最多512个token。