语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
许可证: MIT
库名称: sentence-transformers
标签:
- 韩语
- sentence-transformers
- transformers
- 多语言
- sentence-transformers
- 句子相似度
- 特征提取
基础模型: intfloat/multilingual-e5-small
数据集: []
指标:
- 皮尔逊余弦
- 斯皮尔曼余弦
- 皮尔逊曼哈顿
- 斯皮尔曼曼哈顿
- 皮尔逊欧几里得
- 斯皮尔曼欧几里得
- 皮尔逊点积
- 斯皮尔曼点积
- 皮尔逊最大值
- 斯皮尔曼最大值
小部件:
- 源句子: 埃及军队镇压兄弟会
句子:
- 埃及军队镇压穆斯林兄弟会
- 阿根廷的吉列尔莫·科里亚和荷兰的马丁·巴克尔的另一场半决赛也很有吸引力。
- 认为这可能是真的很有趣。
- 源句子: 哦,并再次主张婚姻是一项基本人权。
句子:
- 特别是在说婚姻是一项基本人权之后。
- 海滩上的黑人和他的狗...
- 伊朗声称其核计划是出于和平目的
- 源句子: 一个男孩从蓝色塑料滑梯上跳下来。
句子:
- 孩子们在玩耍
- 一个男孩从红色塑料梯子的顶部跳下来。
- 有一个滑梯。
- 源句子: 感官主义者故意在没有性高潮的情况下进行性行为。她喜欢蜡烛,正在写关于涂油身体的文章。
句子:
- 感官主义者希望在性行为中体验性高潮。
- 但每晚进行全国直播的质询比画画要困难得多,所以小姐。
- 感官主义者故意在没有性高潮的情况下进行性行为。
- 源句子: 乔治·沙欣曾在安达信咨询业务部门工作。
句子:
- 心跳加快了。
- 安达信咨询仍然是一个蓬勃发展的业务。
- 当安达信咨询业务部门(现称为埃森哲)的前管理合伙人乔治·沙欣表示支持时,这一点最为明显,当时安达信管理层选择了拉里·温巴赫作为安达信全球的管理合伙人,而不是我在英国安达信业务部门的合伙人吉姆·瓦迪亚。
管道标签: 句子相似度
模型索引:
- 名称: upskyy/e5-small-korean
结果:
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts开发集
类型: sts-dev
指标:
- 类型: 皮尔逊余弦
值: 0.8479945412588525
名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦
值: 0.8466656037931976
名称: 斯皮尔曼余弦
- 类型: 皮尔逊曼哈顿
值: 0.8309207821128262
名称: 皮尔逊曼哈顿
- 类型: 斯皮尔曼曼哈顿
值: 0.8372540023545114
名称: 斯皮尔曼曼哈顿
- 类型: 皮尔逊欧几里得
值: 0.8328087877425099
名称: 皮尔逊欧几里得
- 类型: 斯皮尔曼欧几里得
值: 0.8395342346643203
名称: 斯皮尔曼欧几里得
- 类型: 皮尔逊点积
值: 0.8212157223150336
名称: 皮尔逊点积
- 类型: 斯皮尔曼点积
值: 0.8225569441483638
名称: 斯皮尔曼点积
- 类型: 皮尔逊最大值
值: 0.8479945412588525
名称: 皮尔逊最大值
- 类型: 斯皮尔曼最大值
值: 0.8466656037931976
名称: 斯皮尔曼最大值
upskyy/e5-small-korean
该模型是基于intfloat/multilingual-e5-small进行korsts和kornli微调的模型。它将句子和段落映射到384维的密集向量空间,可用于语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用
使用(Sentence-Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后可以加载该模型并运行推理。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("upskyy/e5-small-korean")
sentences = [
'一位带着孩子的妈妈在海滩上散步。',
'两个人在海滩上散步。',
'一个男人在海滩上遛狗。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
使用(HuggingFace Transformers)
不使用sentence-transformers时,可以这样使用模型:
首先,将输入通过transformer模型传递,然后需要在上下文化的词嵌入之上应用正确的池化操作。
from transformers import AutoTokenizer, AutoModel
import torch
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0]
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
sentences = ["你好吗?", "这是一个用于韩语句子嵌入的BERT模型。"]
tokenizer = AutoTokenizer.from_pretrained("upskyy/e5-small-korean")
model = AutoModel.from_pretrained("upskyy/e5-small-korean")
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")
with torch.no_grad():
model_output = model(**encoded_input)
sentence_embeddings = mean_pooling(model_output, encoded_input["attention_mask"])
print("句子嵌入:")
print(sentence_embeddings)
评估
指标
语义相似度
指标 |
值 |
皮尔逊余弦 |
0.848 |
斯皮尔曼余弦 |
0.8467 |
皮尔逊曼哈顿 |
0.8309 |
斯皮尔曼曼哈顿 |
0.8373 |
皮尔逊欧几里得 |
0.8328 |
斯皮尔曼欧几里得 |
0.8395 |
皮尔逊点积 |
0.8212 |
斯皮尔曼点积 |
0.8226 |
皮尔逊最大值 |
0.848 |
斯皮尔曼最大值 |
0.8467 |