一个用于句子相似度计算的预训练模型,能够将句子转换为高维向量空间中的嵌入表示,并计算它们之间的语义相似度。
下载量 20
发布时间 : 1/26/2025
模型介绍
内容详情
替代品
模型简介
该模型基于sentence-transformers/all-MiniLM-L6-v2架构,专门用于句子相似度计算和特征提取。它可以将句子转换为向量表示,并通过计算向量间的相似度来衡量句子的语义相似性。
模型特点
高效的句子嵌入
能够将句子转换为高维向量表示,捕捉句子的语义信息。
多种相似度度量
支持多种相似度度量方法,包括余弦相似度、欧几里得距离、曼哈顿距离等。
小规模高效模型
基于MiniLM架构,模型规模较小但性能高效,适合资源有限的环境。
模型能力
句子相似度计算
句子特征提取
语义搜索
文本匹配
使用案例
信息检索
问答系统
用于匹配用户问题与候选答案的语义相似度。
在STS开发集上达到0.569的皮尔逊余弦相似度。
文本分类
重复问题检测
识别Quora等平台上的重复问题。
在Quora重复问题开发集上达到0.794的准确率。
标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:1622
- 损失函数:CoSENTLoss 基础模型: sentence-transformers/all-MiniLM-L6-v2 小部件:
- 源句子: 将开展哪些类型的活动向工人通报传播计划中的变更?
句子:
- "关闭计划 - Salares Norte矿场 | 111 \n\n\n来源: SRK \n图8-31: ROM堆场底部与平台边缘之间的隔离距离 4.473 \n特性 \n尾矿库由预先过滤的尾矿堆积组成,这些尾矿将被堆放在南废石场中间平台(海拔4,432米)上,该平台将分层建造,每层30至40厘米,通过振动压路机压实,湿度含量低于20%。尾矿库的基底,即山体边坡和废石场的倾斜表面,将通过覆盖约533,672平方米的土工膜进行防渗处理。尾矿的平均日堆积速率约为6千吨/天。尾矿库的特性如下所示。 \n表8-20: 尾矿库特性 \n特性 近似值 单位 \n体积 14.8 百万立方米 \n最大容量 24.1 百万吨 \n设计容量 22.2 百万吨 \n最大面积 54 公顷 \n设计面积 51.7 公顷 \n最高海拔 4,472 米 \n设计最高海拔 4,469.2 米 \n最低海拔 4,432 米"
- "接下来审查的是Doña Rosa过滤尾矿库停止运营后考虑的基本方面。 \n3.11.4.1. 关闭阶段适用法规 \n尾矿库的关闭计划将按照智利现行法律法规构建,这些法规规范了与矿物处理产生的此类废物堆积或存放相关的安全和环境影响方面。主要考虑的法规包括以下条例: \n· 矿业安全条例 \n· 卫生部第594/1999号最高法令 \n3.11.4.2. 需进行的工程 \n本部分描述了Doña Rosa过滤尾矿库关闭计划中将包括的工程以及工程的控制和维护活动。这些工程旨在满足现行法律法规的要求,并且"
- "在目标公众层面,传播计划的实施策略考虑以下内容: \n\na) 工人 \n与工人举行信息会议,详细通报即将发生且已逐步传达的变更。应强调关闭计划的所有技术和操作方面。一对一的信息应由人力资源管理部门处理。 \nb) 社区"
- 源句子: 尾矿库底壁的高度是多少?
句子:
- "40 \n此外,猛禽的丰富多样性尤为突出,尤其是数量众多的鹰类,显示出动态的种群,有多种繁殖事件的记录,如巢穴、幼鸟、亚成鸟和求偶行为。 \n在发现的物种中,有12种面临保护问题,其中哺乳动物如原驼、骆马和山兔濒临灭绝。 \n\n5.1.9. 景观 \n\n当地景观以道路和矿场基础设施为特征,这些元素自古以来就定义了人类在该地区的存在。该地区的自然景观主要由阿塔卡马沙漠系统的物理和生物条件主导,即干旱和几乎完全没有动植物。该地区没有宣布为旅游或风景名胜区。 \n\n5.1.10. 自然灾害 \n\n关于大规模移动的风险,可以指出研究区域对应于古代大型冲积沉积区,其影响现在对应于构成地表的上层沉积物。 \n\n研究区域的大规模移动风险为中低水平,能够通过如引导、渠道化和雨水排水沟等民用工程进行缓解,避免冲刷并促进雨水转化为地表径流。"
- "关闭计划 - Salares Norte矿场 | 95 \n\n表8-13: 南废石场稳定性分析标准 \n条件 最小安全系数 \n短期 \n(运营期) \n表面破坏 静态 1.0 \n地震(1) \n深层破坏 静态 1.5 \n地震 1.2 \n长期 \n(关闭后) \n表面破坏 静态 1.1 \n地震(1) \n深层破坏 静态 1.5 \n地震 1.1 \n(1): 材料通过卡车倾倒堆放,保持其自然休止角。表面破坏可能发生,但安全平台将防止材料进一步滑动。 \n对于涉及过滤尾矿库的分析,无论是单独还是与南废石场一起,短期的最小安全系数静态情况下为1.5,地震情况下为1.2。长期情况下,地震条件下的最小安全系数为1.1。 \n稳定性分析获得的安全系数见表8-14和表8-15。所有分析表明,无论是南废石场的设计,还是过滤尾矿库的设计,单独或组合均符合安全系数的设计标准。 \n深层破坏分析已纳入涉及整个尾矿库的安全系数最小值的确定,以及涉及2或3个台阶的破坏,这些可能比涉及整个尾矿库的破坏更为关键。"
- "SERNAGEOMIN评估的背景包括: \n2006年矿业和能源部第248号法令 \n尾矿库设计、建设、运营和关闭项目批准条例 \n\nEIA或DIA指出尾矿库的位置,包括: \n第14条c款。 \n- 尾矿库所在社区的规划图(如果有)或社区或省份的规划图。 \n- 到选矿厂和附近人口中心的距离。 \n- 尾矿库位置图,比例1:2,500,标明其主要顶点的UTM坐标。 \n- 在适当比例的UTM坐标图上说明受影响的水文流域。 \n第14条f款。 - 提交地质、岩土、水文、水文地质、地震、气象、地形背景资料。 \n第14条q款。 \n- 确定危险距离(公里)及实地情况分析。 \n- 尾矿库坍塌事件中最可能的尾矿路径所影响的水文流域图。 \n第14条r款。 - 根据情况,控制、缓解、恢复和补偿事故、紧急情况和自然灾害影响的措施。"
- 源句子: 指出尾矿库的最大高度
句子:
- "工作将主要使用推土机进行,估计覆盖面积为31,410平方米(1号库)和51,604平方米(2号库)。 \n\nv. 在库表面和边坡上铺设植被土层 \n将在碎石库的表面和边坡上铺设0.3米厚的植被土层,以限制降雨的渗透。覆盖材料将从当地土方工程中提取。工作将使用常规机械进行,估计1号和2号碎石库的覆盖体积分别为9,423立方米和15,481.2立方米。 \n\nvi. 库表面的平整 \n将对碎石库表面进行平整,使其形成“圆顶”或“凸面”几何形状,以避免雨水积聚。通过这种形状,表面将能够将积聚的水泵送至台阶边坡,自然排入收集渠和沉淀池。估计覆盖面积为31,410平方米(1号库)和51,604平方米(2号库)。 \n\nvii. 关闭通道"
- "为了控制管道排放的水速,已考虑设置跌落室以减小坡度,从而将最大速度控制在5.5米/秒。此外,还设计了一个缓冲结构,产生一个受控的水跃,然后将水流引向一个最终排入容量约为3,000立方米的应急池的渠道。 \n有关设计工程的更多细节,请参阅本报告的水力设计部分和第85_11382_H004_应急池图纸。 \n在这些设计条件下,预计将完全控制来自库区外部的雨水以及直接降落在库区的雨水。"
- "44 \nRCA 安装承诺 \n干尾矿库 \n将对堆积尾矿的边坡和表面进行保护处理,通过铺设一层粗料或其他专门设计的合适材料,防止颗粒物排放。在此之前,边坡将被重新修整,形成单一、平缓的坡度,避免任何小规模溢出或“滴漏”,并便于后续铺设上述保护层。同时,将设置标识标明尾矿库覆盖区域。 \n0256/2010 氰化物仓库 \n将拆除该产品存储仓库的基础设施,作为矿山其他单元、工厂和服务基础设施拆除的一部分,按照关闭计划的规定进行。 \n209/2012 Quillota采场 \n- 最终配置将对应于开采最后一年的配置。 \n- Guanaco矿业公司将分析Quillota采场和废石场的最终安全性,并采取相应的技术措施,确保采场台阶和所有进入通道的长期稳定性和封闭。 \n- 将安装标明“已关闭”工作或区域的标识。 \n- 此外,Guanaco矿业公司将安装必要的标识,警告进入废石场和采场的潜在风险。 \n- 将稳定Quillota采场和废石场的边坡。"
- 源句子: 指出是否使用修正普氏、标准或常规方法压实过滤尾矿,以及压实水平
句子:
- "该计划将包括每年两次检查。这些检查可以轻松整合到其他持续的检查和监测活动中。还预计在大洪水发生后将需要检查和/或维修。 \n最终报告 \n作为运营结束的一部分,将编写尾矿库关闭条件的最终报告,包含截至关闭日期的基本技术方面。该报告将至少包括以下方面: \n· 记录最终达到的尺寸和几何形状的地形图。 \n· 存储材料的体积。 \n· 根据岩土勘探活动,过滤尾矿库中堆积和固结材料的密度和湿度剖面。 \n· 结构的稳定性。 \n3.11.4.3. 废物管理 \n在关闭阶段将产生家庭和非危险工业废物。废物管理将按照SCMET的废物管理计划进行。"
- "x 雨水溢出,积聚在尾矿库盆地区域,来自周边区域和直接降落在其上的雨水。考虑到以下对周边渠道的要求;即,其容量应足以收集外部流域产生的雨水,与20年重现期相关,从而能够避免这些雨水进入尾矿库。根据这一标准和当前条件,渠道不满足这些要求(详见附录2,水力设计技术报告)。 \n\nII. 坝体稳定性: \nx 砂质材料边坡在静态和动态条件下的稳定性。 \n考虑到最近的地震背景和法规,必须确保坝体的稳定性。详细分析见附录3,边坡稳定性技术报告,采用两种荷载条件: \nx 静态荷载条件。仅考虑材料自重引起的应力状态。此外,模型中还包括可能的极端地下水位作用; \nx 地震荷载条件。使用拟静力法模拟。对于地震事件,最大加速度仅持续几分之一秒。拟静力分析保守地模拟地震事件,加速度和方向恒定,即作为无限脉冲。"
- "南废石场的中间配置及分析断面 ................................................................ 12 \n图8-3. ICOLD最大可信地震下的隔离距离验证(过滤尾矿库与平台4432边缘)............................................................... 14 \n图8-4. ICOLD最大可信地震下的隔离距离验证(矿石堆场与平台4473)........................................................................................................ 15 \n图8-5. 尾矿库假设破坏情况下的影响距离示意图 ............ 16 \n图8-6. 尾矿库和南废石场假设破坏情况下的影响距离示意图 .............................................................................................................................. 17 \n\n附录 \n附录A: 最终配置稳定性分析 \n附录B: 中间配置稳定性分析"
- 源句子: 南废石场短期静态表面破坏的最小安全系数是多少?
句子:
- "尽管如此,本临时关闭计划已根据专家判断对下表中指出的风险进行了分析。 \n表3-3: 评估的辅助和配套设施风险。 \n设施 评估风险 \n辅助和配套设施 \nIA.1) 人员或动物从高处坠落 \nIA.2) 物体或材料坠落砸伤人员或动物 \nIA.3) 结构、材料和/或污染土壤对人员健康的影响 \n来源: MYMA编制, 2019 \n3.1 风险评估 \na) 定义关闭措施前的风险评估 \n一旦确定事件发生的概率及其对人员和环境的后果严重性,应对风险的可接受限度进行分类。"
- "关闭计划 - Salares Norte矿场 | 95 \n\n表8-13: 南废石场稳定性分析标准 \n条件 最小安全系数 \n短期 \n(运营期) \n表面破坏 静态 1.0 \n地震(1) \n深层破坏 静态 1.5 \n地震 1.2 \n长期 \n(关闭后) \n表面破坏 静态 1.1 \n地震(1) \n深层破坏 静态 1.5 \n地震 1.1 \n(1): 材料通过卡车倾倒堆放,保持其自然休止角。表面破坏可能发生,但安全平台将防止材料进一步滑动。 \n对于涉及过滤尾矿库的分析,无论是单独还是与南废石场一起,短期的最小安全系数静态情况下为1.5,地震情况下为1.2。长期情况下,地震条件下的最小安全系数为1.1。 \n稳定性分析获得的安全系数见表8-14和表8-15。所有分析表明,无论是南废石场的设计,还是过滤尾矿库的设计,单独或组合均符合安全系数的设计标准。 \n深层破坏分析已纳入涉及整个尾矿库的安全系数最小值的确定,以及涉及2或3个台阶的破坏,这些可能比涉及整个尾矿库的破坏更为关键。"
- "过滤尾矿库的设计在其最终配置中考虑了尾矿底部与南废石场平台4,432边缘之间90米的隔离距离,如图8-22所示。 \n该距离旨在避免南废石场的任何破坏影响过滤尾矿库的性能。 \n\n来源: SRK \n图8-22: 过滤尾矿库与平台4,432边缘之间的隔离距离" 管道标签: 句子相似度 库名称: sentence-transformers 指标:
- 皮尔逊余弦
- 斯皮尔曼余弦
- 皮尔逊欧几里得
- 斯皮尔曼欧几里得
- 皮尔逊曼哈顿
- 斯皮尔曼曼哈顿
- 皮尔逊点积
- 斯皮尔曼点积
- 皮尔逊最大值
- 斯皮尔曼最大值
- 余弦准确率
- 余弦准确率阈值
- 余弦F1
- 余弦F1阈值
- 余弦精确率
- 余弦召回率
- 余弦AP
- 欧几里得准确率
- 欧几里得准确率阈值
- 欧几里得F1
- 欧几里得F1阈值
- 欧几里得精确率
- 欧几里得召回率
- 欧几里得AP
- 曼哈顿准确率
- 曼哈顿准确率阈值
- 曼哈顿F1
- 曼哈顿F1阈值
- 曼哈顿精确率
- 曼哈顿召回率
- 曼哈顿AP
- 点积准确率
- 点积准确率阈值
- 点积F1
- 点积F1阈值
- 点积精确率
- 点积召回率
- 点积AP
- 最大值准确率
- 最大值准确率阈值
- 最大值F1
- 最大值F1阈值
- 最大值精确率
- 最大值召回率
- 最大值AP 模型索引:
- 名称: 基于sentence-transformers/all-MiniLM-L6-v2的SentenceTransformer
结果:
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts开发集
类型: sts_dev
指标:
- 类型: 皮尔逊余弦 值: 0.5693948496372567 名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦 值: 0.5455714394030226 名称: 斯皮尔曼余弦
- 类型: 皮尔逊欧几里得 值: 0.5739611056710028 名称: 皮尔逊欧几里得
- 类型: 斯皮尔曼欧几里得 值: 0.5455714394030226 名称: 斯皮尔曼欧几里得
- 类型: 皮尔逊曼哈顿 值: 0.5797473609677822 名称: 皮尔逊曼哈顿
- 类型: 斯皮尔曼曼哈顿 值: 0.553447054259303 名称: 斯皮尔曼曼哈顿
- 类型: 皮尔逊点积 值: 0.5693948483606246 名称: 皮尔逊点积
- 类型: 斯皮尔曼点积 值: 0.5455714394030226 名称: 斯皮尔曼点积
- 类型: 皮尔逊最大值 值: 0.5797473609677822 名称: 皮尔逊最大值
- 类型: 斯皮尔曼最大值 值: 0.553447054259303 名称: 斯皮尔曼最大值
- 任务:
类型: 二元分类
名称: 二元分类
数据集:
名称: quora重复问题开发集
类型: quora_duplicates_dev
指标:
- 类型: 余弦准确率 值: 0.7938461538461539 名称: 余弦准确率
- 类型: 余弦准确率阈值 值: 0.5778889060020447 名称: 余弦准确率阈值
- 类型: 余弦F1 值: 0.696 名称: 余弦F1
- 类型: 余弦F1阈值 值: 0.5186799764633179 名称: 余弦F1阈值
- 类型: 余弦精确率 值: 0.7016129032258065 名称: 余弦精确率
- 类型: 余弦召回率 值: 0.6904761904761905 名称: 余弦召回率
- 类型: 余弦AP 值: 0.8070386734063438 名称: 余弦AP
- 类型: 欧几里得准确率 值: 0.6153846153846154 名称: 欧几里得准确率
- 类型: 欧几里得准确率阈值 值: -1.2038187980651855 名称: 欧几里得准确率阈值
- 类型: 欧几里得F1 值: 0.5555555555555556 名称: 欧几里得F1
- 类型: 欧几里得F1阈值 值: -0.5824911594390869 名称: 欧几里得F1阈值
- 类型: 欧几里得精确率 值: 0.38580246913580246 名称: 欧几里得精确率
- 类型: 欧几里得召回率 值: 0.9920634920634921 名称: 欧几里得召回率
- 类型: 欧几里得AP 值: 0.2643967106429702 名称: 欧几里得AP
- 类型: 曼哈顿准确率 值: 0.6153846153846154 名称: 曼哈顿准确率
- 类型: 曼哈顿准确率阈值 值: -18.68866729736328 名称: 曼哈顿准确率阈值
- 类型: 曼哈顿F1 值: 0.5555555555555556 名称: 曼哈顿F1
- 类型: 曼哈顿F1阈值 值: -9.128787994384766 名称: 曼哈顿F1阈值
- 类型: 曼哈顿精确率 值: 0.38580246913580246 名称: 曼哈顿精确率
- 类型: 曼哈顿召回率 值: 0.9920634920634921 名称: 曼哈顿召回率
- 类型: 曼哈顿AP 值: 0.2631529584545813 名称: 曼哈顿AP
- 类型: 点积准确率 值: 0.7938461538461539 名称: 点积准确率
- 类型: 点积准确率阈值 值: 0.5778889060020447 名称: 点积准确率阈值
- 类型: 点积F1 值: 0.696 名称: 点积F1
- 类型: 点积F1阈值 值: 0.5186799764633179 名称: 点积F1阈值
- 类型: 点积精确率 值: 0.7016129032258065 名称: 点积精确率
- 类型: 点积召回率 值: 0.6904761904761905 名称: 点积召回率
- 类型: 点积AP 值: 0.8070386734063438 名称: 点积AP
- 类型: 最大值准确率 值: 0.7938461538461539 名称: 最大值准确率
- 类型: 最大值准确率阈值 值: 0.5778889060020447 名称: 最大值准确率阈值
- 类型: 最大值F1 值: 0.696 名称: 最大值F1
- 类型: 最大值F1阈值 值: 0.5186799764633179 名称: 最大值F1阈值
- 类型: 最大值精确率 值: 0.7016129032258065 名称: 最大值精确率
- 类型: 最大值召回率 值: 0.9920634920634921 名称: 最大值召回率
- 类型: 最大值AP 值: 0.8070386734063438 名称: 最大值AP
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts开发集
类型: sts_dev
指标:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文