Gte Multilingual Legal 1e
这是一个从Alibaba-NLP/gte-multilingual-base微调而来的句子转换器模型,专为法律和行政文本的语义相似度任务优化,支持多语言处理。
下载量 26
发布时间 : 2/11/2025
模型简介
该模型将句子和段落映射到768维密集向量空间,可用于语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务,特别适用于法律和行政文档处理。
模型特点
法律文本优化
针对法律和行政文档进行微调,在处理正式文书和法规条文时表现优异
长文本处理能力
支持最大8192个标记的序列长度,适合处理法律条文等长文本
高精度语义匹配
在公共行政数据集上达到0.9997的余弦准确度,能精准识别法律条款间的关联性
模型能力
计算句子相似度
语义搜索
文本分类
文档聚类
法律条文匹配
多语言文本处理
使用案例
法律文书处理
法律条款匹配
自动匹配相关法律条款,辅助法律研究和文书起草
能准确识别具有相似法律效力的不同条文表述
合同条款审核
比较合同条款与标准法律文本的相似度
可检测合同条款与标准法律文本的偏差
行政文档管理
政策文件归类
根据内容相似度对政府公文自动分类
提高文档管理效率,减少人工分类错误
🚀 基于Alibaba-NLP/gte-multilingual-base的句子转换器
这是一个基于 Alibaba-NLP/gte-multilingual-base 微调的 sentence-transformers 模型。它可以将句子和段落映射到768维的密集向量空间,可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
🚀 快速开始
安装依赖库
首先,你需要安装 sentence-transformers
库:
pip install -U sentence-transformers
加载模型并进行推理
安装完成后,你可以加载模型并进行推理:
from sentence_transformers import SentenceTransformer
# 从 🤗 Hub 下载模型
model = SentenceTransformer("anhtuansh/gte-multilingual-legal-1e")
# 进行推理
sentences = [
'người tiếp_nhận hồ_sơ có trách_nhiệm gì trong quá_trình chứng_thực hợp_đồng , giao_dịch ?',
'điều 20 . chứng_thực hợp_đồng , giao_dịch tại bộ_phận tiếp_nhận và trả kết_quả theo cơ_chế một cửa , một cửa liên_thông \n 1 . trường_hợp người yêu_cầu chứng_thực hợp_đồng , giao_dịch nộp hồ_sơ trực_tiếp tại bộ_phận tiếp_nhận và trả kết_quả theo cơ_chế một cửa , một cửa liên_thông , thì các bên phải ký trước mặt người tiếp_nhận hồ_sơ . trường_hợp người giao_kết_hợp_đồng , giao_dịch là đại_diện của tổ_chức tín_dụng , doanh_nghiệp đã đăng_ký chữ_ký mẫu tại cơ_quan thực_hiện chứng_thực , thì người đó có_thể ký trước vào hợp_đồng , giao_dịch . người tiếp_nhận hồ_sơ có trách_nhiệm đối_chiếu chữ_ký trong hợp_đồng , giao_dịch với chữ_ký mẫu . nếu thấy chữ_ký trong hợp_đồng , giao_dịch khác chữ_ký mẫu , thì yêu_cầu người đó ký trước mặt người tiếp_nhận hồ_sơ . người tiếp_nhận hồ_sơ phải chịu trách_nhiệm về việc các bên đã ký trước mặt mình . \n 2 . người tiếp_nhận hồ_sơ có trách_nhiệm kiểm_tra giấy_tờ , hồ_sơ .',
'điều 8 . trị_giá tính thuế , thời_điểm tính thuế \n 1 . trị_giá tính thuế_xuất_khẩu , thuế_nhập_khẩu là trị_giá hải_quan theo quy_định của luật hải_quan . \n 2 . thời_điểm tính thuế_xuất_khẩu , thuế_nhập_khẩu là thời_điểm đăng_ký tờ khai hải_quan . đối_với hàng_hóa xuất_khẩu , nhập_khẩu thuộc đối_tượng không chịu thuế , miễn thuế_xuất_khẩu , thuế_nhập_khẩu hoặc áp_dụng thuế_suất , mức thuế tuyệt_đối trong hạn_ngạch thuế_quan nhưng được thay_đổi về đối_tượng không chịu thuế , miễn thuế , áp_dụng thuế_suất , mức thuế tuyệt_đối trong hạn_ngạch thuế_quan theo quy_định của pháp_luật thì thời_điểm tính thuế là thời_điểm đăng_ký tờ khai hải_quan mới . thời_điểm đăng_ký tờ khai hải_quan thực_hiện theo quy_định của pháp_luật về hải_quan .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
✨ 主要特性
模型细节
属性 | 详情 |
---|---|
模型类型 | 句子转换器 |
基础模型 | Alibaba-NLP/gte-multilingual-base |
最大序列长度 | 8192个标记 |
输出维度 | 768维 |
相似度函数 | 余弦相似度 |
模型来源
- 文档:Sentence Transformers 文档
- 代码仓库:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Sentence Transformers
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
📚 详细文档
评估指标
三元组任务
- 数据集:
public_administrative
- 评估方法:使用
TripletEvaluator
进行评估
指标 | 值 |
---|---|
余弦准确率 | 0.9997 |
训练详情
训练数据集
- 未命名数据集
- 大小:63,130 个训练样本
- 列名:
query
、positive
和negative
- 近似统计信息(基于前1000个样本):
| | 查询 | 正样本 | 负样本 |
| ---- | ---- | ---- | ---- |
| 类型 | 字符串 | 字符串 | 字符串 |
| 详情 |
- 最小:19个标记
- 平均:50.81个标记
- 最大:138个标记
- 最小:141个标记
- 平均:345.89个标记
- 最大:614个标记
- 最小:148个标记
- 平均:342.45个标记
- 最大:560个标记
- 样本示例:
| 查询 | 正样本 | 负样本 |
| ---- | ---- | ---- |
|
bộ tài_chính quy_định thế_nào về chi_phí cho cán_bộ , công_chức , viên_chức đi công_tác nước_ngoài để kiểm_tra tình_hình phát_triển của trẻ_em việt_nam được nhận làm con_nuôi ở nước_ngoài ?
|c ) chi công_tác_phí cho cán_bộ , công_chức , viên_chức đi công_tác nước_ngoài để kiểm_tra tình_hình phát_triển của trẻ_em việt_nam được nhận làm con_nuôi ở nước_ngoài ( nếu có ) thực_hiện theo quy_định tại thông_tư số 102 / 2012 / tt - btc ngày 21 / 6 / 2012 của bộ tài_chính quy_định_chế_độ công_tác_phí cho cán_bộ , công_chức nhà_nước đi công_tác ngắn_hạn ở nước_ngoài do ngân_sách nhà_nước bảo_đảm kinh_phí ;
|
d ) chi tập_huấn nghiệp_vụ cho văn_phòng con_nuôi nước_ngoài tại việt_nam được thực_hiện theo quy_định tại thông_tư số 139 / 2010 / tt - btc ngày 21 / 9 / 2010 của bộ tài_chính quy_định việc lập dự_toán , quản_lý và sử_dụng kinh_phí từ ngân_sách nhà_nước dành cho công_tác đào_tạo , bồi_dưỡng cán_bộ , công_chức ;điều 15 . nhiệm_vụ , quyền_hạn của bộ tài_chính
|
1 . là cơ_quan đầu_mối giúp chính_phủ thống_nhất quản_lý nhà_nước về tài_sản công .
2 . chủ_trì xây_dựng , trình cơ_quan , người có thẩm_quyền ban_hành_văn_bản quy_phạm_pháp_luật về :
a ) chế_độ quản_lý , sử_dụng tài_sản công tại cơ_quan , tổ_chức , đơn_vị ; việc phân_cấp thẩm_quyền quyết_định trong quản_lý , sử_dụng tài_sản công ;
b ) tiêu_chuẩn , định mức sử_dụng trụ_sở làm_việc , xe ô_tô , tài_sản công của cơ_quan đại_diện ngoại_giao , cơ_quan đại_diện lãnh_sự , cơ_quan đại_diện tại tổ_chức quốc_tế theo quy_định của pháp_luật về cơ_quan đại_diện của việt_nam ở nước_ngoài và cơ_quan , tổ_chức , đơn_vị khác của việt_nam ở nước_ngoài ( sau đây gọi là cơ_quan việt_nam ở nước_ngoài ) , máy_móc , thiết_bị và các tài_sản công được sử_dụng phổ_biến tại cơ_quan , tổ_chức , đơn_vị , trừ nhà ở công_vụ và tài_sản đặc_biệt tại đơn_vị lực_lượng vũ_trang nhân_dân ; - 损失函数:使用
MultipleNegativesRankingLoss
,参数如下:
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
评估数据集
- 未命名数据集
- 大小:7,015 个评估样本
- 列名:
query
、positive
和negative
- 近似统计信息(基于前1000个样本):
| | 查询 | 正样本 | 负样本 |
| ---- | ---- | ---- | ---- |
| 类型 | 字符串 | 字符串 | 字符串 |
| 详情 |
- 最小:20个标记
- 平均:50.59个标记
- 最大:103个标记
- 最小:168个标记
- 平均:345.73个标记
- 最大:559个标记
- 最小:166个标记
- 平均:344.68个标记
- 最大:557个标记
- 样本示例:
| 查询 | 正样本 | 负样本 |
| ---- | ---- | ---- |
|
cục y_tế dự_phòng có vai_trò gì trong việc xây_dựng và phát_triển các kế_hoạch hoạt_động phối_hợp trong phòng , chống bệnh lây_truyền từ động_vật sang người ?
|điều 13 . trách_nhiệm của cục y_tế dự_phòng - bộ y_tế
|
1 . đầu_mối của bộ y_tế phối_hợp với cục thú_y - bộ nông_nghiệp và phát_triển nông_thôn triển_khai các hoạt_động phối_hợp phòng , chống bệnh lây_truyền từ động_vật sang người .
2 . chỉ_đạo toàn_bộ các hoạt_động về phối_hợp giữa ngành y_tế và nông_nghiệp trong phòng , chống bệnh lây_truyền từ động_vật sang người đối_với các đơn_vị trong ngành y_tế .
3 . phối_hợp với cục thú_y - bộ nông_nghiệp và phát_triển nông_thôn xây_dựng , đề_xuất sửa_đổi các hướng_dẫn giám_sát bệnh lây_truyền từ động_vật sang người ; xây_dựng và phát_triển các kế_hoạch hoạt_động phối_hợp trong phòng , chống bệnh lây_truyền từ động_vật sang người .
4 . định_kỳ 6 tháng_một lần , tổ_chức họp giao_ban với cục thú_y - bộ nông_nghiệp và phát_triển nông_thôn và các đơn_vị liên_quan để đánh_giá hoạt_động phối_hợp trong giám_sát phòng , chống bệnh lây_truyền từ động_vật sang người .khoản 1 . chi thường_xuyên :
|
a ) chi thanh_toán cá_nhân : tiền_lương , tiền công , phụ_cấp lương , các khoản đóng_góp theo lương ( bảo_hiểm xã_hội , bảo_hiểm y_tế , bảo_hiểm_thất_nghiệp ( nếu có ) , kinh_phí công_đoàn ) ; tiền khen_thưởng thành_tích theo danh_hiệu thi_đua và các khoản thanh_toán khác cho cá_nhân ;
b ) chi quản_lý hành_chính : chi thanh_toán dịch_vụ công_cộng ; vật_tư văn_phòng ; thông_tin tuyên_truyền , liên_lạc ; hội_nghị ; chi công_tác_phí ; chi thuê_mướn ; sửa_chữa , bảo_trì , bảo_dưỡng thường_xuyên tài_sản cố_định và các khoản chi hành_chính khác ;
c ) chi hoạt_động nghiệp_vụ : mua_sắm vật_tư , hàng_hóa dùng cho chuyên_môn , nghiệp_vụ ; thiết_bị an_toàn kho_quỹ , thiết_bị kiểm_đếm ; ấn chỉ các loại ; trang_phục , bảo_hộ lao_động ; các khoản nghiệp_vụ kiểm_đếm , đảo kho , điều_chuyển , bảo_vệ an_toàn kho , tiền , vàng_bạc , đá_quý , ngoại_tệ và các chứng_chỉ có_giá ; bảo_quản , lưu_trữ tài_liệu , chứng_từ ; các khoản nghiệp_vụ khác ;
d ) chi_phối_hợp tổ_chức... - 损失函数:使用
MultipleNegativesRankingLoss
,参数如下:
{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
训练超参数
非默认超参数
per_device_train_batch_size
:2per_device_eval_batch_size
:2learning_rate
:2e-05num_train_epochs
:1warmup_ratio
:0.05bf16
:Truebatch_sampler
:no_duplicates
所有超参数
点击展开
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 2per_device_eval_batch_size
: 2per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.05warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
训练日志
点击展开
轮次 | 步数 | 训练损失 | 公共行政数据集余弦准确率 |
---|---|---|---|
0 | 0 | - | 0.9946 |
0.0032 | 100 | 0.1097 | - |
0.0063 | 200 | 0.0885 | - |
0.0095 | 300 | 0.0852 | - |
0.0127 | 400 | 0.0465 | - |
0.0158 | 500 | 0.0196 | - |
0.0190 | 600 | 0.0273 | - |
0.0222 | 700 | 0.0262 | - |
0.0253 | 800 | 0.0354 | - |
0.0285 | 900 | 0.0071 | - |
0.0317 | 1000 | 0.0177 | - |
0.0348 | 1100 | 0.0262 | - |
0.0380 | 1200 | 0.0259 | - |
0.0412 | 1300 | 0.0231 | - |
0.0444 | 1400 | 0.0259 | - |
0.0475 | 1500 | 0.0163 | - |
0.0507 | 1600 | 0.0142 | - |
0.0539 | 1700 | 0.0176 | - |
0.0570 | 1800 | 0.0118 | - |
0.0602 | 1900 | 0.0195 | - |
0.0634 | 2000 | 0.0215 | - |
0.0665 | 2100 | 0.0238 | - |
0.0697 | 2200 | 0.0092 | - |
0.0729 | 2300 | 0.0091 | - |
0.0760 | 2400 | 0.0079 | - |
0.0792 | 2500 | 0.0184 | - |
0.0824 | 2600 | 0.0277 | - |
0.0855 | 2700 | 0.016 | - |
0.0887 | 2800 | 0.0057 | - |
0.0919 | 2900 | 0.0061 | - |
0.0950 | 3000 | 0.0084 | - |
0.0982 | 3100 | 0.0097 | - |
0.1014 | 3200 | 0.0186 | - |
0.1045 | 3300 | 0.0055 | - |
0.1077 | 3400 | 0.0188 | - |
0.1109 | 3500 | 0.0047 | - |
0.1141 | 3600 | 0.0089 | - |
0.1172 | 3700 | 0.0114 | - |
0.1204 | 3800 | 0.0163 | - |
0.1236 | 3900 | 0.0092 | - |
0.1267 | 4000 | 0.0178 | - |
0.1299 | 4100 | 0.0044 | - |
0.1331 | 4200 | 0.0117 | - |
0.1362 | 4300 | 0.005 | - |
0.1394 | 4400 | 0.0129 | - |
0.1426 | 4500 | 0.0095 | - |
0.1457 | 4600 | 0.0032 | - |
0.1489 | 4700 | 0.0119 | - |
0.1521 | 4800 | 0.0067 | - |
0.1552 | 4900 | 0.0152 | - |
0.1584 | 5000 | 0.0085 | - |
0.1616 | 5100 | 0.007 | - |
0.1647 | 5200 | 0.0101 | - |
0.1679 | 5300 | 0.0024 | - |
0.1711 | 5400 | 0.0034 | - |
0.1742 | 5500 | 0.0074 | - |
0.1774 | 5600 | 0.0067 | - |
0.1806 | 5700 | 0.0136 | - |
0.1837 | 5800 | 0.0046 | - |
0.1869 | 5900 | 0.0068 | - |
0.1901 | 6000 | 0.0238 | - |
0.1933 | 6100 | 0.0175 | - |
0.1964 | 6200 | 0.0045 | - |
0.1996 | 6300 | 0.0198 | - |
0.2028 | 6400 | 0.0081 | - |
0.2059 | 6500 | 0.0015 | - |
0.2091 | 6600 | 0.0093 | - |
0.2123 | 6700 | 0.0051 | - |
0.2154 | 6800 | 0.0028 | - |
0.2186 | 6900 | 0.0058 | - |
0.2218 | 7000 | 0.0047 | - |
0.2249 | 7100 | 0.0091 | - |
0.2281 | 7200 | 0.0052 | - |
0.2313 | 7300 | 0.0109 | - |
0.2344 | 7400 | 0.0101 | - |
0.2376 | 7500 | 0.0106 | - |
0.2408 | 7600 | 0.0065 | - |
0.2439 | 7700 | 0.017 | - |
0.2471 | 7800 | 0.0054 | - |
0.2503 | 7900 | 0.0029 | - |
0.2534 | 8000 | 0.0113 | - |
0.2566 | 8100 | 0.0084 | - |
0.2598 | 8200 | 0.0137 | - |
0.2629 | 8300 | 0.0141 | - |
0.2661 | 8400 | 0.0027 | - |
0.2693 | 8500 | 0.0024 | - |
0.2725 | 8600 | 0.0057 | - |
0.2756 | 8700 | 0.0068 | - |
0.2788 | 8800 | 0.0329 | - |
0.2820 | 8900 | 0.0021 | - |
0.2851 | 9000 | 0.0125 | - |
0.2883 | 9100 | 0.0027 | - |
0.2915 | 9200 | 0.0155 | - |
0.2946 | 9300 | 0.0036 | - |
0.2978 | 9400 | 0.036 | - |
0.3010 | 9500 | 0.0112 | - |
0.3041 | 9600 | 0.0035 | - |
0.3073 | 9700 | 0.0056 | - |
0.3105 | 9800 | 0.0028 | - |
0.3136 | 9900 | 0.0179 | - |
0.3168 | 10000 | 0.0056 | - |
0.3200 | 10100 | 0.0085 | - |
0.3231 | 10200 | 0.0251 | - |
0.3263 | 10300 | 0.0101 | - |
0.3295 | 10400 | 0.0086 | - |
0.3326 | 10500 | 0.0019 | - |
0.3358 | 10600 | 0.0031 | - |
0.3390 | 10700 | 0.0171 | - |
0.3422 | 10800 | 0.0018 | - |
0.3453 | 10900 | 0.0058 | - |
0.3485 | 11000 | 0.0058 | - |
0.3517 | 11100 | 0.0044 | - |
0.3548 | 11200 | 0.0234 | - |
0.3580 | 11300 | 0.0029 | - |
0.3612 | 11400 | 0.0014 | - |
0.3643 | 11500 | 0.0085 | - |
0.3675 | 11600 | 0.0042 | - |
0.3707 | 11700 | 0.0047 | - |
0.3738 | 11800 | 0.017 | - |
0.3770 | 11900 | 0.0047 | - |
0.3802 | 12000 | 0.0024 | - |
0.3833 | 12100 | 0.0065 | - |
0.3865 | 12200 | 0.0161 | - |
0.3897 | 12300 | 0.009 | - |
0.3928 | 12400 | 0.0015 | - |
0.3960 | 12500 | 0.0044 | - |
0.3992 | 12600 | 0.0028 | - |
0.4023 | 12700 | 0.0084 | - |
0.4055 | 12800 | 0.0094 | - |
0.4087 | 12900 | 0.0161 | - |
0.4118 | 13000 | 0.0022 | - |
0.4150 | 13100 | 0.0046 | - |
0.4182 | 13200 | 0.0032 | - |
0.4214 | 13300 | 0.0026 | - |
0.4245 | 13400 | 0.0182 | - |
0.4277 | 13500 | 0.0035 | - |
0.4309 | 13600 | 0.0082 | - |
0.4340 | 13700 | 0.004 | - |
0.4372 | 13800 | 0.0038 | - |
0.4404 | 13900 | 0.0026 | - |
0.4435 | 14000 | 0.0037 | - |
0.4467 | 14100 | 0.0025 | - |
0.4499 | 14200 | 0.0016 | - |
0.4530 | 14300 | 0.0012 | - |
0.4562 | 14400 | 0.0036 | - |
0.4594 | 14500 | 0.0011 | - |
0.4625 | 14600 | 0.0048 | - |
0.4657 | 14700 | 0.0058 | - |
0.4689 | 14800 | 0.0049 | - |
0.4720 | 14900 | 0.0029 | - |
0.4752 | 15000 | 0.0028 | - |
0.4784 | 15100 | 0.0104 | - |
0.4815 | 15200 | 0.0077 | - |
0.4847 | 15300 | 0.0027 | - |
0.4879 | 15400 | 0.0049 | - |
0.4911 | 15500 | 0.0065 | - |
0.4942 | 15600 | 0.0044 | - |
0.4974 | 15700 | 0.0076 | - |
0.5006 | 15800 | 0.0072 | - |
0.5037 | 15900 | 0.0027 | - |
0.5069 | 16000 | 0.0011 | - |
0.5101 | 16100 | 0.0183 | - |
0.5132 | 16200 | 0.0005 | - |
0.5164 | 16300 | 0.0035 | - |
0.5196 | 16400 | 0.0065 | - |
0.5227 | 16500 | 0.0182 | - |
0.5259 | 16600 | 0.0022 | - |
0.5291 | 16700 | 0.0041 | - |
0.5322 | 16800 | 0.0074 | - |
0.5354 | 16900 | 0.002 | - |
0.5386 | 17000 | 0.0013 | - |
0.5417 | 17100 | 0.0012 | - |
0.5449 | 17200 | 0.0064 | - |
0.5481 | 17300 | 0.0029 | - |
0.5512 | 17400 | 0.0058 | - |
0.5544 | 17500 | 0.0027 | - |
0.5576 | 17600 | 0.0051 | - |
0.5607 | 17700 | 0.01 | - |
0.5639 | 17800 | 0.005 | - |
0.5671 | 17900 | 0.0083 | - |
0.5703 | 18000 | 0.0009 | - |
0.5734 | 18100 | 0.0034 | - |
0.5766 | 18200 | 0.0015 | - |
0.5798 | 18300 | 0.0012 | - |
0.5829 | 18400 | 0.0034 | - |
0.5861 | 18500 | 0.0012 | - |
0.5893 | 18600 | 0.0027 | - |
0.5924 | 18700 | 0.0176 | - |
0.5956 | 18800 | 0.0019 | - |
0.5988 | 18900 | 0.0032 | - |
0.6019 | 19000 | 0.0028 | - |
0.6051 | 19100 | 0.0014 | - |
0.6083 | 19200 | 0.0015 | - |
0.6114 | 19300 | 0.0013 | - |
0.6146 | 19400 | 0.009 | - |
0.6178 | 19500 | 0.0053 | - |
0.6209 | 19600 | 0.0029 | - |
0.6241 | 19700 | 0.0219 | - |
0.6273 | 19800 | 0.0018 | - |
0.6304 | 19900 | 0.0023 | - |
0.6336 | 20000 | 0.0011 | - |
0.6368 | 20100 | 0.0421 | - |
0.6399 | 20200 | 0.007 | - |
0.6431 | 20300 | 0.0025 | - |
0.6463 | 20400 | 0.0125 | - |
0.6495 | 20500 | 0.0018 | - |
0.6526 | 20600 | 0.0023 | - |
0.6558 | 20700 | 0.0024 | - |
0.6590 | 20800 | 0.0013 | - |
0.6621 | 20900 | 0.0029 | - |
0.6653 | 21000 | 0.008 | - |
0.6685 | 21100 | 0.0008 | - |
0.6716 | 21200 | 0.0008 | - |
0.6748 | 21300 | 0.0013 | - |
0.6780 | 21400 | 0.0017 | - |
0.6811 | 21500 | 0.0016 | - |
0.6843 | 21600 | 0.0028 | - |
0.6875 | 21700 | 0.0006 | - |
0.6906 | 21800 | 0.0107 | - |
0.6938 | 21900 | 0.0048 | - |
0.6970 | 22000 | 0.0118 | - |
0.7001 | 22100 | 0.0203 | - |
0.7033 | 22200 | 0.0014 | - |
0.7065 | 22300 | 0.0024 | - |
0.7096 | 22400 | 0.0152 | - |
0.7128 | 22500 | 0.0026 | - |
0.7160 | 22600 | 0.0056 | - |
0.7192 | 22700 | 0.0031 | - |
0.7223 | 22800 | 0.0009 | - |
0.7255 | 22900 | 0.0008 | - |
0.7287 | 23000 | 0.0013 | - |
0.7318 | 23100 | 0.0054 | - |
0.7350 | 23200 | 0.0096 | - |
0.7382 | 23300 | 0.0018 | - |
0.7413 | 23400 | 0.0063 | - |
0.7445 | 23500 | 0.0018 | - |
0.7477 | 23600 | 0.0045 | - |
0.7508 | 23700 | 0.0013 | - |
0.7540 | 23800 | 0.0022 | - |
0.7572 | 23900 | 0.0023 | - |
0.7603 | 24000 | 0.0037 | - |
0.7635 | 24100 | 0.0092 | - |
0.7667 | 24200 | 0.0013 | - |
0.7698 | 24300 | 0.0033 | - |
0.7730 | 24400 | 0.0039 | - |
0.7762 | 24500 | 0.0035 | - |
0.7793 | 24600 | 0.0015 | - |
0.7825 | 24700 | 0.0058 | - |
0.7857 | 24800 | 0.0016 | - |
0.7888 | 24900 | 0.0076 | - |
0.7920 | 25000 | 0.0024 | - |
0.7952 | 25100 | 0.0009 | - |
0.7984 | 25200 | 0.0059 | - |
0.8015 | 25300 | 0.0004 | - |
0.8047 | 25400 | 0.0046 | - |
0.8079 | 25500 | 0.0017 | - |
0.8110 | 25600 | 0.0025 | - |
0.8142 | 25700 | 0.0072 | - |
0.8174 | 25800 | 0.0025 | - |
0.8205 | 25900 | 0.007 | - |
0.8237 | 26000 | 0.0111 | - |
0.8269 | 26100 | 0.0019 | - |
0.8300 | 26200 | 0.0106 | - |
0.8332 | 26300 | 0.0015 | - |
0.8364 | 26400 | 0.0019 | - |
0.8395 | 26500 | 0.0038 | - |
0.8427 | 26600 | 0.0051 | - |
0.8459 | 26700 | 0.0033 | - |
0.8490 | 26800 | 0.0058 | - |
0.8522 | 26900 | 0.0011 | - |
0.8554 | 27000 | 0.0023 | - |
0.8585 | 27100 | 0.0015 | - |
0.8617 | 27200 | 0.0041 | - |
0.8649 | 27300 | 0.0008 | - |
0.8681 | 27400 | 0.0013 | - |
0.8712 | 27500 | 0.0022 | - |
0.8744 | 27600 | 0.0031 | - |
0.8776 | 27700 | 0.0017 | - |
0.8807 | 27800 | 0.0005 | - |
0.8839 | 27900 | 0.0008 | - |
0.8871 | 28000 | 0.0019 | - |
0.8902 | 28100 | 0.0018 | - |
0.8934 | 28200 | 0.0071 | - |
0.8966 | 28300 | 0.0031 | - |
0.8997 | 28400 | 0.0015 | - |
0.9029 | 28500 | 0.0009 | - |
0.9061 | 28600 | 0.0029 | - |
0.9092 | 28700 | 0.0017 | - |
0.9124 | 28800 | 0.0008 | - |
0.9156 | 28900 | 0.0193 | - |
0.9187 | 29000 | 0.0006 | - |
0.9219 | 29100 | 0.0063 | - |
0.9251 | 29200 | 0.007 | - |
0.9282 | 29300 | 0.0006 | - |
0.9314 | 29400 | 0.0038 | - |
0.9346 | 29500 | 0.0032 | - |
0.9377 | 29600 | 0.001 | - |
0.9409 | 29700 | 0.0028 | - |
0.9441 | 29800 | 0.0004 | - |
0.9473 | 29900 | 0.0024 | - |
0.9504 | 30000 | 0.0005 | - |
0.9536 | 30100 | 0.0014 | - |
0.9568 | 30200 | 0.0007 | - |
0.9599 | 30300 | 0.0013 | - |
0.9631 | 30400 | 0.0016 | - |
0.9663 | 30500 | 0.0009 | - |
0.9694 | 30600 | 0.002 | - |
0.9726 | 30700 | 0.0075 | - |
0.9758 | 30800 | 0.0025 | - |
0.9789 | 30900 | 0.002 | - |
0.9821 | 31000 | 0.0009 | - |
0.9853 | 31100 | 0.0022 | - |
0.9884 | 31200 | 0.0063 | - |
0.9916 | 31300 | 0.0073 | - |
0.9948 | 31400 | 0.0014 | - |
0.9979 | 31500 | 0.0008 | - |
1.0 | 31565 | - | 0.9997 |
框架版本
- Python:3.10.12
- Sentence Transformers:3.3.1
- Transformers:4.49.0.dev0
- PyTorch:2.5.1+cu121
- Accelerate:1.2.1
- Datasets:3.2.0
- Tokenizers:0.21.0
📄 许可证
BibTeX 引用
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文