language: zh
tags:
- 嵌入模型
- 变换器
- 搜索
- 电子商务
- 对话式搜索
- 语义搜索
license: mit
pipeline_tag: 特征提取
VectorPath SearchMap:对话式电商搜索嵌入模型
模型描述
SearchMap是一款专为革新搜索体验而设计的嵌入模型,通过实现更自然的对话式搜索来提升交互直觉。我们以电商搜索为应用场景验证这一理念,基于Stella Embed 400M v5基础模型微调而成,擅长理解自然语言查询并匹配相关商品。
核心特性
- 针对对话式电商查询优化
- 处理复杂的自然语言搜索意图
- 支持多属性商品联合搜索
- 高效的1024维嵌入向量(可配置至8192维)
- 专为商品和酒店搜索场景定制
快速体验
欢迎通过我们的Colab交互演示试用模型!
技术细节
- 基础模型:Stella Embed 400M v5
- 嵌入维度:可配置(512/768/1024/2048/4096/6144/8192)
- 训练数据:覆盖32个品类的10万+电商商品
- 开源协议:MIT
- 框架支持:PyTorch/Sentence Transformers
使用指南
使用Sentence Transformers
!pip install -U torch==2.5.1 transformers==4.44.2 sentence-transformers==2.7.0 xformers==0.0.28.post3
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('vectopath/SearchMap_Preview', trust_remote_code=True)
query = "我和狗狗都能吃的宠物零食"
query_embedding = model.encode(query)
product_description = "有机花生酱宠物零食,人类可食用..."
product_embedding = model.encode(product_description)
结合FAISS实现向量搜索
import numpy as np
import faiss
embedding_dimension = 1024
index = faiss.IndexFlatL2(embedding_dimension)
product_embeddings = model.encode(product_descriptions, show_progress_bar=True)
index.add(np.array(product_embeddings).astype('float32'))
query_embedding = model.encode([query])
distances, indices = index.search(
np.array(query_embedding).astype('float32'),
k=10
)
典型查询示例
模型擅长理解以下自然语言查询:
- "适合长途飞行的降噪耳机"
- "夏日徒步用的轻量防水背包"
- "小户型适用的环保厨房用具"
- "适合整天站立工作的舒适鞋子"
- "我家4岁挑食宝宝爱吃的早餐麦片"
性能与局限
评估表现
模型指标详见MTEB排行榜
- 当前是参数量<10亿模型中表现最优异的,且因内存占用小易部署于普通GPU
- 在SemRel24STS任务中以81.12%准确率大幅领先第二名Gemini嵌入模型(73.14%,截至2025年3月30日)。该评测涵盖14种语言的语句语义相关性评估
- 在MTEB榜单的法律文书和新闻检索相似性任务中表现尤为突出
优势
- 卓越的对话式自然语言理解能力
- 电商和酒店搜索场景下的强劲表现
- 可解析复合属性查询条件
- 可调节的嵌入维度实现计算效率优化
当前局限
- 查询中的权重术语优先级处理有待加强
- 方言俚语理解能力有限
- 可能需要针对地区语言差异微调
训练方案
模型训练采用:
- 基于Sentence Transformers的监督学习
- 32个商品类别的10万+样本数据集
- AI生成的对话式搜索查询
- 对比学习使用的正负例商品样本
适用场景
本模型适用于:
- 电商商品搜索与推荐
- 酒店住宿检索
- 商品目录向量化
- 语义相似度匹配
- 查询意图理解与检测
引用规范
研究使用时请引用:
@misc{vectorpath2025searchmap,
title={SearchMap:对话式电商搜索嵌入模型},
author={VectorPath研究团队},
year={2025},
publisher={Hugging Face},
journal={HuggingFace模型库},
}
社区支持
许可协议
本模型采用MIT开源协议,详见LICENSE文件。