FRIDA-GGUF开源文本嵌入模型 - 免费支持俄英文本处理应用

首页

FRIDA GGUF

由 evilfreelancer 开发

FRIDA是基于T5去噪架构思想进行全参数微调的通用文本嵌入模型，支持俄语和英语文本处理。

文本嵌入开源协议:MIT #俄英双语嵌入 #T5去噪架构 #语义检索优化

下载量 352

发布时间 : 5/21/2025

模型简介

FRIDA是基于T5去噪架构的通用文本嵌入模型，主要用于俄英双语文本的特征提取和语义理解任务。

模型特点

双语支持

支持俄语和英语文本处理，适用于双语应用场景。

多任务前缀

提供多种前缀词选择，适用于不同任务场景，如检索、复述、分类等。

GGUF格式

提供GGUF格式模型，便于在本地环境中部署和使用。

模型能力

文本特征提取

语义相似度计算

文本检索

文本分类

情感分析

主题聚类

使用案例

信息检索

答案检索

使用'search_query:'和'search_document:'前缀进行问题和答案的匹配检索。

文本相似度

语义相似度计算

使用'paraphrase:'前缀计算文本间的语义相似度。

文本分类

情感分析

使用'categorize_sentiment:'前缀进行文本情感分析。

主题分类

使用'categorize_topic:'前缀进行文本主题分类。

🚀 FRIDA GGUF模型卡片

FRIDA是一个基于T5去噪架构的全量微调通用文本嵌入模型。该模型受去噪架构启发，基于T5构建。它以FRED - T5模型的编码器部分为基础，延续了文本嵌入模型的研究（如ruMTEB、[ru - en - RoSBERTa](https://huggingface.co/ai - forever/ru - en - RoSBERTa)）。该模型在俄英双语数据集上进行了预训练，并针对目标任务进行了微调，以提升性能。

如需了解更多模型细节，请参考我们的技术报告[TODO]。

🚀 快速开始

FRIDA模型可直接使用，并搭配特定前缀。建议使用CLS池化。前缀和池化的选择取决于具体任务。

✨ 主要特性

多任务前缀支持：模型支持多种前缀，可根据不同任务灵活选择，以优化性能。
可微调性：可以使用相关的高质量俄英数据集对模型进行微调，以更好地满足特定需求。

📦 安装指南

Ollama

ollama pull evilfreelancer/FRIDA:f16

💻 使用示例

基础用法

模型可以直接使用前缀进行编码。以下是使用Transformers和SentenceTransformers库进行文本编码的示例。

import json
import requests
import numpy as np

OLLAMA_HOST = "http://localhost:11434"
MODEL_NAME = "evilfreelancer/FRIDA:f16"


def get_embedding(text):
    payload = {
        "model": MODEL_NAME,
        "input": text
    }

    response = requests.post(
        f"{OLLAMA_HOST}/api/embed",
        data=json.dumps(payload, ensure_ascii=False),
        headers={"Content-Type": "application/x-www-form-urlencoded"}
    )
    response.raise_for_status()
    return np.array(response.json()["embeddings"][0])


def normalize(vectors):
    vectors = np.atleast_2d(vectors)
    norms = np.linalg.norm(vectors, axis=1, keepdims=True)
    norms[norms == 0] = 1.0
    return vectors / norms


def cosine_diag_similarity(a, b):
    return np.sum(a * b, axis=1)


inputs = [
    #
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    #
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку нужно три программиста.",
]
size = int(len(inputs)/2)

embeddings = normalize(np.array([get_embedding(text) for text in inputs]))
sim_scores = cosine_diag_similarity(embeddings[:size], embeddings[size:])
print(sim_scores.tolist())