otpensource-vision开源视觉语言模型 - 支持韩英双语，用于时尚图像转文本与分类

首页

Otpensource Vision

由 hateslopacademy 开发

基于Bllossom/llama-3.2-Korean-Bllossom-AICA-5B训练的视觉语言模型，支持韩语和英语，专注于时尚领域的图像转文本和文本分类任务。

图像生成文本

Transformers

支持多种语言#韩英视觉语言 #时尚图像分析 #多模态JSON输出

下载量 14

发布时间 : 1/25/2025

模型简介

otpensource-vision是一个结合视觉和语言能力的多模态模型，能够分析图像中的时尚元素并生成结构化文本描述，同时支持纯文本的自然语言处理任务。

模型特点

多语言视觉理解

支持韩语和英语的视觉语言处理，能够从图像中提取时尚相关信息

时尚领域优化

使用专业时尚数据集训练，擅长分析服装类别、颜色、季节等时尚元素

结构化输出

能够生成JSON格式的结构化输出，便于系统集成和进一步处理

商业友好许可

采用CC-BY-4.0许可证，允许商业用途

模型能力

图像转文本

时尚元素分析

多语言文本生成

情感分析

文本分类

使用案例

电子商务

商品自动标注

自动分析商品图片并生成包含类别、颜色等信息的结构化描述

可生成JSON格式的商品信息

时尚推荐系统

基于视觉分析为用户推荐风格匹配的时尚单品

内容生成

社交媒体内容创作

根据时尚图片自动生成描述性文字内容

🚀 开源视觉模型（otpensource-vision）

开源视觉模型（otpensource-vision） 是一款基于 Bllossom/llama-3.2-Korean-Bllossom-AICA-5B 训练的视觉语言模型。该模型旨在结合韩语和英语文本与图像，以执行各种任务。

✨ 主要特性

基于Bllossom训练：此模型基于 llama-3.2-Korean-Bllossom-AICA-5B 进行训练，兼具语言模型和视觉语言模型的优势。
支持视觉语言任务：它既可以接收图像输入并生成文本信息，也能仅通过文本输入执行自然语言处理任务。
利用时尚数据训练：使用韩语时尚数据集（otpensource_data）进行训练，能够提取服装的类别、颜色、季节、特征等相关信息。
可商业使用：该模型采用 CC - BY - 4.0 许可证，允许商业使用。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests

model = MllamaForConditionalGeneration.from_pretrained(
  'otpensource-vision',
  torch_dtype=torch.bfloat16,
  device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')

url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)

messages = [
  {'role': 'user', 'content': [
    {'type': 'image', 'image': image},
    {'type': 'text', 'text': '이 옷의 정보를 JSON으로 알려줘.'}
  ]}
]

input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

inputs = processor(
    image=image,
    text=input_text,
    add_special_tokens=False,
    return_tensors="pt",
).to(model.device)

output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))

📚 详细文档

模型详细信息

属性	详情
模型类型	基于 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 的视觉语言模型
训练数据	otpensource_dataset，约 9000 个时尚数据，包含服装类别、颜色、季节、特征、图像 URL 等信息

主要使用场景

视觉语言任务
- 图像分析：输入图像后，可提取服装的类别、颜色、季节、特征等信息，并以 JSON 格式返回。例如：

{
  "category": "트렌치코트",
  "gender": "여",
  "season": "SS",
  "color": "네이비",
  "material": "",
  "feature": "트렌치코트"
}

- **语言模型任务**：仅输入文本时，可执行自然语言处理任务，如问答、文本摘要、情感分析等。

训练与性能

LogicKor 基准测试性能（基于 Bllossom 的模型性能） | 类别 | 单轮对话 | 多轮对话 | |------|----------|----------| | 推理能力 | 6.57 | 5.29 | | 数学能力 | 6.43 | 6.29 | | 写作能力 | 9.14 | 8.71 | | 编码能力 | 8.00 | 9.14 | | 理解能力 | 8.14 | 9.29 | | 语法能力 | 6.71 | 4.86 |
训练配置
- 模型大小：50 亿参数
- 训练数据大小：约 9000 个视觉语言数据
- 评估结果：在时尚相关任务中表现出较高的准确性和效率。

🔧 技术细节

文档未提供足够技术细节，暂不展示。

📄 许可证

该模型采用 CC - BY - 4.0 许可证，允许商业使用。此外，上传的微调模型由 hateslopacademy 开发，采用 apache - 2.0 许可证，基于 Bllossom/llama - 3.2 - Korean - Bllossom - AICA - 5B 进行微调。此 mllama 模型使用 Unsloth 和 Huggingface 的 TRL 库进行训练，速度提升了 2 倍。