语言:
- 韩语
- 英语
库名称: transformers
基础模型: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
标签:
- 视觉语言
- 韩语
- 图像转文本
- 多语言
- 时尚
- 电子商务
- 文本分类
- 文本生成推理
- transformers
- unsloth
- mllama
数据集:
- hateslopacademy/otpensource_data
推理: true
许可证: cc-by-4.0
模型名称: otpensource-vision
规模类别: 1K<n<10K
任务类别:
- 图像转文本
- 文本分类
任务ID:
- 图像字幕生成
- 情感分析
otpensource-vision
模型说明
otpensource-vision是基于Bllossom/llama-3.2-Korean-Bllossom-AICA-5B训练的视觉语言模型。该模型设计用于结合韩语和英语文本与图像,执行多种任务。
主要特点
- 基于Bllossom训练: 以llama-3.2-Korean-Bllossom-AICA-5B为基础,兼具语言模型和视觉语言模型的优势。
- 支持视觉语言任务: 可接收图像输入生成文本信息,或仅通过文本输入执行自然语言处理任务。
- 利用时尚数据训练: 使用韩语时尚数据集(otpensource_data)训练,能提取服装类别、颜色、季节、特征等相关信息。
- 可商用: 采用CC-BY-4.0许可证,允许商业用途。
模型详情
训练数据
模型训练使用的数据集:
训练方式
- 基础模型: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
- GPU要求: 建议A100 40GB以上
- 优化: 综合训练视觉语言任务和韩语文本任务
主要应用场景
视觉语言任务
-
图像分析
- 从输入图像中提取服装类别、颜色、季节、特征,返回JSON格式结果。
- 示例:
{
"category": "风衣",
"gender": "女",
"season": "春夏",
"color": "海军蓝",
"material": "",
"feature": "风衣"
}
-
语言模型任务
- 仅文本输入时可执行自然语言处理,包括问答、文本摘要、情感分析等多种任务。
训练与性能
LogicKor基准测试性能(Bllossom基础模型表现)
类别 |
单轮对话 |
多轮对话 |
推理能力 |
6.57 |
5.29 |
数学能力 |
6.43 |
6.29 |
写作能力 |
9.14 |
8.71 |
编程能力 |
8.00 |
9.14 |
理解能力 |
8.14 |
9.29 |
语法能力 |
6.71 |
4.86 |
训练配置
- 模型规模: 50亿参数
- 训练数据量: 约9000条视觉语言数据
- 评估结果: 在时尚相关任务中表现出高准确率和效率
代码示例
视觉语言任务
from transformers import MllamaForConditionalGeneration, MllamaProcessor
import torch
from PIL import Image
import requests
model = MllamaForConditionalGeneration.from_pretrained(
'otpensource-vision',
torch_dtype=torch.bfloat16,
device_map='auto'
)
processor = MllamaProcessor.from_pretrained('otpensource-vision')
url = "https://image.msscdn.net/thumbnails/images/prd_img/20240710/4242307/detail_4242307_17205916382801_big.jpg?w=1200"
image = Image.open(requests.get(url, stream=True).raw)
messages = [
{'role': 'user', 'content': [
{'type': 'image', 'image': image},
{'type': 'text', 'text': '请用JSON格式告诉我这件衣服的信息。'}
]}
]
input_text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = processor(
image=image,
text=input_text,
add_special_tokens=False,
return_tensors="pt",
).to(model.device)
output = model.generate(**inputs, max_new_tokens=256, temperature=0.1)
print(processor.decode(output[0]))
已上传的微调模型
- 开发者: hateslopacademy
- 许可证: apache-2.0
- 微调基础模型: Bllossom/llama-3.2-Korean-Bllossom-AICA-5B
该mllama模型使用Unsloth和Huggingface的TRL库进行训练,速度提升2倍。
