Fluxi AI 是一款基于 Qwen2-VL-7B-Instruct 的多模态智能助手,具备文本、图像和视频处理能力,特别优化了葡萄牙语支持。
下载量 25
发布时间 : 2/1/2025
模型介绍
内容详情
替代品
模型简介
全能AI助手,能够处理文本、图像和视频的多模态交互,支持函数调用、检索增强生成(RAG)和系统引导式交互。
模型特点
多模态智能
支持文本、图像和视频的多模态交互与理解。
多语言理解
特别优化了葡萄牙语能力,同时支持多种欧洲和亚洲语言。
函数执行能力
支持预定义函数的调用与执行,优化了葡萄牙语函数调用。
高级RAG技术
检索增强生成技术,优化了葡萄牙语内容检索与整合。
自然友好的交互体验
提供角色化应答和增强的上下文理解能力。
模型能力
文本生成与理解
图像分析与解读
视频理解
函数调用
检索增强生成(RAG)
系统引导式交互
使用案例
多模态交互
图像描述
根据输入的图像生成详细的描述文本。
生成准确且详细的图像描述。
视频内容分析
分析视频内容并生成描述或摘要。
生成视频内容的详细描述或摘要。
函数调用
联系人创建
根据用户输入创建联系人记录。
生成结构化联系人信息并调用相关函数。
检索增强生成
信息查询
根据提供的文档上下文回答用户问题。
生成基于文档的准确回答。
库名称:transformers
许可证:apache-2.0
数据集:
- JJhooww/system_chat_portuguese
- JJhooww/rag_agente
- JJhooww/chamada_de_funcao
- JJhooww/open_perfect_ptbr_sharegpt_multiturn
语言: - pt
基础模型: - Qwen/Qwen2-VL-7B-Instruct
Fluxi AI - 小型视觉模型 🤖✨
🧠 多模态智能
🗣️ 多语言理解
🛠️ 函数执行能力
📚 高级RAG技术
🤝 自然友好的交互体验
基础模型
本助手基于Qwen2-VL-7B-Instruct模型开发,这是由Qwen团队打造的一款强大多模态语言模型。主要特性包括:
- 70亿参数规模
- 先进的视觉与语言融合架构
- 支持多分辨率图像处理
- 视频内容理解能力
- 针对多模态任务的专项优化
模型概述
一款全能AI助手,能够处理文本、图像和视频的多模态交互。模型支持函数调用、检索增强生成(RAG)和系统引导式交互,并特别强化了葡萄牙语能力。
核心功能
多模态处理
✅ 文本生成与理解
✅ 图像分析与解读
✅ 视频理解(最长20+分钟)
✅ 多样化输入格式支持:
- 本地文件
- Base64编码图像
- 网络URL
- 图像与视频混合输入
多语言支持
🌎 模型支持包括:
- 葡萄牙语(专项优化)
- 英语
- 西班牙语、法语、德语等欧洲语言
- 日语与韩语
- 阿拉伯语与越南语
关键技术特性
1. 函数调用
⚙️ 预定义函数执行能力
📄 结构化输入/输出处理
🛠️ 复杂参数支持
🇧🇷 葡萄牙语函数调用专项优化
2. 检索增强生成(RAG)
📚 文档上下文整合
🔎 相关信息提取
🤖 情境化自适应回答
🇧🇷 葡萄牙语内容优化
3. 系统引导式交互
👥 角色化应答
📌 跨领域知识适配
📖 增强的上下文理解
🇧🇷 葡萄牙语代理专项优化
实现示例
1. 函数调用示例
# 函数调用数据集结构
messages = [
{
"role": "system",
"content": [{
"type": "text",
"text": """# 工具集
您可以通过调用工具函数协助用户查询。
XML标签<tools></tools>中包含函数签名:
<tools>
{
"type": "function",
"function": {
"name": "创建联系人",
"description": "新建联系人记录",
"parameters": {
"type": "object",
"properties": {
"姓名": {"type": "string", "description": "联系人姓名"},
"邮箱": {"type": "string", "description": "联系人电子邮箱"}
},
"required": ["姓名", "邮箱"]
}
}
}
</tools>"""
}]
},
{
"role": "user",
"content": [{
"type": "text",
"text": "请为我朋友John Doe创建联系人,他的邮箱是johndoe@example.com"
}]
}
]
# 助手响应
response = {
"role": "assistant",
"content": [{
"type": "text",
"text": "<tool_call>\n{'name': '创建联系人', 'arguments': {'姓名': 'John Doe', '邮箱': 'johndoe@example.com'}}</tool_call>"
}]
}
2. RAG实现示例
# RAG数据集结构
messages = [
{
"role": "user",
"content": [{
"type": "text",
"text": "巴西外国游客主要来自哪些国家?"
}]
},
{
"role": "system",
"content": [{
"type": "text",
"text": "{'doc04': {'text': '巴西接待了超过600万外国游客,主要来自阿根廷、美国、巴拉圭、智利、乌拉圭和法国...'}}"
}]
}
]
# 助手响应
response = {
"role": "assistant",
"content": [{
"type": "text",
"text": "访问巴西的主要外国游客来源国:\n\n- 阿根廷\n- 美国\n- 巴拉圭\n- 智利\n- 乌拉圭\n- 法国"
}]
}
3. 系统引导代理示例
# 系统代理配置
messages = [
{
"role": "system",
"content": [{
"type": "text",
"text": "您是多学科科学专家(含物理、化学、生物学),请用生动易懂的方式解释科学概念、理论和现象。"
}]
},
{
"role": "user",
"content": [{
"type": "text",
"text": "能否帮我撰写关于森林砍伐的论文?"
}]
}
]
葡萄牙语专项优化
函数调用
✔️ 葡萄牙语函数命名与描述
✔️ 巴西参数命名规范
✔️ 本地化错误提示
✔️ 巴西用例优先匹配
RAG增强
📜 葡萄牙语内容检索优化
🌎 巴西语境优先级
🔍 本地信息精准提取
📝 语言模式识别增强
代理专项优化
🎭 巴西文化语境强化
📌 区域知识整合
🗣️ 葡萄牙语细微差别理解
📚 巴西特定领域优化
系统要求
Qwen2-VL代码需通过最新版Hugging Face Transformers源码安装:
pip install git+https://github.com/huggingface/transformers
否则可能报错:
KeyError: 'qwen2_vl'
快速开始
安装视觉处理工具集:
pip install qwen-vl-utils
基础使用示例:
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
# 加载模型
model = Qwen2VLForConditionalGeneration.from_pretrained(
"JJhooww/Fluxi_AI_Small_Vision", torch_dtype="auto", device_map="auto"
)
# 建议启用flash_attention_2提升性能
# model = Qwen2VLForConditionalGeneration.from_pretrained(
# "JJhooww/Fluxi_AI_Small_Vision",
# torch_dtype=torch.bfloat16,
# attn_implementation="flash_attention_2",
# device_map="auto",
# )
processor = AutoProcessor.from_pretrained("JJhooww/Fluxi_AI_Small_Vision")
# 可自定义视觉token数量范围(默认4-16384)
# min_pixels = 256*28*28
# max_pixels = 1280*28*28
# processor = AutoProcessor.from_pretrained("JJhooww/Fluxi_AI_Small_Vision", min_pixels=min_pixels, max_pixels=max_pixels)
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/demo.jpg"},
{"type": "text", "text": "描述这张图片"},
],
}
]
# 预处理
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
).to("cuda")
# 推理生成
output_ids = model.generate(**inputs, max_new_tokens=128)
decoded_text = processor.batch_decode(
[out[len(inp):] for inp, out in zip(inputs.input_ids, output_ids)],
skip_special_tokens=True
)
print(decoded_text)
不使用qwen_vl_utils
from PIL import Image
import requests
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
model = Qwen2VLForConditionalGeneration.from_pretrained(
"JJhooww/Fluxi_AI_Small_Vision", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("JJhooww/Fluxi_AI_Small_Vision")
# 图像加载
image = Image.open(requests.get("https://example.com/demo.jpg", stream=True).raw)
conversation = [
{
"role": "user",
"content": [
{"type": "image"},
{"type": "text", "text": "描述这张图片"},
],
}
]
# 处理流程
inputs = processor(
text=processor.apply_chat_template(conversation, add_generation_prompt=True),
images=[image],
padding=True,
return_tensors="pt"
).to("cuda")
outputs = model.generate(**inputs, max_new_tokens=128)
print(processor.batch_decode(
[out[len(inp):] for inp, out in zip(inputs.input_ids, outputs)],
skip_special_tokens=True
))
多图像推理
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "file:///path/to/image1.jpg"},
{"type": "image", "image": "file:///path/to/image2.jpg"},
{"type": "text", "text": "分析这些图像的共同点"},
],
}
]
# 处理逻辑同前...
视频推理
# 帧序列作为视频输入
messages = [
{
"role": "user",
"content": [
{
"type": "video",
"video": [
"file:///path/to/frame1.jpg",
"file:///path/to/frame2.jpg",
"file:///path/to/frame3.jpg",
],
"fps": 1.0,
},
{"type": "text", "text": "描述视频内容"},
],
}
]
# 或直接视频文件输入
messages = [
{
"role": "user",
"content": [
{
"type": "video",
"video": "file:///path/to/video.mp4",
"max_pixels": 360*420,
"fps": 1.0,
},
{"type": "text", "text": "视频内容描述"},
],
}
]
# 处理逻辑同前...
批量推理
batch_messages = [
[
{"role": "user", "content": [
{"type": "image", "image": "file:///img1.jpg"},
{"type": "image", "image": "file:///img2.jpg"},
{"type": "text", "text": "图像共同点分析"},
]}
],
[
{"role": "system", "content": "你是智能助手"},
{"role": "user", "content": "请自我介绍"}
]
]
# 批量处理逻辑...
模型限制
🔇 不支持音频处理
📅 数据截止2023年6月
🔍 人物/品牌识别有限
🧩 复杂多步任务性能下降
🔢 物体计数精度不足
📏 3D空间推理能力有限
引用文献
基础模型引用
@article{Qwen2VL,
title={Qwen2-VL:增强任意分辨率下的视觉语言模型感知能力},
author={王鹏等},
journal={arXiv预印本},
year={2024}
}
@article{Qwen-VL,
title={Qwen-VL:全能视觉语言模型,实现理解、定位、文本阅读等能力},
author={白晋泽等},
journal={arXiv预印本},
year={2023}
}
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers

英语
O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers

英语
B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文