Llama-3.2-11B-Vision-Radiology-mini开源多模态模型

首页

Llama 3.2 11B Vision Radiology Mini

由 p4rzvl 开发

这是一个基于Llama架构的多模态模型，支持视觉和文本指令，经过4位量化优化。

图像生成文本

Safetensors

#多模态指令微调 #4bit量化高效推理 #视觉语言理解

下载量 69

发布时间 : 4/17/2025

模型简介

该模型结合了视觉和语言理解能力，能够处理图像到文本的转换任务，适用于多模态交互场景。

模型特点

多模态支持

能够同时处理视觉和文本输入，实现图像到文本的转换。

4位量化优化

通过4位量化技术减少模型大小和计算资源需求。

指令跟随

能够理解和执行基于视觉和文本的复杂指令。

模型能力

图像理解

文本生成

多模态推理

指令跟随

使用案例

多模态交互

图像描述生成

根据输入的图像生成详细的文字描述。

视觉问答

回答关于图像内容的自然语言问题。

内容创作

图文内容生成

基于图像生成相关的文本内容，如社交媒体帖子或文章。

🚀 模型卡片

本模型是一个图像到文本转换的模型，借助 peft 库，基于 unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit 基础模型进行开发。

📦 模型信息

属性	详情
基础模型	unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit
库名称	peft
任务类型	图像到文本

📚 模型详情

模型描述

开发者：[待补充更多信息]
资助方（可选）：[待补充更多信息]
共享方（可选）：[待补充更多信息]
模型类型：[待补充更多信息]
语言（NLP）：[待补充更多信息]
许可证：[待补充更多信息]
微调基础模型（可选）：[待补充更多信息]

模型来源（可选）

仓库：[待补充更多信息]
论文（可选）：[待补充更多信息]
演示（可选）：[待补充更多信息]

🛠️ 使用方式

直接使用

本部分介绍模型未经微调或未集成到更大生态系统/应用中的使用方式。 [待补充更多信息]

下游使用（可选）

本部分介绍模型针对特定任务进行微调后，或集成到更大生态系统/应用中的使用方式。 [待补充更多信息]

超出适用范围的使用

本部分说明模型的误用、恶意使用情况，以及模型效果不佳的使用场景。 [待补充更多信息]

⚠️ 偏差、风险和局限性

本部分旨在传达模型在技术和社会技术方面的局限性。 [待补充更多信息]

建议

用户（包括直接用户和下游用户）应了解模型的风险、偏差和局限性。如需进一步建议，还需补充更多信息。

🚀 如何开始使用模型

使用以下代码开始使用该模型。 [待补充更多信息]

📈 训练详情

训练数据

本部分应链接到数据集卡片，可能还需简要介绍训练数据的相关信息，以及数据预处理或额外过滤的文档。 [待补充更多信息]

训练过程

预处理（可选）

[待补充更多信息]

训练超参数

训练机制：[待补充更多信息]

速度、大小、时间（可选）

本部分提供有关吞吐量、开始/结束时间、检查点大小（如适用）等信息。 [待补充更多信息]

🧪 评估

测试数据、因素和指标

测试数据

本部分应尽可能链接到数据集卡片。 [待补充更多信息]

因素

这些是评估时进行细分的因素，例如子群体或领域。 [待补充更多信息]

指标

这些是使用的评估指标，理想情况下应说明使用原因。 [待补充更多信息]

结果

[待补充更多信息]

总结

🔍 模型检查（可选）

本部分介绍与模型可解释性相关的工作。 [待补充更多信息]

🌱 环境影响

可以使用 Lacoste 等人（2019）提出的机器学习影响计算器来估算碳排放。

硬件类型：[待补充更多信息]
使用时长：[待补充更多信息]
云服务提供商：[待补充更多信息]
计算区域：[待补充更多信息]
碳排放：[待补充更多信息]

🛠️ 技术规格（可选）

模型架构和目标

[待补充更多信息]

计算基础设施

硬件

[待补充更多信息]

软件

[待补充更多信息]

📝 引用（可选）

BibTeX： [待补充更多信息]

APA： [待补充更多信息]

📖 术语表（可选）

如果相关，本部分可包含有助于读者理解模型或模型卡片的术语和计算方法。 [待补充更多信息]

ℹ️ 更多信息（可选）

[待补充更多信息]

📝 模型卡片作者（可选）

[待补充更多信息]

📞 模型卡片联系方式

[待补充更多信息]

框架版本

PEFT 0.14.0

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文