Chitrarth开源多语言视觉语言模型 - 连接图像与语言，支持印度多种语言

首页

Chitrarth

由 krutrim-ai-labs 开发

Chitrarth是一个多语言视觉语言模型，旨在连接视觉与语言，特别关注印度多种语言的支持。

图像生成文本

Safetensors

支持多种语言开源协议:其他 #多语言图像理解 #印度本土语言支持 #视觉语言桥梁

下载量 410

发布时间 : 2/2/2025

模型简介

该模型专注于图像文本到文本的任务，支持多种印度语言，旨在为十亿人提供视觉与语言之间的桥梁。

模型特点

多语言支持

支持11种印度主要语言，包括印地语、孟加拉语、泰米尔语等。

视觉语言连接

专注于将视觉信息转换为文本，架起视觉与语言之间的桥梁。

社区驱动

采用krutrim社区许可协议，鼓励社区参与和贡献。

模型能力

图像文本识别

多语言文本生成

视觉内容理解

使用案例

多语言内容生成

多语言图像描述

为图像生成多种印度语言的描述文本。

无障碍服务

视觉辅助

为视障人士提供图像内容的语言描述。

🚀 奇塔拉思（Chitrarth）：为十亿人架起视觉与语言的桥梁

奇塔拉思（Chitrarth）是一款多语言视觉语言模型，它将先进的多语言大语言模型（LLM）与视觉模块相结合。该模型主要基于多语言图像 - 文本数据进行训练，旨在支持包括印地语、孟加拉语、泰卢固语、泰米尔语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语、奥里亚语和阿萨姆语在内的10种重要印度语言，以及英语。

🚀 快速开始

若要通过网页界面访问该模型，可访问奇塔拉思在线。

推理代码示例

git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth

cd Chitrarth 
pip install -e .

python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "

✨ 主要特性

模型类型：以Krutrim - 1作为基础大语言模型（LLM），SigLIP作为视觉编码器，并配备2层多层感知器（MLP）。
支持语言：支持10种印度语言（印地语、孟加拉语、泰卢固语、泰米尔语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语、奥里亚语和阿萨姆语）以及英语。
用途：通用视觉语言模型。

💻 使用示例

基础用法

# 克隆仓库
git clone https://github.com/ola-krutrim/Chitrarth.git
# 创建并激活虚拟环境
conda create --name chitrarth python=3.10
conda activate chitrarth
# 进入项目目录并安装依赖
cd Chitrarth 
pip install -e .
# 运行推理脚本
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "

📚 详细文档

评估结果

该模型在不同学术多模态任务中与最先进的视觉语言模型（VLMs）进行了性能对比。在不同基准测试中，奇塔拉思（Chitrarth）始终优于IDEFICS 2（7B）和PALO 7B，同时在文本视觉问答（TextVQA）和Vizwiz任务中也具有竞争力。

我们推出了 巴拉特基准（BharatBench），这是一套专为 10种资源相对匮乏的印度语言 在 3项任务 上设计的综合评估基准套件。奇塔拉思（Chitrarth）在巴拉特基准评估框架上的表现为该领域的未来研究奠定了坚实基础。该模型的独特之处在于它能够处理所有包含的语言。

以下是奇塔拉思（Chitrarth）在巴拉特基准的三项评估任务（教皇评估（POPE）、LLaVA - 基准（LLaVA - Bench） 和 多模态评估（MMVet））上的性能结果：

语言	教皇评估（POPE）	LLaVA - 基准（LLaVA - Bench）	多模态评估（MMVet）
泰卢固语	79.9	54.8	43.76
印地语	78.68	51.5	38.85
孟加拉语	83.24	53.7	33.24
马拉雅拉姆语	85.29	55.5	25.36
卡纳达语	85.52	58.1	46.19
阿萨姆语	55.59	59.1	37.29
泰米尔语	83.28	58.3	34.31
马拉地语	79.17	52.8	40.96
古吉拉特语	84.75	55.9	39.03
奥里亚语	82.03	62.8	19.67
英语	87.63	67.9	30.49

📄 许可证

本代码仓库和模型权重遵循克鲁特里姆社区许可证（Krutrim Community License）。

📚 引用

@inproceedings{
  khan2024chitrarth,
  title={Chitrarth: Bridging Vision and Language for a Billion People},
  author={Shaharukh Khan, Ayush Tarun, Abhinav Ravi, Ali Faraz, Praveen Kumar Pokala, Anagha Bhangare, Raja Kolla, Chandra Khatri, Shubham Agarwal},
  booktitle={NeurIPS Multimodal Algorithmic Reasoning},
  year={2024},
}