🚀 奇塔拉思(Chitrarth):为十亿人架起视觉与语言的桥梁
奇塔拉思(Chitrarth)是一款多语言视觉语言模型,它将先进的多语言大语言模型(LLM)与视觉模块相结合。该模型主要基于多语言图像 - 文本数据进行训练,旨在支持包括印地语、孟加拉语、泰卢固语、泰米尔语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语、奥里亚语和阿萨姆语在内的10种重要印度语言,以及英语。
🚀 快速开始
若要通过网页界面访问该模型,可访问 奇塔拉思在线。
推理代码示例
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip install -e .
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "
✨ 主要特性
- 模型类型:以Krutrim - 1作为基础大语言模型(LLM),SigLIP作为视觉编码器,并配备2层多层感知器(MLP)。
- 支持语言:支持10种印度语言(印地语、孟加拉语、泰卢固语、泰米尔语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语、奥里亚语和阿萨姆语)以及英语。
- 用途:通用视觉语言模型。

💻 使用示例
基础用法
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip install -e .
python chitrarth/inference.py --model-path "krutrim-ai-labs/chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image. "
📚 详细文档
评估结果

该模型在不同学术多模态任务中与最先进的视觉语言模型(VLMs)进行了性能对比。在不同基准测试中,奇塔拉思(Chitrarth)始终优于IDEFICS 2(7B)和PALO 7B,同时在文本视觉问答(TextVQA)和Vizwiz任务中也具有竞争力。
我们推出了 巴拉特基准(BharatBench),这是一套专为 10种资源相对匮乏的印度语言 在 3项任务 上设计的综合评估基准套件。奇塔拉思(Chitrarth)在巴拉特基准评估框架上的表现为该领域的未来研究奠定了坚实基础。该模型的独特之处在于它能够处理所有包含的语言。
以下是奇塔拉思(Chitrarth)在巴拉特基准的三项评估任务(教皇评估(POPE)、LLaVA - 基准(LLaVA - Bench) 和 多模态评估(MMVet))上的性能结果:
语言 |
教皇评估(POPE) |
LLaVA - 基准(LLaVA - Bench) |
多模态评估(MMVet) |
泰卢固语 |
79.9 |
54.8 |
43.76 |
印地语 |
78.68 |
51.5 |
38.85 |
孟加拉语 |
83.24 |
53.7 |
33.24 |
马拉雅拉姆语 |
85.29 |
55.5 |
25.36 |
卡纳达语 |
85.52 |
58.1 |
46.19 |
阿萨姆语 |
55.59 |
59.1 |
37.29 |
泰米尔语 |
83.28 |
58.3 |
34.31 |
马拉地语 |
79.17 |
52.8 |
40.96 |
古吉拉特语 |
84.75 |
55.9 |
39.03 |
奥里亚语 |
82.03 |
62.8 |
19.67 |
英语 |
87.63 |
67.9 |
30.49 |
📄 许可证
本代码仓库和模型权重遵循 克鲁特里姆社区许可证(Krutrim Community License)。
📚 引用
@inproceedings{
khan2024chitrarth,
title={Chitrarth: Bridging Vision and Language for a Billion People},
author={Shaharukh Khan, Ayush Tarun, Abhinav Ravi, Ali Faraz, Praveen Kumar Pokala, Anagha Bhangare, Raja Kolla, Chandra Khatri, Shubham Agarwal},
booktitle={NeurIPS Multimodal Algorithmic Reasoning},
year={2024},
}
🤝 联系我们
欢迎大家贡献代码!如果您有任何改进建议或想法,请随时在GitHub上提交拉取请求。
🙏 致谢
奇塔拉思(Chitrarth)的开发参考了以下项目的代码:Transformers 和 LLaVA - 1.5。感谢他们的杰出工作!