模型简介
模型特点
模型能力
使用案例
🚀 感知语言模型(PLM)
感知语言模型(PLM)是一款先进的、完全开放且可复现的多模态大语言模型(MLLM),旨在推动图像和视频理解领域的透明化研究。它为相关研究提供了强大的工具,有助于深入探索图像和视频中的信息。
🚀 快速开始
感知语言模型(PLM)由一个小尺度(参数少于80亿)的视觉编码器和一个大语言模型(LLM)解码器组成。研究团队首先对使用现有数据的标准训练流程进行分析,不涉及任何专有模型的蒸馏操作。接着,研究团队对大规模合成数据展开研究,确立关键的缩放定律,以找出限制视频理解性能的关键数据缺口,特别是在时空推理和细粒度理解任务方面。为填补这些缺口,团队创建了280万个高质量的人工标注数据,这一数据量比现有的最大视频数据集大了近一个数量级。
研究团队在 perception_models代码库 中提供了训练和评估代码。你可以在GitHub仓库中找到更多详细信息。
✨ 主要特性
- 先进架构:采用视觉编码器与小尺度LLM解码器结合的架构,为图像和视频理解提供强大支持。
- 数据驱动:通过分析标准训练流程和大规模合成数据,找出数据缺口并创建大量高质量人工标注数据,提升模型性能。
- 开放可复现:完全开放且可复现,便于研究人员进行透明化研究。
📚 详细文档
模型资源文档
资源 | 描述 | 文档链接 |
---|---|---|
评估 | 使用lmms - eval对PLM进行评估 | docs/evaluation.md |
训练/微调 | PLM的训练和微调说明 | docs/training.md |
PLM - VideoBench评估 | 使用lmms - eval在PLM - VideoBench上进行评估 | docs/plm_videobench.md |
端到端微调示例 | 放射学图像的端到端微调示例 | docs/finetune_example.md |
生成响应 | 使用训练好的模型通过generate.py 生成响应 |
generate.py |
PLM图像基准测试结果
模型 | DocVQA | ChartQA | TextVQA | InfoQA | AI2D | OCRBench | COCO | Nocap | Flickr | MMMU | VQAv2 | OKVQA | VizWiz | MME | SEED | BLINK | CVBench | RealWorldQA | VSR | POPE |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 90.7 | 78.6 | 82.1 | 63.0 | 84.9 | 807 | 138.6 | 124.2 | 100.5 | 34.8 | 81.7 | 61.0 | 59.7 | 1603 | 76.3 | 46.8 | 73.8 | 67.1 | 68.8 | 88.4 |
PLM3B | 93.8 | 84.3 | 84.3 | 74.6 | 90.9 | 830 | 144.9 | 126.5 | 98.0 | 41.2 | 84.3 | 66.8 | 64.0 | 1879 | 78.5 | 55.4 | 81.4 | 72.4 | 80.4 | 88.7 |
PLM8B | 94.6 | 85.5 | 86.5 | 80.9 | 92.7 | 870 | 146.7 | 129.9 | 105.6 | 46.1 | 85.6 | 69.6 | 67.0 | 1989 | 79.3 | 56.0 | 81.3 | 75.0 | 82.8 | 89.9 |
PLM视频基准测试结果
模型 | VATEX | DREAM 1K | How2QA | MVBench | NExTQA | PerceptionTest (test) | STAR | TVQA | VideoMME | TVBench | ActivityNetQA | EgoSchema (test) | TemporalBench | TOMATO | MotionBench (dev) | TempCompass (MCQ) | CGBench (clue) | Charades STA | VideoHallucer | Halluc. EventHallusion |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
PLM1B | 92.5 | 34.3 | 86.4 | 70.1 | 80.3 | 72.7 | 83.7 | 50.3 | 49.2 | 50.4 | 62.5 | 60.4 | 18.2 | 25.5 | 52.2 | 64.6 | 43.6 | 55.2 | 49.2 | 79.5 |
PLM3B | 96.1 | 37.4 | 89.4 | 74.7 | 83.4 | 79.3 | 84.8 | 55.3 | 54.9 | 58.9 | 66.2 | 66.9 | 23.4 | 30.9 | 60.4 | 69.3 | 47.2 | 57.7 | 55.5 | 76.5 |
PLM8B | 99.7 | 35.9 | 90.7 | 77.1 | 84.1 | 82.7 | 84.9 | 59.3 | 58.3 | 63.5 | 67.3 | 68.8 | 28.3 | 33.2 | 61.4 | 72.7 | 46.4 | 58.6 | 57.7 | 77.3 |
📄 许可证
FAIR非商业研究许可证
定义
- “可接受使用政策”指适用于研究材料的FAIR可接受使用政策,该政策已纳入本协议。
- “协议”指本协议中规定的研究材料的使用、复制、分发和修改的条款和条件。
- “文档”指Meta分发的研究材料随附的规格、手册和文档。
- “被许可方”或“您”指您本人,或您的雇主,或任何其他个人或实体(如果您代表该个人或实体签订本协议),且该个人或实体达到适用法律、规则或法规要求的提供法律同意的年龄,并且如果您代表他们签订本协议,具有约束您的雇主或该其他个人或实体的法律权力。
- “Meta”或“我们”指Meta Platforms Ireland Limited(如果您位于欧洲经济区(EEA)或瑞士,或者如果您是一个实体,您的主要营业地位于EEA或瑞士)和Meta Platforms, Inc.(如果您位于EEA或瑞士以外)。
- “非商业研究用途”指与研究、开发、教育、处理或分析相关的非商业研究用例,并且在每种情况下,主要目的不是为您或他人带来商业利益或金钱补偿。
- “研究材料”指文档以及模型、软件和算法的统称,包括机器学习模型代码、训练好的模型权重、推理启用代码、训练启用代码、微调启用代码、演示材料以及Meta分发并根据本协议提供的上述各项的其他元素。
许可权利和再分发
- 权利授予:您被授予在Meta体现在研究材料中的知识产权或其他权利下的非排他性、全球性、不可转让且免版税的有限许可,以使用、复制、分发、拷贝、创作衍生作品并对研究材料进行修改。
- 再分发和使用:
- 您不得将研究材料或研究材料的任何输出或结果用于任何商业用途,或用于非商业研究用途以外的任何用途。
- 研究材料及其任何衍生作品的分发须遵守本协议的条款。如果您将研究材料或其任何衍生作品分发给第三方,您只能根据本协议的条款进行分发。您还应向该第三方提供本协议的副本。
- 如果您提交使用研究材料进行的研究结果以供发表,您必须在出版物中承认使用了研究材料。
- 您对研究材料的使用必须遵守适用的法律和法规(包括贸易管制法律),并遵守FAIR可接受使用政策,该政策通过引用纳入本协议。
用户支持
您对研究材料的非商业研究使用由您自行决定;Meta不处理任何信息,也不就此类使用提供任何服务。Meta没有义务为研究材料提供任何支持服务。提供的任何支持均“按现状”提供,“带有所有缺陷”,且不提供任何形式的保证。
保修免责声明
除非适用法律要求,研究材料及其任何输出和结果均“按现状”提供,不提供任何形式的保证,Meta明确排除所有明示和暗示的保证,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证。您独自负责确定使用或再分发研究材料的适当性,并承担与您使用研究材料及其任何输出和结果相关的任何风险。
责任限制
在任何情况下,Meta或其关联公司均不对因本协议引起的任何利润损失或任何直接或间接、特殊、后果性、附带性、惩戒性或惩罚性损害承担责任,无论责任理论是合同、侵权、疏忽、产品责任还是其他,即使Meta或其关联公司已被告知可能发生上述任何损害。
知识产权
- 关于您对研究材料所做的任何衍生作品和修改,在您和Meta之间,您是并将是此类衍生作品和修改的所有者,但需遵守Meta对研究材料及其由Meta或代表Meta制作的衍生作品的所有权。
- 如果您对Meta或任何实体提起诉讼或其他法律程序(包括在诉讼中的交叉索赔或反诉),声称研究材料、输出或结果或上述任何内容的任何部分构成侵犯您拥有或可许可的知识产权或其他权利,则本协议授予您的任何许可应自提起此类诉讼或索赔之日起终止。您将赔偿并使Meta免受任何第三方因您使用或分发研究材料而产生或与之相关的任何索赔。
期限和终止
本协议的期限将自您接受本协议或访问研究材料时开始,并将持续完全有效,直至根据本协议的条款和条件终止。如果您违反本协议的任何条款或条件,Meta可终止本协议。本协议终止后,您应删除并停止使用研究材料。第5、6和9条在本协议终止后仍然有效。
适用法律和管辖权
本协议将受加利福尼亚州法律管辖并依其解释,不考虑法律选择原则,并且《联合国国际货物销售合同公约》不适用于本协议。加利福尼亚州的法院对因本协议引起的任何争议具有专属管辖权。
修改和修订
Meta可不时通过在[https://huggingface.co/facebook/Perception-LM-8B/blob/main/LICENSE]发布修订版本来修改本协议;前提是这些修改在精神上与本协议的当前版本相似,但在细节上可能有所不同,以解决新的问题或担忧。所有此类更改将立即生效。在本协议进行任何修改后,您继续使用研究材料即表示您同意此类修改。除非本协议另有规定,否则对本协议任何条款的修改或补充除非以书面形式并由您和Meta的授权代表签署,否则不具有约束力。
FAIR可接受使用政策
Meta的基础人工智能研究(FAIR)团队旨在通过开放研究推进人工智能的前沿技术,以造福所有人,进一步理解新的和现有的研究领域。作为这一使命的一部分,Meta提供某些研究材料供非商业研究使用。Meta致力于促进此类研究材料的安全和负责任使用。
禁止使用情况
- 违反法律或他人权利:您同意不使用或允许他人使用研究材料来从事、促进、生成、促成、鼓励、策划、煽动或进一步推动非法或违法活动或内容,例如暴力或恐怖主义、对儿童的剥削或伤害(包括征集、创建、获取或传播儿童剥削内容或未能报告儿童性虐待材料)、人口贩运、剥削和性暴力、向未成年人非法分发信息或材料(包括淫秽材料)或未能对此类信息或材料采用法律要求的年龄限制、性招揽以及任何其他犯罪活动。
- 骚扰和歧视:您不得从事、促进、煽动或便利对个人或群体的骚扰、虐待、威胁或欺凌,不得从事、促进、煽动或便利在就业、就业福利、信贷、住房、其他经济福利或其他基本商品和服务的提供方面的歧视或其他非法或有害行为。
- 未经授权的专业实践:您不得从事未经授权或无执照的任何专业实践,包括但不限于金融、法律、医疗/健康或相关专业实践。
- 敏感信息处理:您不得在未获得适用法律要求的权利和同意的情况下,收集、处理、披露、生成或推断有关个人的健康、人口统计或其他敏感个人或私人信息。
- 侵犯第三方权利:您不得从事或便利任何侵犯、盗用或以其他方式侵犯任何第三方权利的行为,或生成任何侵犯第三方权利的内容,包括使用FAIR研究材料的任何技术的输出或结果。
- 恶意代码和系统干扰:您不得创建、生成或便利创建恶意代码、恶意软件、计算机病毒,或做任何可能禁用、使负担过重、干扰或损害网站或计算机系统的正常运行、完整性、操作或外观的事情。
- 危险活动:您不得从事、促进、煽动、便利或协助策划或开展对个人造成死亡或身体伤害风险的活动,包括使用与以下方面相关的研究制品:军事、战争、核工业或应用、间谍活动、受美国国务院维护的《国际武器贸易条例》(ITAR)约束的材料或活动、枪支和非法武器(包括武器开发)、非法药物和受管制/受控物质、关键基础设施的运营、运输技术或重型机械、自我伤害或对他人的伤害(包括自杀、切割和饮食失调)以及任何旨在煽动或促进暴力、虐待或对个人造成身体伤害的内容。
- 欺骗和误导:您不得故意欺骗或误导他人,包括使用与以下方面相关的FAIR研究材料:生成、促进或进一步推动欺诈或创建或促进虚假信息、生成、促进或进一步推动诽谤性内容(包括创建诽谤性声明、图像或其他内容)、生成、促进或进一步分发垃圾邮件、未经同意、授权或合法权利冒充他人、声称FAIR研究材料的输出或使用FAIR研究材料的技术的输出是人类生成的、生成或便利虚假的在线互动(包括虚假评论和其他虚假在线互动方式)。
- 危险披露:您不得未能向最终用户适当披露研究材料的任何已知危险。
请通过[https://docs.google.com/forms/d/e/1FAIpQLSeb11cryAopJ7LNrC4nxEUXrHY26hfkXQMf_uH-oFgA3WlYZQ/viewform]提交报告,举报任何违反本政策的行为或可能导致违反本政策的其他问题。
📚 引用
如果您发现我们的代码对您的研究有用,请考虑引用以下文献:
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}



