MMBench多模态大模型评测基准
OpenCompass权威视觉语言模型评测体系

全面评估多模态大模型在感知、认知、推理等多维度能力，为MLLM研发提供权威评测标准。支持中英文多模态评测，覆盖视觉问答、图像理解、逻辑推理等核心任务。

全方位多模态评测能力

从感知理解到认知推理，MMBench为视觉语言模型提供系统化的多模态能力评测方案

系统化评估多模态大模型在视觉感知、语义理解、逻辑推理等维度的综合能力。涵盖图像描述、视觉问答、跨模态检索等多模态任务，为MLLM性能提供全面诊断。

精细划分多模态理解能力的各个维度，包括物体识别、属性检测、空间关系、场景理解等细粒度评测指标。通过多层次评测体系，精准定位视觉语言模型的优势与不足。

采用Circular Evaluation策略消除多选题中的位置偏差，确保评测结果客观公正。通过多轮循环测试，提升多模态大模型评测的准确性和可靠性，避免随机性干扰。

由上海人工智能实验室和商汤科技联合打造，作为OpenCompass开源评测体系的核心组成部分。提供业界公认的MLLM评测标准，生成权威多模态模型排行榜单。

支持MMBench-CN中文多模态评测，覆盖中文语境下的视觉理解任务。同时支持多语言视觉语言模型评测，助力全球化多模态AI能力评估与对比分析。

持续扩展评测范围至视频理解领域，支持MMBench-Video视频多模态评测。紧跟多模态大模型技术发展，覆盖静态图像与动态视频的全面视觉理解能力测试。

用数据证明评测体系的权威性与覆盖面

3000+

评测题目数量

20+

能力评测维度

100+

参评模型数量

循环评测机制

加入全球顶尖AI实验室和研发机构的行列，使用MMBench进行权威的视觉语言模型能力评估