MMBench多模态大模型评测基准
OpenCompass权威视觉语言模型评测体系

全面评估多模态大模型在感知、认知、推理等多维度能力,为MLLM研发提供权威评测标准。 支持中英文多模态评测,覆盖视觉问答、图像理解、逻辑推理等核心任务。

全方位多模态评测能力

从感知理解到认知推理,MMBench为视觉语言模型提供系统化的多模态能力评测方案

全面多模态评测

系统化评估多模态大模型在视觉感知、语义理解、逻辑推理等维度的综合能力。涵盖图像描述、视觉问答、跨模态检索等多模态任务,为MLLM性能提供全面诊断。

细粒度能力维度

精细划分多模态理解能力的各个维度,包括物体识别、属性检测、空间关系、场景理解等细粒度评测指标。通过多层次评测体系,精准定位视觉语言模型的优势与不足。

循环评测机制

采用Circular Evaluation策略消除多选题中的位置偏差,确保评测结果客观公正。通过多轮循环测试,提升多模态大模型评测的准确性和可靠性,避免随机性干扰。

权威评测体系

由上海人工智能实验室和商汤科技联合打造,作为OpenCompass开源评测体系的核心组成部分。提供业界公认的MLLM评测标准,生成权威多模态模型排行榜单。

多语言支持

支持MMBench-CN中文多模态评测,覆盖中文语境下的视觉理解任务。同时支持多语言视觉语言模型评测,助力全球化多模态AI能力评估与对比分析。

前沿评测扩展

持续扩展评测范围至视频理解领域,支持MMBench-Video视频多模态评测。紧跟多模态大模型技术发展,覆盖静态图像与动态视频的全面视觉理解能力测试。

评测数据表现

用数据证明评测体系的权威性与覆盖面

3000+

评测题目数量

20+

能力评测维度

100+

参评模型数量

CE

循环评测机制

准备好评测您的多模态大模型了吗?

加入全球顶尖AI实验室和研发机构的行列,使用MMBench进行权威的视觉语言模型能力评估

立即查看排行榜