全面多模态评测
系统化评估多模态大模型在视觉感知、语义理解、逻辑推理等维度的综合能力。涵盖图像描述、视觉问答、跨模态检索等多模态任务,为MLLM性能提供全面诊断。
从感知理解到认知推理,MMBench为视觉语言模型提供系统化的多模态能力评测方案
系统化评估多模态大模型在视觉感知、语义理解、逻辑推理等维度的综合能力。涵盖图像描述、视觉问答、跨模态检索等多模态任务,为MLLM性能提供全面诊断。
精细划分多模态理解能力的各个维度,包括物体识别、属性检测、空间关系、场景理解等细粒度评测指标。通过多层次评测体系,精准定位视觉语言模型的优势与不足。
采用Circular Evaluation策略消除多选题中的位置偏差,确保评测结果客观公正。通过多轮循环测试,提升多模态大模型评测的准确性和可靠性,避免随机性干扰。
由上海人工智能实验室和商汤科技联合打造,作为OpenCompass开源评测体系的核心组成部分。提供业界公认的MLLM评测标准,生成权威多模态模型排行榜单。
支持MMBench-CN中文多模态评测,覆盖中文语境下的视觉理解任务。同时支持多语言视觉语言模型评测,助力全球化多模态AI能力评估与对比分析。
持续扩展评测范围至视频理解领域,支持MMBench-Video视频多模态评测。紧跟多模态大模型技术发展,覆盖静态图像与动态视频的全面视觉理解能力测试。
用数据证明评测体系的权威性与覆盖面
3000+
评测题目数量
20+
能力评测维度
100+
参评模型数量
CE
循环评测机制
加入全球顶尖AI实验室和研发机构的行列,使用MMBench进行权威的视觉语言模型能力评估
立即查看排行榜