近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
近日,一项关于多模态大语言模型(MLLM)在具身智能(Embodied Intelligence)领域的新研究引发了广泛关注。研究团队构建了一个全新的评测框架——EmbodiedBench,旨在全面评估MLLM在具身任务中的能力边界。这一研究不仅揭示了当前模型的局限性,也为未来的发展方向提供了重要参考。 多模态大模型的潜力与挑战多模态大语言模型的快速发展为具身智能体的实现开辟了新路径。这类模型不仅 ...
该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制,并支持对话布局的灵活编码。同时,团队发布了 首个专为漫画生成设计的 MangaZero 数据集 (含 4.3 万页漫画与 42.7 ...
MV-MATH团队 投稿量子位 | 公众号 QbitAI 挑战多图数学推理新基准,大模型直接全军覆没?! 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR ...
MM-RLHF团队 投稿量子位 | 公众号 QbitAI 尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。 快手,中科院,南大合作从三个层面入手推动MLLM alignment的发展,包括数据集,奖励模型以 ...