Mllm - 搜索 News

8 天

在人工智能的飞速发展的今天，多模态大型语言模型（MLLM）逐渐成为技术研究的热点。然而，在实际应用过程中，闭源模型如GPT-4o在回复的全面性、完备性和美观性方面展现出耀眼的表现，但与之形成鲜明对比的是，开源模型如InternVL2-78B在面对需要广泛知识储备的开放式问题时却显得力不从心。这一现象引发了上海交通大学与上海AI ...

腾讯网9 天

大模型全军覆没，中科院自动化所推出多图数学推理新基准

MV-MATH中的每个问题都是从真实的K-12场景中收集而来，这种设计更接近于现实世界中的数学问题，能够更好地评估MLLM在处理多视觉信息时的推理能力。

13 天

CVPR 2025｜北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3 ...

该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。同时，团队发布了首个专为漫画生成设计的 MangaZero 数据集（含 4.3 万页漫画与 42.7 ...

红板报 on MSN10 天

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

MV-MATH团队投稿量子位 | 公众号 QbitAI 挑战多图数学推理新基准，大模型直接全军覆没？！事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果