本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生,目前主要关注统一的多模态任务建模算法。指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 ...
在人工智能快速发展的今天,多模态大型语言模型(MLLM)成为了科技界的热门话题。由中国科学院院士谭铁牛及其团队领导的最新研究,深入探讨了多模态LLM中对齐算法的先进技术,为MLLM的发展指明了方向。这项研究不仅系统性地梳理了对齐算法的应用场景,还详细分析了构建对齐数据集的核心要素,为学术界和产业界提供了宝贵的参考。
CASIA等 投稿量子位 | 公众号 QbitAI 万字长文,对多模态LLM中对齐算法进行全面系统性回顾! 从现有对齐算法涵盖的应用场景,到构建对齐数据集的核心因素,再到用于评估对齐算法的基准,还有对齐算法未来潜在发展方向,全都梳理了一遍。
Explore Mistral Small 3.1, the versatile open-source AI model with multimodal and multilingual capabilities for text and ...
StarVector, the new open source foundational model, out on Hugging Face, can help designers generate SVG files.
假设某个基准共有着n个测试实例,并且在这个完整的基准上了我们评测了一定数量的多模态大模型并获得了最终的性能排序RGT,然后,我们随机抽取实例的一个子集,占总数的A%,并计算相应的MLLM性能排序,记为RA%。为了量化在A%抽样比率下基准测试的冗余,我们计算RA%与RGT之间的相关系数。这一相关性反映了抽样子集对整个基准测试的代表性。为了减少随机性的影响,抽样过程重复进行T=100次,并记录平均相关 ...
消息面上,当地时间3月17至21日,英伟达的GTC大会在美国加州圣何塞举行。市场预计,英伟达将在2025GTC大会上发布Blackwell ...
Introduce some user-specific concepts to our RAP-LLaVA, it can remember them and achieve excellent performance in a variety of personalized multimodal generation tasks. Visit our Project Page for more ...
近年来,从OpenAI的ComputerUse到移动端的SpiritSight和MobileFlow,从学术研究到产业应用,智能体技术正经历前所未有的发展浪潮。本文将综合当前最前沿的研究成果,例如:AppAgentX、MobileFlow、OSAgents、SpiritSight等,为读者提供一份关于智能体技术的全面总结,特别关注其中发展最为迅速的GUI智能体领域。
消息面上,据 英伟达 官微消息,GTC 2025大会将举行China AI Day-云与互联网线上中文专场,计划于北京时间3月18日上午9: 30开始直播。本次专场包括字节跳动、火山引擎、阿里云、 百度 、蚂蚁集团、 京东 、美团、快手、百川智能、赖耶科技以及Votee AI等国内多家云与互联网企业,这些企业将分享在大语言模型 (LLM)、多模态大语言模型 ...
SAN FRANCISCO, March 13, 2025 /PRNewswire/ -- Patronus AI today announced the launch of the industry's first Multimodal LLM-as-a-Judge (MLLM-as-a-Judge), a groundbreaking evaluation capability that ...
SAN FRANCISCO, March 13, 2025 /PRNewswire/ -- Patronus AI today announced the launch of the industry's first Multimodal LLM-as-a-Judge (MLLM-as-a-Judge), a groundbreaking evaluation capability ...