本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生,目前主要关注统一的多模态任务建模算法。指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 ...
Introduce some user-specific concepts to our RAP-LLaVA, it can remember them and achieve excellent performance in a variety of personalized multimodal generation tasks. Visit our Project Page for more ...
In this work, we systematically review recent advancements in MLLM tuning methodologies, classifying them into three paradigms: (I) Selective Tuning, (II) Additive Tuning, and (III) Reparameterization ...
在人工智能快速发展的今天,多模态大型语言模型(MLLM)成为了科技界的热门话题。由中国科学院院士谭铁牛及其团队领导的最新研究,深入探讨了多模态LLM中对齐算法的先进技术,为MLLM的发展指明了方向。这项研究不仅系统性地梳理了对齐算法的应用场景,还详细分析了构建对齐数据集的核心要素,为学术界和产业界提供了宝贵的参考。
Arena-Hard是一个全面的多维度基准,旨在评估中文LLM的对齐能力。AlpacaEval-V2提出了一种简单的回归分析方法,用于控制自评中的长度偏差。Arena-Hard通过增加模型性能的分离度三倍,达到了98.6%的与人类偏好排名的相关性。MM-AlignBench是一个专门设计的手工注释基准,旨在评估与人类价值观的对齐。
UFO 提出了一种基于特征检索的分割方法,将分割任务重新定义为计算 token 特征和图像特征的相似度,无需 SAM,最多仅需输出 16 个 token 即可实现 MLLM 的精细分割。 本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生 ...
Abstract: CAD drawing restoration is one of the most urgent needs in industrial manufacturing. The existing research focuses on the digitization of CAD drawings, However, there are actually many ...