本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生,目前主要关注统一的多模态任务建模算法。指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 ...
Introduce some user-specific concepts to our RAP-LLaVA, it can remember them and achieve excellent performance in a variety of personalized multimodal generation tasks. Visit our Project Page for more ...
In this work, we systematically review recent advancements in MLLM tuning methodologies, classifying them into three paradigms: (I) Selective Tuning, (II) Additive Tuning, and (III) Reparameterization ...
在人工智能快速发展的今天,多模态大型语言模型(MLLM)成为了科技界的热门话题。由中国科学院院士谭铁牛及其团队领导的最新研究,深入探讨了多模态LLM中对齐算法的先进技术,为MLLM的发展指明了方向。这项研究不仅系统性地梳理了对齐算法的应用场景,还详细分析了构建对齐数据集的核心要素,为学术界和产业界提供了宝贵的参考。
Arena-Hard是一个全面的多维度基准,旨在评估中文LLM的对齐能力。AlpacaEval-V2提出了一种简单的回归分析方法,用于控制自评中的长度偏差。Arena-Hard通过增加模型性能的分离度三倍,达到了98.6%的与人类偏好排名的相关性。MM-AlignBench是一个专门设计的手工注释基准,旨在评估与人类价值观的对齐。
UFO 提出了一种基于特征检索的分割方法,将分割任务重新定义为计算 token 特征和图像特征的相似度,无需 SAM,最多仅需输出 16 个 token 即可实现 MLLM 的精细分割。 本文作者来自北京大学和阿里通义万相实验室。其中论文第一作者是汤昊,北京大学 2022 级博士生 ...
Abstract: CAD drawing restoration is one of the most urgent needs in industrial manufacturing. The existing research focuses on the digitization of CAD drawings, However, there are actually many ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果