传统的视觉指令微调(Visual Instruction Tuning/Supervised Fine-Tuning,SFT)需要海量数据对模型微调,在数据量有限(例如某些难以收集数据的特定学科场景)的情况下带来的提升有限。我们提出的视觉强化微调(Visual Reinforcement Fine-Tuning)具有少样本学习能力和更强的泛化性,在数据量有限的场景下相比指令微调具有很大的优势。
近期,上海交通大学、AILab和香港中文大学的研究团队共同推出的Visual-RFT(Visual Reinforcement Fine-Tuning)项目引起了广泛关注。这个开源项目不仅实现了大规模多模态大模型的性能提升,还为图像和文本的结合训练开辟了新的思路。举个例子,在回答‘什么宝可梦可以释放技能十万伏特’时,该模型能在思考过程中准确识别出皮卡丘并指定其坐标框,由此展示出它卓越的泛化能力。
在OpenAI连续12天的技术发布会上,一项名为RFT (Reinforcement-based ...
你的工作会被AI取代吗?这个问题的答案可能就在眼前。近日,一项名为RFT(Reinforcement-based ...