LLM SFT - 搜索 News

9 天

最近，CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文，针对SFT做出了更进一步的改进，提出批判式监督微调方法（CFT，Critique Fine-Tuning），旨在让模型更有效地模仿模仿数据集。

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！AMD在官网开源了最新小参数模型Instella-3B。比较特别的是，这是一个基AM ...

10 天

批判式微调：让SFT重焕生机的科技突破

【新智元导读】在复杂推理任务的挑战面前，传统的监督微调（SFT）常显得捉襟见肘。最近，来自卡内基梅隆大学（CMU）的华人研究团队带来了令人振奋的突破——批判式微调（CFT）方法，仅需50K样本的训练量，就在多项基准测试上超越了使用200多万个样本的强化学习策略！

6 天

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可 ...

与主要由电影片段组成的MAFW和DFEW数据集不同，RAVDESS数据集特点是专业演员以中性北美口音发表词汇匹配的陈述，这种数据分布的显著差异使RAVDESS成为评估模型泛化到未见场景能力的理想基准。

新浪网5 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

大语言模型（LLM）在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力，比如 OpenAI 的 o1 系列。通常来说，这些方法在训练模型 ...

新浪网7 天

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可 ...

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种 ... 0.5B、在EMER数据集上进行监督微调的模型EMER-SFT、直接在MAFW和DFEW训练集上基于HumanOmni-0.5B ...

来自MSN29 天

结构为王：AI 推理新思路，思维链结构成突破 LLM 高效训练关键

提升 LLM 推理能力的难点在于训练模型生成 ... 微调 Qwen2.5-32B-Instruct 模型，并结合了 SFT 和 LoRA 微调技术，强调优化推理步骤的结构完整性而非内容 ...

来自MSN15 天

OpenAI公布迄今最大LLM GPT-4.5，费用是4o的30倍

OpenAI昨日公布GPT-4.5研究预览版推向ChatGPT，但价格也大幅调升，比GPT-4o贵30倍。 GPT-4.5是OpenAI最大知识最丰富的模型。OpenAI团队以新的监督手法结合GPT-4o使用的传统方法，如监督式微调（supervised fine-tuning，SFT）及人员反馈的强化式学习（reinforcement learning ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果