10 Dpo - 搜索 News

美职联：梅西复出2分钟破门+4连击！迈阿密国际2-1豪取7连胜北京时间3月30日，2025赛季美职联焦点战，迈阿密国际主场2-1击败费城联合，取得各项赛事7连胜。泰勒首开纪录，梅西伤愈复出替补登场，仅仅2分钟就破门得分，加兹道格扳回一球。足总杯四分之一决赛，曼城客场2比1逆转伯恩茅斯足总杯四分之一决赛，曼城客场2比1逆转 ...

7 天

Midjourney新研究发力创意文本生成，让LLM写作更具创意

以AI图像生成技术闻名遐迩的Midjourney，正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司，在自研计算和AI硬件的消息之后，近期携手纽约大学（NYU）的机器学习专家，发布了一项关于训练文本生成大语言模型 (LLMs)的最新研究成果。

9 天

田渊栋和Sergey Levine参与开发新型RL算法，能通过多轮训练让智能体 ...

首先，比较「单轮」结果和其他协作结果，可以看到多轮协作可以通过将最终结果与人类模拟器的参考「期望」更紧密地结合起来，从而大大提高 LLM 智能体在 artifact 创建方面的性能。如果智能体必须在一个轮次内直接生产最终结果，那么即使是表现最好的 ...

来自MSN11 天

中国瓜子、辣条如何“攻陷”6.7亿人的胃？

2023年，泰国人均年零食消费量达到10.52公斤，差不多是161袋袋装乐事薯片（65克）的重量总和，换句话说，这一年中泰国消费者每两天就要吃掉一袋薯片。且泰国零食市场仍在以每年5%的增速高速增长。

13 天

ICLR 2025 | 小型AI也能懂人类？中山大学全新方法ADPA让小模型对齐实现 ...

从大模型“一枝独秀”到小模型“迎头赶上”，AI 对齐技术正在迎来新的转折点。这项被 ICLR 2025 接受并入选 Spotlight 的研究意义重大，不仅在于技术突破，更在于它让我们看到：即使是“小个子”模型，也能通过“借力”大模型和优化方法（如 ...

腾讯网18 天

定了！“国君+海通”合并后新公司定名“国泰海通证券”

3月14日，澎湃新闻记者从知情人士处获悉，国泰君安证券与海通证券合并后公司名称为“国泰海通证券”。作为新“国九条”实施以来首例头部券商合并重组，国泰君安证券与海通证券合并后的公司名称一直广受关注，此前网络上也有多种猜测。“合并后公司名称为国泰海通在意 ...

新浪网25 天

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

仅使用了 7 万条数学数据，通过两阶段的课程学习 SFT 接着 DPO，即可超过 DeepSeek-R1-Distill-Qwen-32B，12 台 H800 机器的训练时长仅需 6 小时以内（约 4+0.5+0 ...

腾讯网27 天

DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

而直接偏好优化（DPO）及其衍生变体作为离线算法，凭借简单易用、稳定性强等优势，近来广受关注。 DPO主要通过最大化选定响应与拒绝响应间的 ...

搜狐1 个月

突破传统：推理时偏好优化引领大语言模型新思路

然而，确保这些模型生成的回复既契合预期又安全，始终是一个值得关注的主要挑战。传统的偏好对齐方法，比如基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO），由于倚赖于在训练过程中的模型参数更新，在应对迅速变化的数据和需求时显得力不从心。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果