Sonnet 2 - 搜索 News

4 小时

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台 ...

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

1 天

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )，一家市值389万美元的微型制药公司，在其总裁、CEO和董事长Pankaj Mohan于2025年3月31日去世后宣布了重大领导层变动。根据 InvestingPro ...

9 小时

OpenAI推出PaperBench评测基准，AI能否超越人类？

在科技迅猛发展的今天，人工智能到底能走多远？近日，OpenAI又一次引发了我们对AI前景的深刻思考。当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布了PaperBench的推出，这个新基准的提出，似乎是对智能体研究能力的一次全新挑战。

人人都是产品经理 on MSN1 天

强制提升ChatGPT-4o、Claude 3.5 sonnet等任何AI模型生成质量的提示词系统

Chatgpt、claude等生成式人工智能平台的崛起，让更多人意识到了“AI的时代已经到来”，而国内deepseek模型中的“深度思考”模式却让全世界为之震撼。

9 小时

OpenAI宣布推出AI Agent评测基准PaperBench

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 ...

3 小时

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演 ...

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM，结果就是——人类并没有一败涂地！“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集，结果发现模型的性能尚未超过人类基线。” ...

生物通1 天

大型语言模型在罕见病识别中的比较分析：助力精准诊断的新突破

为解决罕见病诊断困难（如诊断延迟、误诊等）的问题，研究人员开展了对多种大型语言模型（LLMs）在罕见病识别中有效性的研究。结果显示 LLMs 表现优于人类医生，Claude 3.5 Sonnet 准确率最高。这为临床诊断提供了新工具，有重要意义。

5 小时

OpenAI的AI复现论文新基准，Claude拿了第一名

4 月 3 日，OpenAI 推出了 PaperBench（论文基准测试），这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / ...

6 小时

OpenAI推出AI Agent评测基准PaperBench

OpenAI在当地时间4月2日正式宣布，推出了一个旨在评估AI智能体复现前沿AI研究能力的基准——PaperBench。该基准的推出，标志着AI领域在评估智能体能力方面迈出了重要一步。

红板报 on MSN12 小时

刚刚，OpenAI开源PaperBench，重塑顶级AI Agent评测

今天凌晨1点，OpenAI开源了一个全新的AI Agent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力，需要对2024年国际机器学习大会上顶尖论文的复现，包括对论文内容的理解、代码编写以及实验执行等方面的能力。

生物通4 天

大型语言模型在膀胱镜检查中的诊断效能：开启泌尿外科精准诊断新 ...

为解决膀胱镜图像解读存在的主观性强、观察者间差异大等问题，研究人员开展了 “诊断性能的先进大型语言模型在膀胱镜检查” 主题研究。结果显示 ChatGPT-4 V 和 Claude 3.5 Sonnet 综合诊断准确率为 89.2%。该研究为泌尿外科诊断提供新方向。

红板报 on MSN15 小时

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

梦晨发自凹非寺量子位 | 公众号 QbitAI OpenAI承认Claude是最好的了（狗头）。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果