Sonnet 12 - 搜索 News

1 天

OpenAI新基准测试揭示Claude-3.5-Sonnet强势领先，AI技术革新再引关注

在人工智能领域，技术革新不断推动行业前行。最近，OpenAI推出新基准测试PaperBench，聚焦于AI智能体在复现ICML2024顶会论文中的表现，以期提升AI的综合能力。根据测试结果，新版Claude-3.5-Sonnet显著超越其他竞争对手， ...

2 天

Sonnet BioTherapeutics任命临时CEO和新总裁

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )，一家市值389万美元的微型制药公司，在其总裁、CEO和董事长Pankaj Mohan于2025年3月31日去世后宣布了重大领导层变动。根据 InvestingPro ...

1 天

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台 ...

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

英为财情3 天

Sonnet BioTherapeutics在创始人去世后任命临时CEO

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ:SONN)，一家市值为411万美元的专注于肿瘤治疗的生物技术公司，宣布任命Raghu Rao为临时首席执行官，此举是在创始人兼CEO Pankaj Mohan博士意外去世后作出的。根据InvestingPro分析，尽管该公司在过去一年股价下跌了91% ...

1 天

刚刚，OpenAI开源PaperBench，重塑顶级AI Agent评测

为验证自动评分系统的准确性，PaperBench创建了单独的评分系统基准测试JudgeEval，通过比较自动评分系统的输出与人类专家的评分结果来评估其性能。这一过程不仅确保自动评分系统的可靠性，也为未来的评分系统改进提供重要参考。

腾讯网18 小时

日前OpenAI推出并开源全新AI Agent评测基准

当地时间4月2日，OpenAI方面宣布推出并开源一个全新的、名为PaperBench的AI智能体（AI ...

1 天

OpenAI推出AI Agent评测基准PaperBench

OpenAI在当地时间4月2日正式宣布，推出了一个旨在评估AI智能体复现前沿AI研究能力的基准——PaperBench。该基准的推出，标志着AI领域在评估智能体能力方面迈出了重要一步。

爱范儿6 天

Google 将逐步终止 Android 的开源部分

爱范儿 3 月 27 日独家报道，Google 不再维护 AOSP 公开分支，最终将除法定义务开源的底层之外的中上层部分转为闭源以降低成本。据爱范儿了解，AOSP ...

品玩 on MSN1 天

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

品玩4月3日讯，据界面新闻报道，OpenAI宣布推出 PaperBench——一个评估 AI 智能体复现前沿 AI 研究能力的基准。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral ...

红板报 on MSN1 天

OpenAI官方基准测试：承认Claude遥遥领先（狗头）

梦晨发自凹非寺量子位 | 公众号 QbitAI OpenAI承认Claude是最好的了（狗头）。

1 天

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演 ...

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM，结果就是——人类并没有一败涂地！“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集，结果发现模型的性能尚未超过人类基线。” ...

51CTO3 天

港大开源博士级AI智能体，独立完成三篇算法研究，一站式科研6小时 ...

近日，香港大学数据智能实验室推出了一款开源的AI-Researcher系统，以Claude-3.5-sonnet作为核心，兼容DeepSeek、HuggingFace 等主流大模型生态。这三篇论文，出自同一AI之手。随着人工智能技术的迅猛发展，OpenAI提出的五级模型（涵盖从对话系统到协作管理者 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果