Sonnet 13 - 搜索 News

1 天

OpenAI新基准测试揭示Claude-3.5-Sonnet强势领先，AI技术革新再引关注

在人工智能领域，技术革新不断推动行业前行。最近，OpenAI推出新基准测试PaperBench，聚焦于AI智能体在复现ICML2024顶会论文中的表现，以期提升AI的综合能力。根据测试结果，新版Claude-3.5-Sonnet显著超越其他竞争对手， ...

2 天

Sonnet BioTherapeutics任命临时CEO和新总裁

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )，一家市值389万美元的微型制药公司，在其总裁、CEO和董事长Pankaj Mohan于2025年3月31日去世后宣布了重大领导层变动。根据 InvestingPro ...

1 天

OpenAI PaperBench新框架揭示AI复现科研潜力，但仍难超越人类博士

【导读】AI如果能够自主复现顶尖科研论文，未来的科研世界将会发生翻天覆地的变化。OpenAI近日推出了新的框架PaperBench，旨在评估AI智能体在科研复现中的能力。此框架要求AI智能体从零开始复现2024年国际机器学习大会（ICML）的20篇优秀论文，亟需理解论文核心内容、开发可运行的代码库，并执行实验验证结果。尽管Claude 3.5 ...

1 天

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台 ...

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

2 天

Sonnet BioTherapeutics在创始人去世后任命临时CEO

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )，一家市值为411万美元的专注于肿瘤治疗的生物技术公司，宣布任命Raghu Rao为临时首席执行官，此举是在创始人兼CEO Pankaj Mohan博士意外去世后作出的。根据 InvestingPro ...

37 分钟

思维链不可靠：Anthropic曝出大模型「诚信」问题，说一套做一套

这就好比在考试前给学生塞一张纸条，上面写着「答案是 A」。如果他们在考试中写道，他们选择 A 至少部分是因为纸条的缘故，这就是好消息：他们诚实守信。但如果他们写下了他们声称的推理过程，却丝毫没有提到纸条，可能就有问题了。

腾讯网18 小时

日前OpenAI推出并开源全新AI Agent评测基准

当地时间4月2日，OpenAI方面宣布推出并开源一个全新的、名为PaperBench的AI智能体（AI ...

1 天

OpenAI的AI复现论文新基准，Claude拿了第一名

4 月 3 日，OpenAI 推出了 PaperBench（论文基准测试），这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / ...

1 天

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演 ...

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM，结果就是——人类并没有一败涂地！“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集，结果发现模型的性能尚未超过人类基线。” ...

51CTO3 天

港大开源博士级AI智能体，独立完成三篇算法研究，一站式科研6小时 ...

近日，香港大学数据智能实验室推出了一款开源的AI-Researcher系统，以Claude-3.5-sonnet作为核心，兼容DeepSeek、HuggingFace 等主流大模型生态。这三篇论文，出自同一AI之手。随着人工智能技术的迅猛发展，OpenAI提出的五级模型（涵盖从对话系统到协作管理者 ...

腾讯网17 小时

Cartesia: 3 个月融资 9100 万美元，从 Transformer 到 Mamba 重塑语音 AI

作者：linlin编辑：haina2025 年 3 月 11 日，语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资，距其 2700 万美元种子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins ...

天天基金网3 天

万亿巨头跻身AI智能体赛道！亚马逊推出Nova Act

当然对于亚马逊这样拥有全球数亿用户的电商巨头而言，进入智能体赛道本身的意义已经足够重要。根据过往对OpenAI、谷歌的产品测试，现在的AI智能体仍存在反应迟缓、难以长时间独立运作、常犯低级错误等严重影响使用的缺陷。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果