Sonnet 41 - 搜索 News

1 天

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台 ...

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

1 天

OpenAI PaperBench新框架揭示AI复现科研潜力，但仍难超越人类博士

【导读】AI如果能够自主复现顶尖科研论文，未来的科研世界将会发生翻天覆地的变化。OpenAI近日推出了新的框架PaperBench，旨在评估AI智能体在科研复现中的能力。此框架要求AI智能体从零开始复现2024年国际机器学习大会（ICML）的20篇优秀论文，亟需理解论文核心内容、开发可运行的代码库，并执行实验验证结果。尽管Claude 3.5 ...

6 小时

思维链不可靠：Anthropic曝出大模型「诚信」问题，说一套做一套

这就好比在考试前给学生塞一张纸条，上面写着「答案是 A」。如果他们在考试中写道，他们选择 A 至少部分是因为纸条的缘故，这就是好消息：他们诚实守信。但如果他们写下了他们声称的推理过程，却丝毫没有提到纸条，可能就有问题了。

1 天

OpenAI新框架PaperBench：AI复现科研论文挑战中的表现与前景

【新智元导读】2024年，人工智能（AI）在科研领域的角色愈发引人注目。OpenAI最新发布的框架PaperBench，旨在评估AI智能体在复现顶尖学术研究中的能力，成为了业界关注的焦点。论文复现的挑战不仅关乎科学的进步，更揭示了人类和AI之间的微妙关系。目前来看，即使是Claude 3.5 Sonnet这一先进的AI模型，也未能完全取代人类的科学才能。

英为财情9 天

Sonnet生物制药公司在肉瘤药物试验中报告积极初步结果

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ:SONN)，一家市值为417万美元的临床阶段生物制药公司，宣布其正在进行的SB101 I期临床试验首次审查中获得了令人鼓舞的安全性数据。根据InvestingPro数据，该公司保持强劲的流动性状况，资产负债表上的现金多于债务。

中华网新闻频道9 天

DeepSeek“小更新”表现远超预期代码能力显著提升

昨晚，DeepSeek 无预警发布了 DeepSeek-V3-0324 模型。虽然官方低调地称其为“小版本迭代”，但实测表现远超预期。该模型在代码生成、前端开发等方面显著提升，部分能力甚至比肩 Claude 3.7 Sonnet，引发了全球 AI ...

腾讯网14 天

MCP：跨越AI模型与现实的桥梁

阿里妹导读本文主要围绕AI技术的进步，特别是Anthropic的Claude 3.7 Sonnet模型在逻辑推理、代码生成和复杂任务执行方面的能力提升及其应用场景。一、引言AI ...

人人都是产品经理 on MSN8 天

地表最强，Gemini 2.5Pro发布！多模型对比实测到底如何？请看文章

Google近期发布的Gemini 2.5 Pro Experimental模型，以其卓越的性能和多模态处理能力，引发了业界的广泛关注。本文将详细介绍Gemini 2.5 Pro的关键特性，并通过与多个主流模型的对比实测，深入分析其在不同任务中的表现 ...

1 天

OpenAI的AI复现论文新基准，Claude拿了第一名

4 月 3 日，OpenAI 推出了 PaperBench（论文基准测试），这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / ...

第一生活网2 天

助力上海小鱼儿玄机30码资料道路管理升级智慧交通新成果 "云路 ...

2025年1月，胡润研究院发布《2024胡润全球高质量企业TOP1000》。本次榜单主要以企业市值或估值为依据，列出了全球价值最高的1000家企业。与《胡润世界500强》相比，上榜公司数量从500家增至1000家，并首次将国有企业纳入榜单。美国以413家公司领先，中国以134家位居第二。金融服务以210家公司领先，其次是能源、医疗健小鱼儿玄机30码资料康和软件与服务。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果