Sonnet 21 - 搜索 News

订购者最佳匹配最新鲜

1 天

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台 ...

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

1 天

OpenAI发布PaperBench，AI论文复现率居然达21%！科学研究的未来已然开启

在这个瞬息万变的科技时代，OpenAI再次吸引了全世界的目光。他们发布的新基准测试“PaperBench”，专注于衡量人工智能模型在复现顶级学术论文方面的能力。令人振奋的是，最新一轮测试显示，AI模型Claude 3.5 Sonnet已实现21%的复现率，这不仅是对现有科研能力的挑战，更是对整个科学界的一次重大推动。

1 天

OpenAI新框架PaperBench：AI复现科研论文挑战中的表现与前景

【新智元导读】2024年，人工智能（AI）在科研领域的角色愈发引人注目。OpenAI最新发布的框架PaperBench，旨在评估AI智能体在复现顶尖学术研究中的能力，成为了业界关注的焦点。论文复现的挑战不仅关乎科学的进步，更揭示了人类和AI之间的微妙关系。目前来看，即使是Claude 3.5 Sonnet这一先进的AI模型，也未能完全取代人类的科学才能。

8 天

Sonnet生物制药公司在肉瘤药物试验中报告积极初步结果

肉瘤肿瘤中心的首席研究员Sant Chawla博士对SON-1010与trabectedin联合使用提高治疗效果的潜力表示乐观。该试验的主要结果指标包括SON-1010的安全性、耐受性、药代动力学和药效学，以及确定最大耐受剂量。

腾讯网18 小时

日前OpenAI推出并开源全新AI Agent评测基准

当地时间4月2日，OpenAI方面宣布推出并开源一个全新的、名为PaperBench的AI智能体（AI ...

1 天

OpenAI推出PaperBench测试AI研究复现能力

Investing.com — 周三，OpenAI宣布发布PaperBench，这是一个新的基准测试工具，旨在评估AI代理在复现前沿AI研究方面的能力。该工具是OpenAI准备框架 (Preparedness ...

1 天

OpenAI的AI复现论文新基准，Claude拿了第一名

4 月 3 日，OpenAI 推出了 PaperBench（论文基准测试），这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / ...

1 天

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演 ...

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM，结果就是——人类并没有一败涂地！“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集，结果发现模型的性能尚未超过人类基线。” ...

品玩 on MSN14 天

Anthropic 宣布为 Claude 增加联网搜索功能

品玩3月21日讯，据 TechCrunch 报道，Anthropic 宣布为旗下 Claude 聊天机器人增加网络搜索功能。

Google 将逐步终止 Android 的开源部分

爱范儿 3 月 27 日独家报道，Google 不再维护 AOSP 公开分支，最终将除法定义务开源的底层之外的中上层部分转为闭源以降低成本。据爱范儿了解，AOSP ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果