Sonnet 20 - 搜索 News

1 天

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

1 天

在人工智能领域，技术革新不断推动行业前行。最近，OpenAI推出新基准测试PaperBench，聚焦于AI智能体在复现ICML2024顶会论文中的表现，以期提升AI的综合能力。根据测试结果，新版Claude-3.5-Sonnet显著超越其他竞争对手， ...

1 天

在科技迅猛发展的今天，人工智能到底能走多远？近日，OpenAI又一次引发了我们对AI前景的深刻思考。当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布了PaperBench的推出，这个新基准的提出，似乎是对智能体研究能力的一次全新挑战。

7 天

50 万 tokens ...

7 天on MSN

IT之家 3 月 27 日消息，科技媒体 testingcatalog 昨日（3 月 26 日）发布博文，报道称 AI 公司 Anthropic 正计划“扩容”Claude 3.7 Sonnet 模型，将其上下文窗口将从 20 万 token 跃升至 50 万 token。

31 分钟

这就好比在考试前给学生塞一张纸条，上面写着「答案是 A」。如果他们在考试中写道，他们选择 A 至少部分是因为纸条的缘故，这就是好消息：他们诚实守信。但如果他们写下了他们声称的推理过程，却丝毫没有提到纸条，可能就有问题了。

为解决罕见病诊断困难（如诊断延迟、误诊等）的问题，研究人员开展了对多种大型语言模型（LLMs）在罕见病识别中有效性的研究。结果显示 LLMs 表现优于人类医生，Claude 3.5 Sonnet 准确率最高。这为临床诊断提供了新工具，有重要意义。

ZEALER on MSN8 天

近日，DeepSeek低调发布大语言模型升级版本DeepSeek-V3-0324。该模型参数量达6850亿，采用混合专家（MoE）架构，仅激活约370亿参数，通过MIT开源协议免费开放商业使用，并支持在消费级硬件如搭载M3 Ultra芯片的 ...

一些您可能无法访问的结果已被隐去。