Sonnet 6 - 搜索 News

4 小时

Claude 3.5首战复现21%顶会论文，人类博士无法取代，OpenAI：AI全是草台 ...

AI若能自主复现顶尖科研论文，未来科研将被掀翻天。OpenAI最新框架PaperBench正为此生，让AI智能体从头开始复现ICML 2024 20篇优秀论文，只有Claude 3.5 Sonnet拔得头筹，但仍无法超越ML博士水平。

1 天

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ: SONN )，一家市值为411万美元的专注于肿瘤治疗的生物技术公司，宣布任命Raghu Rao为临时首席执行官，此举是在创始人兼CEO Pankaj Mohan博士意外去世后作出的。根据 InvestingPro ...

人人都是产品经理 on MSN1 天

强制提升ChatGPT-4o、Claude 3.5 sonnet等任何AI模型生成质量的提示词系统

Chatgpt、claude等生成式人工智能平台的崛起，让更多人意识到了“AI的时代已经到来”，而国内deepseek模型中的“深度思考”模式却让全世界为之震撼。

7 天on MSN

Claude 3.7 Sonnet AI 被曝将祭出上下文 50 万 tokens 杀手锏

IT之家 3 月 27 日消息，科技媒体 testingcatalog 昨日（3 月 26 日）发布博文，报道称 AI 公司 Anthropic 正计划“扩容”Claude 3.7 Sonnet 模型，将其上下文窗口将从 20 万 token 跃升至 ...

搜狐8 天

DeepSeek的一次小更新，堪比发布新模型。

Claude 3.7 Sonnet 的输入和输出价格分别是 36.6 元和 108.9 元，价差最多有 18 倍。所以在某种程度上， V3-0324 这个小更新，的确可以跟 Claude 3.7 Sonnet 媲美。特别是今天晚上，DeepSeek官方还发文，正式介绍了这波小更新，在数学、代码类的相关评测上，V3-0324比OpenAI ...

9 天

DeepSeek V3-0324 低调发布，代码能力直逼 Claude 3.7 Sonnet

没有铺天盖地的宣传，也没有大张旗鼓的发布会，DeepSeek 在 3 月 24 日晚间低调推出了最新的 V3-0324 版本，目前已在 Hugging Face 开源，可供下载和测试。

生物通1 天

大型语言模型在罕见病识别中的比较分析：助力精准诊断的新突破

为解决罕见病诊断困难（如诊断延迟、误诊等）的问题，研究人员开展了对多种大型语言模型（LLMs）在罕见病识别中有效性的研究。结果显示 LLMs 表现优于人类医生，Claude 3.5 Sonnet 准确率最高。这为临床诊断提供了新工具，有重要意义。

品玩 on MSN15 小时

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

品玩4月3日讯，据界面新闻报道，OpenAI宣布推出 PaperBench——一个评估 AI 智能体复现前沿 AI 研究能力的基准。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral ...

51CTO28 天

我用 Claude Sonnet 和 DeepSeek R1 开发一个同样的工具，看谁更厉害！

先给 DeepSeek 泼一盆冷水，DeepSeek 在编程能力上和 Claude Sonnet 还是差了一大截的。下面有使用 Sonnet 3.5 和 DeepSeek R1 配合 Trae 实现一个推文生成图片卡片小插件的过程，功能虽小，但还是能看出差距的。先给 DeepSeek 泼一盆冷水，DeepSeek 在编程能力上和 Claude Sonnet ...

5 小时

OpenAI的AI复现论文新基准，Claude拿了第一名

4 月 3 日，OpenAI 推出了 PaperBench（论文基准测试），这是一个用于评估 AI 智能体自主复现前沿人工智能研究能力的基准测试系统。如果大模型智能体具备了自动写 AI / ...

6 天on MSN

小型开源模型借GRPO算法，在《时空谜题》中超越OpenAI等顶尖推理模型

近日，海外知名大模型产品平台OpenPipe公布了一项令人瞩目的研究成果，该研究成功地在重度推理游戏《时空谜题》中，利用一种名为GRPO的强化学习算法，使小型开源模型的表现超越了多个业界领先的推理模型，包括DeepSeek R1、OpenAI的o1和o3-mini，以及Anthropic的Claude Sonnet 3.7。这项研究的作者是来自Ender ...

3 小时

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演 ...

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM，结果就是——人类并没有一败涂地！“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集，结果发现模型的性能尚未超过人类基线。” ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果