Sonnet 32 - 搜索 News

1 天

在科技迅猛发展的今天，人工智能到底能走多远？近日，OpenAI又一次引发了我们对AI前景的深刻思考。当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布了PaperBench的推出，这个新基准的提出，似乎是对智能体研究能力的一次全新挑战。

1 天

OpenAI推出AI Agent评测基准PaperBench，揭示AI性能瓶颈——AI智能体复现 ...

在人工智能飞速发展的今天，如何评估AI智能体的能力成为了一个重要课题。当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench。这一最新基准的推出，标志着对AI智能体复现前沿研究能力的全新考量。

生物通5 天

大型语言模型在膀胱镜检查中的诊断效能：开启泌尿外科精准诊断新 ...

为解决膀胱镜图像解读存在的主观性强、观察者间差异大等问题，研究人员开展了 “诊断性能的先进大型语言模型在膀胱镜检查” 主题研究。结果显示 ChatGPT-4 V 和 Claude 3.5 Sonnet 综合诊断准确率为 89.2%。该研究为泌尿外科诊断提供新方向。

英为财情9 天

Sonnet生物制药公司在肉瘤药物试验中报告积极初步结果

Investing.com — Sonnet BioTherapeutics Holdings, Inc. (NASDAQ:SONN)，一家市值为417万美元的临床阶段生物制药公司，宣布其正在进行的SB101 I期临床试验首次审查中获得了令人鼓舞的安全性数据。根据InvestingPro数据，该公司保持强劲的流动性状况，资产负债表上的现金多于债务。

中华网新闻频道9 天

DeepSeek“小更新”表现远超预期代码能力显著提升

昨晚，DeepSeek 无预警发布了 DeepSeek-V3-0324 模型。虽然官方低调地称其为“小版本迭代”，但实测表现远超预期。该模型在代码生成、前端开发等方面显著提升，部分能力甚至比肩 Claude 3.7 Sonnet，引发了全球 AI ...

51CTO9 天

DeepSeek V3深夜低调升级，代码进化令人震惊，网友实测可媲美Claude 3.5 ...

模型放出来后，DeepSeek-V3-0324 的代码能力让所有人震惊了！有人表示，经过自己的测试，DeepSeek-V3-0324 在数学推理和前端开发方面的表现优于 Claude 3.5 和 Claude 3.7 Sonnet。 X 博主「@KuittinenPetri」表示，Anthropic 和 OpenAI 陷入了困境。更新后的 DeepSeek-V3-0324 可以轻松 ...

人人都是产品经理 on MSN8 天

地表最强，Gemini 2.5Pro发布！多模型对比实测到底如何？请看文章

Google近期发布的Gemini 2.5 Pro Experimental模型，以其卓越的性能和多模态处理能力，引发了业界的广泛关注。本文将详细介绍Gemini 2.5 Pro的关键特性，并通过与多个主流模型的对比实测，深入分析其在不同任务中的表现 ...

腾讯网10 天

网友热评Deepseek新版V3：编程堪比最强AI，期待更强R2！

闷声干大事！DeepSeek悄然发布V3新版本。没有发布会，没有媒体宣传，3月24日晚间，DeepSeek就这样“悄悄地”将其最新版V3-0324模型上传至Hugging Face。根据社区测试和分析，此次更新虽然不是全新一代模型，仅属于“小版本升级 ...

爱范儿6 天

Google 将逐步终止 Android 的开源部分

爱范儿 3 月 27 日独家报道，Google 不再维护 AOSP 公开分支，最终将除法定义务开源的底层之外的中上层部分转为闭源以降低成本。据爱范儿了解，AOSP ...

腾讯网10 天

刚3月，已有9家AI企业融资超1亿美元

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！AI到底是不是泡沫，到了发展临界点了吗？还会受到资本市场的青睐吗？其实从融资领域就能 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果