在人工智能(AI)的世界里,一场没有硝烟的战争正在悄然上演。近期,来自港大、剑桥和北大的研究人员联合发布了一项名为GameBoT的评测基准,这场较量汇聚了17款顶尖的大规模语言模型,在八种经典的棋牌游戏上一决高下。在这场智力与策略并重的比拼中,OpenAI推出的o3-mini模型以出色的表现脱颖而出,而另一款备受瞩目的国产AI——DeepSeek R1则略显逊色,尤其是在游戏推理的中间步骤上。
在论文发布的版本里,作者评测了包括 GPT-4o,Claude-35-Sonnet, Gemini-1.5-pro-preview 等17个当时最领先的 LLM,每两个模型在每个游戏上进行20轮相互对抗赛(10 轮先手 10 ...
推理大模型新范式:从o1到DeepSeek-R1再到QwQ-32B ...
AI的到来也迫使写作者重新思考何为独属于人的表达,或许,肉身的存在将成为其核心特征。借用陈平原先生对未来文学教育的猜想,文学创作或将变得更加私人化,读者不再是首要考量,写作首先是为了“感动自己、愉悦自己、充实自己”,创作者将写作本身视为意义。写作的私人化不仅会改变创作目的,也使得创作环境、历史背景与个体的生命体验成为作品不可忽视的一部分。或许,未来的文学作品除了传统的终稿外,记录创作的思考过程、带 ...
联通“同舟”着力打造AI服务中枢,以AI咨询服务引领,从企业AI应用诉求及业务场景出发,情景化、能力化深度服务企业数字化转型过程,依托智能分析决策与自动化等方面的优势,助力企业业务流程、运营效率与服务质量更智能高效: ...
科技赋能合规管理,打造智能防线。
继香橙派昇腾系列产品、OrangePi 5系列产品完成与 DeepSeek 模型的深度适配之后,香橙派日前官方发布OrangePi RV2运行Deepseek-R1蒸馏模型实操指南。OrangePi ...
近来,各大电商平台关于AI电商的动作不断。最新消息显示,淘天集团阿里妈妈将其广告自研模型LMA参数规模提升了10倍,达到万亿参数级别;同时其宣布升级AIGB-R1版本,以大幅提升广告投放的ROI达标率。 据悉,LMA是淘天集团自研的首个广告领域大模型 ...
OpenAI o系列模型在默认状态下对高危请求表现出极高的警惕性。在未遭攻击时,它们在「恶意教育者」基准上的平均拒绝率高达98%以上。模型会坚定地拒绝大多数不当请求,展现出较完善的内置安全政策。然而,在H-CoT攻击下,这一道防线迅速土崩瓦解。
去年12月,DeepSeek发布了大语言模型V3,并在今年1月推出了推理模型R1。根据伯恩斯坦研究公司的分析,这些模型在性能上与OpenAI的同类模型相当甚至更优秀,但价格“便宜20-40倍”。
近 日,YY公司宣布与知名开源大模型DeepSeek达成深度合作,正式推出“YY-DeepSeek R1-满血版”(简称YYDS)。该版本针对DeepSeek原有服务进行了全面优化,显著降低延迟并提升响应速度,目前已在YY直播、YY语音等 平台 ...
2024年第四季度,阿里云以36%的市场份额继续领跑中国大陆云服务市场,同比增长10%,主要受益于强劲的AI需求推动。AI相关收入已连续六个季度实现三位数增长。截至2025年1月,通过通义百炼平台调用Qwen API的用户已超过29 万。Qwen系模型在 Hugging Face上的数量已超9万个,且开源模型排行榜前十均基于Qwen构建。为进一步强化AI能力,阿里云推出了Qwen 2.5 ...