在当今诸多先进 AI 模型发展中,记忆管理和推理效率是核心挑战之一。近期,一项名为 SlimAttention 的新理论机制被提出,标志着大模型上下文内存的两次革命:一方面,它能将上下文内存占用减少至原来的一半,同时确保模型的精度不受影响;另一方面,推理速度在内存带宽受限情况下提升达到惊人的 2 倍,这一突破性进展无疑为各类 AI 应用开辟了新的天地。
上海交通大学鲲鹏昇腾科教创新卓越中心特训营DeepSeek专场圆满举办,deepseek,鲲鹏,上海交通大学,特训营 ...
自2017年以来,Transformer算法在自然语言处理和计算机视觉 ...
继2月底推出新一代快思考模型混元Turbo S后,3月21日深夜,腾讯混元宣布,正式推出自研深度思考模型混元T1正式版,并同步在腾讯云官网上线,其定价策略在行业内创下最低记录!
阿里妹导读本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还 ...
3月26日下午,上海交通大学鲲鹏昇腾科教创新卓越中心特训营-DeepSeek专场在上海交通大学闵行校区图书信息楼成功举办。活动旨在基于昇腾技术的 ...