搜索优化
English
全部
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
搜索
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按相关度排序
按时间排序
8 天
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE ...
7 天
八年千倍,是如何做到的?
“某某之父”或“某某之母”是指某一事业和产品,或某一潮流、某个时代的开创者、奠基者。今天,人们已经进入AI时代,而开创这个时代的绝非一个人或几个人,至少是几十或上百位计算机科学、物理学、电子学、半导体、机器学习、神经科学、认知科学、心理学、哲学、语言学等方面的科学家、工程师、技术人员、学者。在这些方面卓有贡献者都可以称为“AI之父”。
腾讯网
7 天
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
通常,一个MoE层由一个路由器(通常是一个线性层)和一组专家组成(对于Transformer的模型 ... 现有的MoE训练框架(例如Megatron-core)实现的是局部 ...
51CTO
12 天
大语言模型推理框架llama.cpp开发实战
本文首先探索当前热门的大语言模型推理框架llama.cpp的内部架构,然后使用此框架实现了一个基本形式的聊天程序。 简介 当前,llama.cpp框架以其简单性被业界广泛采用,彻底改变了LLM推理领域。它支持企业和个人开发人员能够在从SBC到多GPU集群的各类型设备上 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈