|
发表于 2020-5-23 19:55:27
|
显示全部楼层
本帖最后由 逸雪霁蓝 于 2020-5-24 09:57 编辑
阿里发表论文被计算机体系结构顶级会议HPCA 2020收录 成国内唯一有论文收录企业 论文公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
2月22日-26日,计算机体系结构顶级会议HPCA 2020在美国加州圣地亚哥召开。作为国内唯一有论文收录的企业,阿里巴巴此次有两篇论文入选,其中一篇名为《EFLOPS: Algorithm and System Co-design for a High Performance Distributed Training Platform》,该论文介绍了阿里巴巴的高性能AI集群的节点架构、网络架构、和通信算法,并展示了EFLOPS集群为阿里巴巴内部业务和算法带来的价值。论文作者之一、阿里资深技术专家蒋晓维在会议现场分享了论文内容。
从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。蒋晓维除了展示AI集群技术细节,还介绍了其如何为阿里巴巴内部业务和算法带来价值。这一集群已应用于阿里巴巴计算平台的人工智能训练平台(PAI),服务阿里巴巴的人工智能业务的模型训练:能将拍立淘百万分类大模型的训练速度提升4倍,并首次支持千万分类模型的训练;在提升阿里巴巴翻译模型精度的同时,能将训练时间从100小时降低至12小时。而且与世界顶级的AI计算系统相比,阿里的AI集群虽然使用了性能较低的硬件资源,但表现出了相当的性能。
论文的第一作者是董建波,毕业于中科院计算所,现在是阿里巴巴高级技术专家。论文的通讯作者是谢源——阿里巴巴达摩院高级研究员、平头哥首席科学家。谢源是计算体系结构、芯片设计领域大牛级别的存在,研究方向是计算机体系结构、集成电路设计、电子设计自动化、和嵌入式系统设计,已发表过300多篇顶级期刊和会议论文。在获得IEEE、AAAS、ACM Fellow称号之后,他在2月28日再次获得国际学术荣誉——IEEE CS 2020年度技术成就奖。
 |
评分
-
1
查看全部评分
-
|