魏少军:通过计算架构创新让大算力平台成为现实
“是说芯语”已陪伴您1234天
2022年5月29日,首届“东数西算”粤港澳大湾区(广东)算力产业大会在广东韶关举行,本次大会是国家“东数西算”工程正式启动以来召开的首个全国性大会。多名行业顶尖的权威院士专家围绕“东数西算”战略部署展开热议。国际欧亚科学院院士,清华大学和北京大学双聘教授魏少军发表《算力平台建设需克服三大挑战》主旨演讲。
算力已经成为智能化时代的重要生产力
魏少军表示:过去的工业革命中,我们经历了两个重要阶段,一是机械化阶段,以能源和动力解决人们体力的延伸,信息化阶段则解决了我们感官延伸。正在发生的智能化革命其实要延伸的是我们的大脑,让我们认知得到提升。而算力已经成为智能化时代重要的生产力,未来针对计算场景、算法复杂性带来的爆炸性计算需求增长是超出我们的想象的,因此大算力平台建设已经成为重要的基础设施。
魏少军举例:传统蛋白质结构预测需要数年时间。从AlphaFold 模型演进AlphaFold2模型,预测高精度的蛋白质结构,基于128 TPU (P级算力),需要数月时间。而基于E级智算中心,可实现天级时间响应。但即便如此,依然不能满足我们的要求,我们希望是训练时间能够缩短到小时,甚至是分钟,这就对我们的计算能力提出了巨大的要求。算力已经成为智能化时代的重要生产力。
魏少军表示:计算场景和算法的复杂化带来了数据爆炸与计算需求的增长,2025年全球数据量将达到175ZB,为2000年数据量的300倍;对算力的要求每年要增加10倍。目前的算力中心受到资金投入、占地面积、能耗开销迅速增长的制约,现有的技术很难支撑Z级计算,甚至很难支撑100E级计算。只有通过技术创新,特别是新型计算架构的创新,才能让大算力平台成为现实,造福产业和社会。
算力平台建设面临三大挑战
挑战一:分布式算力的集约化应用。如何把分布式的算力集约化应用,一个重要的衡量指标叫scale-out(横向扩展),目前的计算架构都限制了它的发挥。因此,要满足大模型、多任务,低成本的要求,基本的计算架构上要有重大突破,形成高密度算力集成及统一异构调度才能达到要求。
挑战二:能耗问题。算力中心的能耗问题,从技术上看,有三个关键点。一是芯片的摩尔定律,摩尔定律的发展与我们对算力的要求之间是不匹配的,且差距越来越大;二是现行计算架构下计算和访存之间的存储墙,到现在为止并没有被打通,只要不脱离冯·诺依曼体系架构,存储墙带来的功耗会占据整个能耗的90%以上;第三个是大量模型更新造成的通信墙,人工智能的发展带来了各种模型,模型的更新和更换之间的通讯墙,也是一种巨大的能耗。
因此,要克服这些技术上的难题,新的计算架构要考虑灵活可配置。要让计算访存和模型的更新能够集中在统一的计算架构中,以此来提高计算效率,解决存取、通信的瓶颈问题。
魏少军表示:虽然寻求近乎无限scale-out能力的处理器很难,但全球各国也在做各种尝试。今年的ISSCC上就有两篇重要的文章:一篇是技术来源于斯坦福的SambaNova,提出了一种新的数据流架构,能够完成AI 训练、推理以及科学计算,性能是英伟达A100的20倍。另一篇则是来清华大学,发布的基于“可重构数字存算一体架构”设计的国际首款面向通用云端高算力场景的存算一体AI芯片ReDCIM(Reconfigurable Digital CIM),其能效是目前主流商业AI芯片的20倍。魏少军同时强调:20倍的提升虽然是很大的进步,但真正应用至大算力场景还是远远不够,要支持超大模型训练迭代,达到系统极高能效,关键还是要scale-out能力真正能够无限扩展起来。
挑战三是算力平台的信息安全问题。信息安全问题,不仅关系国家安全、企业安全、也涉及到我们自身的安全。在考虑安全问题时,除了基本硬件的安全、软件的安全、管理的安全、应用的安全,未来提升到数据的分享、开发和应用时,还有各种各样其他的安全因素。因此,对于新的算力平台,我们的安全体系是否健全,是否是一个全面规范可靠的安全保障体系,是一个极为重要的问题。在建造数据中心或者计算中心时,从一开始就应该考虑计算的安全,软件的安全,计算节点当中软件平台,网络节点,存储节点各个节点的安全问题,从而形成一种有机的整体。
解决之道是创新计算架构
魏少军表示:虽然挑战非常大,但时间不等人,而解决之道就是创能计算架构。通过对国际上一些主流架构的对比,可以看出:如果不能改变计算架构,想提升整个计算效率和降低能耗会非常困难。
而SambaNova的SN10 RDU和清微智能的TX810这两个都是可重构处理器,他们的基本架构已经由传统的存储共享架构逐渐走向了一种空间数据流的结构,具备很好的scale-out能力, 在面对万亿级大模型处理时,综合下来可以大概获得2000倍左右的功耗减少,这个数据是非常可观的,因此是值得高度关注的,通过架构的创新来获得功耗的降低、性能的优化。
魏少军指出:发展大算力中心,广东拥有得天独厚的条件。一方面广东经济实力雄厚,另一方面是广东省数字经济竞争力位居全国榜首,在数字基础设施、数字创新要素、数字政策环境等方面均位居全国前列,但技术进步仍然是核心,寻求先进的计算技术来构建大算力平台,是实现可持续发展的关键。
魏少军最后总结:智能化是信息社会建设的重要内容,大算力是人工智能技术的发展最重要的一个基础条件,大算力已经成为社会经济发展的一个重要的基础设施。构建大算力平台有很多挑战的,只有通过一些关键性的技术突破才能实现,而这也是我们产业发展的重要依托点。魏少军建议:在技术不断向前推荐的过程中,把寻求最先进的计算机技术来构建大算力平台作为持续演进长期发展的目标。
转自:北京清微智能科技有限公司
———————– END———————–
推荐阅读:
疫情解封,离职潮紧随其后
进入IC行业,这些知道得越早越好
全球第三代半导体厂家解析
芯片业坏消息不断,本科生刚被预订,高通联发科就大幅砍单
安谋科技纷争尘埃落定
鸿蒙负责人出走,摘掉华为标签才能“交更多朋友”
台积电进入1.4纳米,芯片工艺的极限在哪里?
芯片“暴利”的背后,谁赚走了中国的钱?
芯片行业不再火热,你做好准备了吗?
是说芯语转载,欢迎关注分享
文章来源于互联网:魏少军:通过计算架构创新让大算力平台成为现实