AI芯片：大国芯战“奇兵”

发表于： 2023年10月17日 2023年10月17日
分类：未分类

“是说芯语”已陪伴您1332天

作者：民生证券计算机首席分析师吕伟

支持：民生证券计算机行业分析师郭新宇/赵奕豪

1、神奇的1985

对于芯片产业来说，1985年是一个非常传奇的时间点。

1985年，如今如日中天的全球芯片霸主高通（Qualcomm），这一年刚刚在美国加州圣迭戈成立。

1985年，全球第一款商业RISC 处理器——ARM-1在Acorn电脑公司成功运行。当时谁也难以想到，如今几乎在每一个智能终端设备中都有一颗Arm的内核。

1985年，如今的全球半导体产业“教父”张忠谋离开工作20多年的德州仪器，受邀回到了中国台湾担任台湾工业技术研究院院长，后来所谓的“地缘政治必争之地”的台积电由此启航。

1985年，日本在半导体芯片产业市场全球份额，第一次超过美国，日本成为全球最大的半导体生产国，也在这同一年，美国向日本发起了第一次芯片战争。美国半导体产业协会开始向美国商务部投诉日本半导体产业不正当竞争，要求总统根据301贸易条款解决市场准入和不正当竞争的问题。

图：日本DRAM市场份额在1985年遭受美国打压后逐步见顶

数据来源：JBpress

美国当时向负责谈判的通产省开出极其苛刻的条件，将美国半导体在日本的市场提升到20%-30%，建立价格监督机制，终止第三国倾销，另外一方面，美国在媒体上大肆宣扬“日本威胁论”，宣称日本企业在这一领域的全面领先，将严重威胁美国国家安全，为自己发动芯片战争寻找理由。这一系列手段对于近几年的中国来说，已经非常熟悉：

据美国证券交易所官网信息显示，美国政府已在 8 月 26 日向英伟达发出通知，要求英伟达对中国大陆、中国香港和俄罗斯实施一项新的出口管制要求。该要求包括英伟达公司禁止向这些公司出售 A100 GPU 和即将推出的 H100 GPU，立即生效。美国政府表示，这是为了防止这些产品被用于 ” 军事最终用途 ” 或 ” 军事最终用户 “。虽然英伟达最新公告明确了限售时间表，即明年3月1日以前可以继续向在中国的客户履约，明年9月1日以前可以继续向在中国香港的客户履约，主要为了原有合同能够履约不产生高额赔偿。至于这两个日期之后，考虑此前美国对华为6个月缓冲授权的先例，结果不言而喻。

图：美国证监会关于英伟达限制的文件

数据来源：美国证监会

对于中国芯片产业尤其是人才来讲，1985年也是神奇的一年。

这一年，清华大学东区学生宿舍10号楼住进了一群无线电系大一新生。后来国内芯片产业的领军者们韦尔股份创始人虞仁荣、兆易创新创始人之一舒清明、卓胜微电子联合创始人冯晨晖、格科微电子创始人赵立新、燧原科技创始人赵立东都来自清华这一级，行业尊称EE85。

而同一年的9月，在南昌市东湖区的一个普通工薪阶层家庭，一个婴儿刚刚呱呱坠地。谁也不会想到，在37年后的今天，面对美国对高端AI芯片“卡脖子”威胁，他和他公司寒武纪会成为破局的希望之一，他的名字叫陈天石。

2、AI芯片，给我们同一起跑线的机会

2012年，陈天石等中科院计算所的科研人员，与首次提出“AI加速器”概念的法国教授Olivier Temam，共同启动神经网络处理器（AI芯片）项目进行了一系列开拓性学术工作，已经成为全球AI芯片领域引用次数最多的学术论文，成为世界范围内研发智能芯片必读的文献。这也是寒武纪的技术来源。

2014年12月，DaDianNao（又称寒武纪2号神经网络处理器，面向大规模神经网络的应用）荣获2014年度Micro最佳论文，这也是Micro自1963年创办以来，第一次由美国以外的研究者摘得该奖项。

2017年，美国人工智能的领军企业谷歌首次发表了详细介绍其自行设计的AI芯片TPU细节的论文《数据中心的 TPU 效能解析》(In-Datacenter Performance Analysis of a Tensor Processing Unit)，共同作者多达 70 人，领衔第一作者是计算机体系架构硬件大师 Norman Jouppi。

图：2017年4月谷歌首次发表了详细介绍其自行设计的AI芯片TPU细节的论文《数据中心的 TPU 效能解析》

数据来源：集微网

令人震惊的是，这篇详细介绍TPU细节的论文引用了国内刚刚刚成立不久的AI芯片公司寒武纪团队成员前期发表的 6 篇学术论文，并有专门段落回顾一系列学术工作显示尊重，这在几乎由美国垄断的计算机基础体系架构设计领域，在全球范围内都是极为罕见的。

为什么不同于传统基础软硬件，我们在AI芯片领域甚至出现了和美国近乎并驾齐驱的态势呢？国产基础芯片和操作系统过去无法取得成功市场应用的核心原因有三点，这三点恰恰对应了IT产业的三大特征：

1、摩尔定律驱动新技术指数级进步，强者恒强。国产芯片研发速度无法跟上国外技术指数级发展的速度，新型号从诞生那天起性能就落后于主流产品。

图：过去国产CPU与intel主流产品对比

数据来源：wind，intel官网

2、安迪比尔定律，需要市场生态体系反哺技术持续升级，带来正反馈循环。安迪比尔定律意指软件的更新抵消了硬件性能的提高，微软为了维持在操作系统的垄断地位，不断地推出功能更丰富的新一代操作系统，这造成了系统软件不断升级，也对硬件的需求越来越高。安迪比尔定律成立的根源是微软和英特尔利益上的契合而形成的Wintel联盟：一方面，英特尔遵从摩尔定律生产的芯片性能不断提升，保证了微软的开发人员追求软件开发的效率而无需计较对硬件的消耗；另一方面，微软新一代的操作系统提升了对硬件性能的要求，淘汰了性能落后的硬件，保证了英特尔新一代芯片的市场需求。

从1985年第一代Windows OS发布以来，操作系统演化的同时对硬件要求的配置也越来越高。基本上，Intel研发的新的处理器在十年后都成为Windows OS要求的最低配置，最低配置实质上意味着流畅运行都无法保证。英特尔和微软之间相互照应，形成了一个螺旋向上的闭环，与相对弱势的Windows软件开发商和PC厂商共同打造了一个PC产业的市场和产品生态：Windows（操作系统开发商）+软件开发商->惠普、戴尔（整机商） -> Intel等（芯片、存储等硬件商）。而对于国产CPU和操作系统软件产品，受市场和技术的限制无法有效地实现国产CPU量产及商品化，进一步的研究经费不能保证，没有像国外CPU生产企业形成资金的循环。

图：Windows的历届版本对硬件资源的要求

数据来源：windows官网

3、普适性与耦合性高，一旦形成上下游产业生态，新进入者难以撼动。IT产品的普适性高是相对于传统工业品而言的，传统工业品由于物理规律的限制，常常要在不同的功能之间权衡取舍，但是IT行业尤其是软件产品不受物理因素的限制，可以做到普适性的面面俱到，因而更容易垄断。

IT产品的耦合性高是指上下游具有很高的相互依赖性，例如Windows只支持x86架构，又如Windows上的应用软件不能在其他操作系统上运行。微软软件的易于使用是建立在达到耦合性的基础之上的，这要求用户必须牺牲掉一些个性选择来适应通用性。以Windows为例，与其耦合的应用软件、硬件很难兼容新出现的操作系统，因此其地位难以撼动。

除了上述微软的商业手段外，产业性质决定的紧耦合性也可以与普适性结合带来垄断。对IT行业的后进者或者弱势者来讲，普适性高意味着产品给用户带来的效用很难区别于先入者或强势者，而耦合性高决定了先入者或强势者凭借着已经建立起来的上下游生态优势，可以轻松抵御后进者的挑战，地位很难被撼动。这里最典型的就是Windows操作系统通过绑定IE浏览器轻而易举击败了如日中天的网景浏览器。

图：Windows操作系统通过绑定IE浏览器轻而易举击败了如日中天的网景浏览器

数据来源：IE浏览器

CPU芯片、操作系统等基础软硬件具有战略和市场双重属性，不但具有极高的技术门槛，更需要庞大市场生态的支撑，所以除非出现IT技术革命，否则很难颠覆传统产业体系。

过去的三四十年间，IT业经历了多次重大的变革，这包括20世纪七八十年代从大型机向小型机的转移、九十年代服务器/客户机架构的普及，以及21世纪初互联网和Web的兴起。历次IT技术革命有个共同的特点：无论原有的基础软硬件公司占据多么牢不可破的垄断地位，一旦不能适应新的IT技术变革，“洗牌”在所难免。

图：历次IT革命的核心芯片与基础软件

数据来源：intel、IBM官网

以深度学习算法为核心的这一轮人工智能底层计算架构变革，恰恰给了我们与美国在同一起跑线的机会。

传统计算机架构解决的是确定问题，即可以通过固定的流程或者规律来描述（比如从1加到100），通过编程交由计算机执行，那么我们设计计算机基础芯片CPU的核心目的是帮助我们一条一条有序的执行我们编译好的指令。

现在真正意义上的人工智能解决的是欠定问题，即这些问题难以用固定的流程或者规律描述，它的准确答案取决于我们对于这些问题的反应。典型的例子就是一个3-4岁的小朋友就可以很轻松从世间万物中认出狗或者猫，但传统计算机方法通过总结所有猫的固定特点来编程识别非常困难。而这一瓶颈恰被此轮以深度学习算法为代表的人工智能技术突破了。所谓深度学习，简单说就是用数学方法模拟人脑神经网络，用大量数据训练机器来模拟人脑学习过程，其本质是把传统算法问题转化为数据和计算问题。所以对底层基础芯片的要求也发生了根本性改变：人工智能芯片的设计目的不是为了执行指令，而是为了大量数据训练和应用的计算。

图：传统计算与神经网络的差别

数据来源：民生证券研究院

客观的讲，CPU拥有更好的通用性，几乎任何计算任务都可以分解为一条条指令让CPU完成。我们需要人工智能芯片并非CPU不能用，而是效率太差。深度学习对计算资源需求几乎是空前的，这一点我们从初代AlphaGo所需要的计算资源就可以看到，所以迫切需要一款适合的芯片能够高效计算深度学习任务，而GPU因为其极佳的并行计算特性恰逢其实。

图：初代AlphaGo需要1920个CPU核心和280块GPU

数据来源：谷歌、百度

3、AI芯片市场不会由英伟达垄断

GPU的天然并行计算优势使得英伟达在人工智能时代如日中天，但我们可以非常肯定的预判：人工智能芯片市场不会被英伟达垄断。理由是人工智能芯片跟我们传统意义上的芯片有很大的不相同，它其实包括两个计算过程：1、训练（Train）；2、应用（Inference）。实际上谷歌首先开始提出设计TPU芯片的目的时就指出了英伟达的GPU在训练阶段具有优势，但在执行阶段效率并不高。此外人工智能芯片和传统计算芯片一样，同时还包括两大类市场：1、数据中心为代表的后端市场；2、广义终端市场。

图：深度学习任务训练和预测环节对计算资源需求有很大差别

数据来源：百度

以上特点实际构建了四种不同的芯片应用场景:

图5：人工智能芯片四种应用场景

数据来源：xilinx

传统计算机时代在数据中心服务器市场几乎垄断的英特尔，在智能终端市场一样不敌ARM。而如果我们关注英伟达近年来的财务报表，数据中心业务一直是其真正AI业务的核心构成与增长来源。

图：英伟达2015-2021年不同细分市场营收及同比增速一览

数据来源：英伟达财报

图：能够实现训练功能AI芯片门槛较高，几乎被巨头占据

数据来源：华为、intel、寒武纪官网

4、人工智能芯片的形式是GPU、FPGA还是ASIC?

实际上这本身并不是一个问题，GPU、FPGA、ASIC无非是在通用性和性能两个标准的权衡下的选择。不只是人工智能，在很多传统芯片应用领域都是通用芯片、FPGA、AISIC共存的。打个形象的比方，我们设计一款人工智能芯片就像设计一个某种功能的房子，那么我们有三种选择：

1、买一个已有的比较通用的房子，然后改变内部的软件设施来让这个房子达到我们需要的功能，优点是对于用户代价小，但肯定没法达到性能最大化，这就对应了通用型芯片GPU；

2、买一个半成品的房子，我们可以随时改变房子里面的各个房间格局，优点是相对第一种房子性能肯定会更贴近我们需求，而且也保证了一定灵活性，如果需求有改变，可以随时再改变内部房间格局，这对应了FPGA芯片；

3、完全一块砖一块砖按自己需求重新搭建一个房子，这种肯定性能上最能贴近我们的需求，但是一次性投入太大，如果不是确定性需求需要冒风险，这就对应ASIC芯片。

所以我们可以不难理解为什么大部分创业公司都会采用英伟达GPU这类生态成熟的通用芯片，为什么在人工智能算法没有最终成熟需要不断改进时FPGA会出现在一些应用领域，而谷歌这类财大气粗的互联网巨头自己需求量很大的公司自己用ASIC的TPU.

从对于机器学习算法的性能和功耗的角度来说：FPGA 可以开发出为机器学习算法专用的架构，但是 FPGA 本身的峰值性能较 GPU 要差很多。FPGA 和 GPU 哪个跑机器学习算法更强（平均性能更好），完全取决于 FPGA 架构优化能否弥补峰值性能的劣势。

1、FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比 GPU 有优势，但是 GPU 的运行速度（>1GHz) 相比 FPGA 有优势 (~200MHz)。所以，对于平均性能，看的就是 FPGA 加速器架构上的优势是否能弥补运行速度上的劣势。

图：FPGA与GPU性能与功耗的比较

数据来源：百度

2、功耗方面，虽然一般 GPU 的功耗大于 FPGA 的功耗，但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果 FPGA 的架构优化能做到很好以致于一块 FPGA 的平均性能能接近一块 GPU，那么 FPGA 方案的总功耗远小于 GPU，散热问题可以大大减轻。反之，如果需要二十块 FPGA 才能实现一块 GPU 的平均性能，那么 FPGA 在功耗方面并没有优势。

而对于AISC芯片出现的领域一般会有下面几个特征：1、市场需求成熟且确定，比如谷歌等互联网巨头的数据中心芯片需求量足以影响整个行业，同时能够摊薄流片成本；2、涉及到国家战略，避免被国外垄断的通用芯片“卡脖子”。

这一点我们从寒武纪发展过程中可以看到。公司成立初期需要风险小的现金流业务，采用向芯片设计公司提供IP授权的方式而非自行流片制造ASIC芯片。2017、2018年，终端智能处理器IP许可收入占主营业务收入比例为98.95%、99.69%。2018年后公司收入已经不再依赖IP产品采购，而是在发展到一定阶段重心向更具通用性与战略价值的云端ASIC芯片发力，全力投入云端智能芯片及加速卡业务和智能计算集群系统业务，云端计算业务与边缘加速已经成为公司主要收入构成。

图:寒武纪的收入构成

数据来源：wind

英伟达能够横扫AI芯片市场，计算性能并不是不可逾越的门槛，核心在于CUDA成熟已久开发生态。CUDA是是Nvidia早在2006推出的通用并行计算架构，简单概括就是这套软件平台让用户可以把原来给CPU的计算任务轻松转化给GPU众多内核同时工作完成。业界使用GPU的动力，GPU本身硬件平台的算力固然重要，厚实的CUDA软件生态才是推升GPU计算生态普及的关键力量。这里包含两层概念，第一层是CUDA软件栈本身，属于核心能力，第二层是依托于CUDA软件栈可以进行第三方应用及工具的扩展，属于生态部分。

图：英伟达GPU处理器演进

数据来源：英伟达，AI芯旮旯

5、丢掉幻想，正视现实

从中兴、华为事件、俄乌冲突，到近期拜登正式签署芯片法案，再到美国限制英伟达、AMD向中国出口高端AI芯片，均表明信息基础设施的供应链安全已成为当代大国战略竞争的聚焦点，而信创是应对这一挑战的必然路径。这也是我们为什么提出“信创的本质就是计算机行业的军工”。

2022年1月16日出版的第2期《求是》杂志发表中共中央总书记、国家主席、中央军委主席习近平的重要文章《不断做强做优做大我国数字经济》，文章重点强调的第一条就是“加强关键核心技术攻关，尽快实现高水平自立自强，把发展数字经济自主权牢牢掌握在自己手中。”

2022年5月1日出版的第9期《求是》杂志，再次发表习主席的重要文章《加快建设科技强国，实现高水平科技自立自强》，时隔不到4个月，再次从顶层设计确立了高水平科技自立自强的核心主线。

9月1日出版的第17期《求是》杂志发表重要讲话《新发展阶段贯彻新发展理念必然要求构建新发展格局》再次强调加快科技自立自强，这是最高层继今年1月在《不断做强做优做大我国数字经济》、今年5月发表《加快建设科技强国，实现高水平科技自立自强》，罕见连续三次在求是杂志亲自署名发表文章中明确强调同一件事。文中指出：

“要加快科技自立自强。这是确保国内大循环畅通、塑造我国在国际大循环中新优势的关键。要增强责任感和危机感，丢掉幻想，正视现实，打好关键核心技术攻坚战，加快攻克重要领域“卡脖子”技术。”

附：传统计算机时代在数据中心服务器市场几乎垄断的英特尔，在智能终端市场一样不敌ARM。而如果我们关注英伟达近年来的财务报表，数据中心业务一直是其真正AI业务的核心构成与增长来源。但有一点需要指出，云端AI训练芯片确实是门槛最高的，国内除了寒武纪、华为，大部分AI芯片创业公司的产品都是推理芯片。