文章大纲

  • 一人工智能芯片发展现状及趋势

    ·深度学习算法对芯片要求更为苛刻,通用CPU 性价比相对较差

    ·GPU、FPGA以及ASIC各有优劣,成为当前AI芯片行业的主流

    ·短期内GPU仍将是AI芯片主导,长期看三大技术路线将呈现并行态势

  • AI芯片主要应用场景

    ·数据中心(云端)

    ·自动驾驶

    ·安防

  • 国内外AI芯片厂商概览

    ·整体排名

    ·芯片企业

    ·IT及互联网企业

AI

人工智能芯片发展现状及趋势


深度学习算法对芯片要求更为苛刻,通用CPU性价比相对较差


经历了60多年的起起伏伏之后,人工智能终于迎来了第三次爆发。第三次爆发的核心引爆点是深度学习算法的出现,但其背后的支撑是数据和算力。对整个AI行业来讲,算法、数据和算力三大基本要素中,数据尤其是海量数据的获取和处理难度在下降,算法也在深度学习模型的基础上不断优化,而负责将数据和深度算法统一协调起来的芯片能否获得大的飞跃,成为市场关注的焦点。

深度学习算法对芯片性能需求主要表现在三个方面:

1、海量数据在计算和存储单元之间的高速通信需求。这不但需要芯片具备强大的缓存和片上存储能力,而且还需要计算和存储单元之间有较大的通信带宽。


2、专用计算能力需求高。深度学习算法中有大量卷积、残差网络、全连接等特殊计算需要处理,还需要提升运算速度,降低功耗。


3、海量数据自身处理同样也对芯片提出了新的要求,尤其是非结构化数据的增多,对传统芯片结构造成了较大的压力。


通用CPU在深度学习中可用但效率较低。比如在图像处理领域,主要用到的是CNN(卷积神经网络),在自然语言识别、语音处理等领域,主要用到的是RNN(循环神经网络),虽然这两种算法模型有着较大的区别,但本质上都是向量和矩阵运算,主要是加法和乘法,辅助一些除法和指数运算。传统CPU可用于做上述运算,但是CPU还有大量的计算逻辑控制单元,这些单元在AI计算中是用不上的,造成了CPU在AI计算中的性价比较低。


GPU、FPGA以及ASIC各有优劣,成为当前AI芯片行业的主流


正因为CPU在AI计算上的弱点,给了可以实现海量并行计算且能够对进行计算加速的AI芯片留下了市场空间。从广义上讲,面向AI计算的芯片都可以称为AI芯片,包括基于传统架构的GPU、FPGA以及ASIC(专用芯片),也包括正在研究但离商用还有较大差距的类脑芯片、可重构AI芯片等。


云端训练芯片市场较为集中,而推理市场云、边两端均有大量企业参与


按照部署位置划分,AI芯片可以分为云端芯片和边缘端芯片。云端芯片部署位置包括公有云、私有云或者混合云等基础设施,主要用于处理海量数据和大规模计算,而且还要能够支持语音、图片、视频等非结构化应用的计算和传输,一般情况下都是用多个处理器并行完成相关任务;边缘端AI芯片主要应用于嵌入式、移动终端等领域,如摄像头、智能手机、边缘服务器、工控设备等,此类芯片一般体积小、耗电低,性能要求略低,一般只需具备一两种AI能力。


按照承担的任务分,AI芯片可以划分为训练芯片和推理芯片。训练是指通过大量标记过的数据在平台上进行“学习”,并形成具备特定功能的神经网络模型;推理则是利用已经训练好的模型输入新数据通过计算得到各种结论。训练芯片对算力、精度要求非常之高,而且还需要具备一定的通用性,以适应多种算法的训练;推理芯片更加注重综合能力,包括算力能耗、时延、成本等因素。


综合来看,训练芯片由于对算力的特殊要求,只适合在云端部署,而且多采用的是“CPU+加速芯片”类似的异构模式,加速芯片可以是GPU,也可以是FPGA或者是ASIC专用芯片。AI训练芯片市场集中度高,英伟达和谷歌领先,英特尔和AMD正在积极切入。推理在云端和终端都可进行,市场门槛相对较低,市场参与者较多。云端推理芯片除了传统的英伟达、谷歌、赛灵思等芯片大厂外,Groq等国际新兴力量也在加入竞争,国内寒武纪、比特大陆也有不错表现;终端推理芯片市场较为分散,场景各异,参与者除了英伟达、英特尔、ARM和高通之外,国内企业如寒武纪、地平线、云知声、云天励飞等在各自细分领域均有所建树。

GPU擅长云端训练,但需与CPU异构、功耗高且推理效率一般


GPU(Graphics Processing Unit)是一种由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计的芯片。正是由于其具备良好的矩阵计算能力和并行计算优势,最早被用于AI计算,并在云端获得大量应用。GPU中超过80%部分为运算单元(ALU),而CPU仅有20%,因此GPU更擅长于大规模并行运算。以英伟达的GPU TITAN X为例,该产品在深度学习中所需训练时间只有CPU的1/10不到。但GPU用于云端训练也有短板,GPU需要同CPU进行异构,通过CPU调用才能工作,而且本身功耗非常高。同时,GPU在推理方面需要对单项输入进行处理时,并行计算的优势未必能够得到很好的发挥,会出现较多的资源浪费。


FPGA芯片算力强、灵活度高,但技术难度大国内差距较为明显


FPGA(Field-Programmable Gate Array)即现场可编程门阵列,该芯片集成了大量的基本门电路以及存储器,其灵活性介于CPU、GPU等通用处理器和专用集成电路ASIC之间,在硬件固定之前,允许使用者灵活使用软件进行编程。FPGA在出厂时是“万能芯片”,用户可根据自身需求,用硬件描述语言对FPGA的硬件电路进行设计;每完成一次烧录,FPGA内部的硬件电路就有了确定的连接方式,具有了一定的功能;输入的数据只需要依次经过各个门电路,就可以得到输出结果。


FPGA应用于AI有以下优势:

(1)算力强劲。由于FPGA可以同时进行数据并行和任务并行计算,在处理特定应用时效果更加明显,对于某一个特定的运算,FPGA可以通过编辑重组电路,生成专用电路,大幅压缩计算周期。从赛灵思推出的FPGA产品看,其吞吐量和时延指标都好于CPU和GPU产品。


(2)功耗优势明显。FPGA能耗比是CPU的10倍以上、GPU的3倍。由于在FPGA中没有取指令与指令译码操作,没有这部分功耗;而在复杂指令集(X86)的CPU中仅仅译码就占整个芯片能耗的约50%,在GPU里取指与译码也会消耗10%至20%的能耗。


(3)灵活性好。使用通用处理器或ASIC难以实现的下层硬件控制操作技术,利用FPGA可以很方便的实现,从而为算法的功能实现和优化留出了更大空间。


(4)成本相对ASIC具备一定优势。FPGA一次性成本(光刻掩模制作成本)远低于ASIC,在芯片需求还未成规模、深度学习算法暂未稳定需要不断迭代改进的情况下,利用具备可重构特性的FPGA芯片来实现半定制的人工智能芯片是最佳选择。


正因为存在上述优势,FPGA被广泛用于AI云端和终端的推理。国外包括亚马逊、微软都推出了基于FPGA的云计算服务,而国内包括腾讯云、阿里云均在2017年推出了基于FPGA的服务,百度大脑也使用了FPGA芯片。


从市场格局上看,全球FPGA长期被Xilinx(赛灵思)、Intel(英特尔)、Lattice(莱迪思)、Microsemi(美高森美)四大巨头垄断。其中,赛灵思和英特尔合计占到市场的90%左右,赛灵思的市场份额超过50%,国内厂商刚刚起步,差距较大。

专用芯片(ASIC)深度学习算法加速应用增多,可提供更高能效表现和计算效率


ASIC(Application Specific Integrated Circuits),即专用芯片,是一种为特定目的、面向特定用户需求设计的定制芯片,具备性能更强、体积小、功耗低、可靠性更高等优点。在大规模量产的情况下,还具备成本低的特点。


ASIC与GPU、FPGA不同,GPU、FPGA除了是一种技术路线之外,还是实实在在的确定产品,而ASIC只是一种技术路线或者方案,其呈现出的最终形态与功能也是多种多样的。近年来,越来越多的公司开始采用ASIC芯片进行深度学习算法加速,其中表现最为突出的ASIC就是Google的TPU(张量处理芯片)。


TPU是谷歌为提升AI计算能力同时大幅降低功耗而专门设计的芯片。该芯片正式发布于2016年5月。TPU之所以称为AI专用芯片,是因为它是专门针对TensorFlow等机器学习平台而打造,该芯片可以在相同时间内处理更复杂、更强大的机器学习模型。谷歌通过数据中心测试显示,TPU平均比当时的GPU或CPU快15-30倍,性能功耗比(TFOPS/Watt)高出约30-80倍。


但是,ASIC一旦制造完成以后就不能修改了,且研发周期较长、商业应用风险较大,目前只有大企业或背靠大企业的团队愿意投入到它的完整开发中。国外主要是谷歌在主导,国内企业寒武纪开发的Cambricon系列处理器也广泛受到关注。其中,华为海思的麒麟980处理器所搭载的NPU就是寒武纪的处理器IP。


短期内GPU仍将是AI芯片主导,长期看三大技术路线将呈现并行态势


短期内GPU仍将主导AI芯片市场,FPGA的使用将更为广泛


GPU短期将延续AI芯片的领导地位。GPU作为市场上AI计算最成熟、应用最广泛的通用型芯片,应用潜力较大。凭借其强大的计算能力、较高的通用性,GPU将继续占领AI芯片的主要市场份额。


当前,两大GPU厂商都还在不断升级架构并推出新品,深度学习性能提升明显,未来应用的场景将更为丰富。英伟达凭借着其在矩阵运算上的优势,率先推出了专为深度学习优化的Pascal GPU,而且针对GPU在深度学习上的短板,2018年推出了Volta架构,正在完成加速-运算-AI构建的闭环;AMD针对深度学习,2018年推出Radeon Instinct系列,未来将应用于数据中心、超算等AI基础设施上。我们预计,在效率和场景应用要求大幅提升之前,作为数据中心和大型计算力支撑的主力军,GPU仍具有很大的优势。

FPGA是短期内AI芯片市场上的重要增长点,FPGA的最大优势在于可编程带来的配置灵活性,在当前技术与运用都在快速更迭的时期,FPGA具有明显的实用性。企业通过FPGA可以有效降低研发调试成本,提高市场响应能力,推出差异化产品。在专业芯片发展得足够完善之前,FPGA是最好的过渡产品,正因为如此,科技巨头纷纷布局云计算+FPGA的平台。随着FPGA的开发者生态逐渐丰富,适用的编程语言增加,FPGA运用会更加广泛。因此短期内,FPGA作为兼顾效率和灵活性的硬件选择仍将是热点所在。


长期来看GPU、FPGA以及ASIC三大类技术路线将并存


GPU主要方向是高级复杂算法和通用型人工智能平台。(1)高端复杂算法实现方向。由于GPU本身就具备高性能计算优势,同时对于指令的逻辑控制上可以做的更复杂,在面向复杂AI计算的应用方面具有较大优势。(2)通用型的人工智能平台方向。GPU由于通用性强,性能较高,可以应用于大型人工智能平台够高效地完成不同种类的调用需求。


FPGA未来在垂直行业有着较大的空间。由于在灵活性方面的优势,FPGA对于部分市场变化迅速的行业最为实用。同时,FPGA的高端器件中也可以逐渐增加DSP、ARM核等高级模块,以实现较为复杂的算法。随着FPGA应用生态的逐步成熟,FPGA的优势也会逐渐为更多用户所认可,并得以广泛应用。


ASIC长远来看非常适用于人工智能,尤其是应对未来爆发的面向应用场景的定制化芯片需求。ASIC的潜力体现在,AI算法厂商有望通过算法嵌入切入该领域,以进入如安防、智能驾驶等场景。由于其具备高性能低消耗的特点,可以基于多个人工智能算法进行定制,以应对不同的场景,未来在训练和推理市场上都有较大空间。


国内外AI芯片市场需求将保持较快增长势头,云端、边缘均具备潜力


近年来,伴随着全球AI产业的快速增长,AI芯片需求大幅上升。按照Gartner最新数据,2018年全球AI芯片市场规模达到42.7亿美元。未来几年,全球各大芯片企业、互联网巨头、初创企业都将在该市场上进行角逐,预计到2023年全球市场规模将达到323亿美元。未来五年(2019-2023年)平均增速约为50%,其中数据中心、个人终端、物联网芯片均是增长的重点。

国内人工智能芯片行业发展仍处在起步阶段。长期以来,我国在CPU、GPU和DSP设计上一直处于追赶状态,绝大多数芯片依靠国外的IP核进行设计,自主创新能力不足。但我们也看到,国内人工智能产业的快速发展,也为国内芯片产业实现换道超车创造了机会。由于国内外在芯片生态上并未形成垄断,国内芯片设计厂商尤其是专用芯片设计厂商,同国外竞争对手还处在同一起跑线上。


目前国内人工智能芯片市场呈现出百花齐放的态势。AI芯片的应用领域广泛分布在金融证券、商品推荐、安防、消费机器人、智能驾驶、智能家居等众多领域,催生了大量的人工智能创业企业,如地平线、深鉴科技、寒武纪、云知声、云天励飞等。我们认为,未来随着国内人工智能市场的快速发展,生态建设的完善,国内AI芯片企业将有着更大的发展空间,未来5年的市场规模增速将超过全球平均水平。

AI

AI芯片主要应用场景


数据中心(云端)


数据中心是AI训练芯片应用的最主要场景,主要涉及芯片是GPU和专用芯片(ASIC)。如前所述,GPU在云端训练过程中得到广泛应用。目前,全球主流的硬件平台都在使用英伟达的GPU进行加速,AMD也在积极参与。亚马逊网络服务AWS EC2、Google Cloud Engine(GCE)、IBM Softlayer、Hetzner、Paperspace、LeaderGPU、阿里云、平安云等计算平台都使用了英伟达的GPU产品提供深度学习算法训练服务。


在云端推理市场上,由于芯片更加贴近应用,市场更多关注的是响应时间,需求也更加的细分。除了主流的CPU+GPU异构之外,还可通过CPU+FPGA/ASIC进行异构。目前,英伟达在该市场依然保持着领军位置,但是FPGA的低延迟、低功耗、可编程性优势(适用于传感器数据预处理工作以及小型开发试错升级迭代阶段)和ASIC的特定优化和效能优势(适用于在确定性执行模型)也正在凸显,赛灵思、谷歌、Wave Computing、Groq、寒武纪、比特大陆等企业市场空间也在扩大。


自动驾驶


自动驾驶汽车装备了大量的传感器、摄像头、雷达、激光雷达等车辆自主运行需要的部件,每秒都会产生大量的数据,对芯片算力有很高的要求,但受限于时延及可靠性,有关车辆控制的计算不能再依托云端进行,高算力、快速响应的车辆端人工智能推理芯片必不可少。

目前,自动驾驶所使用的芯片主要基于GPU、FPGA和ASIC三条技术路线。但由于自动驾驶算法仍在快速更迭和进化,因此大多自动驾驶芯片使用GPU+FPGA的解决方案。未来算法稳定后,ASIC将成为主流。按照SAE International的自动驾驶等级标准,目前已商用的自动驾驶芯片基本处于高级驾驶辅助系统(ADAS)阶段,可实现L1-L2等级的辅助驾驶和半自动驾驶(部分宣称可实现L3的功能);而面向L4-L5超高度自动驾驶及全自动驾驶的AI芯片离规模化商用仍有距离。


根据丰田公司的统计数据,实现L5级完全自动驾驶,至少需要12TOPS的推理算力,按照Nvidia PX2自动驾驶平台测算,差不多需要15块PX2车载计算机,才能满足完全自动驾驶的需求。AI芯片用于自动驾驶之后,对传统的汽车电子市场冲击较大,传统的汽车电子巨头(恩智浦、英飞凌、意法半导体、瑞萨)虽然在自动驾驶芯片市场有所斩获,但风头远不及英特尔、英伟达、高通甚至是特斯拉。国内初创企业如地平线、眼擎科技、寒武纪也都在积极参与。在自动驾驶芯片领域进展最快以及竞争力最强的是英特尔和英伟达,英特尔强在能耗,英伟达则在算力和算法平台方面优势明显。


英特尔进入自动驾驶芯片市场虽然较晚,但通过一系列大手笔收购确立了其在自动驾驶市场上的龙头地位。2016年,公司出资167亿美元收购了FPGA龙头Altera;2017年3月以153亿美元天价收购以色列ADAS公司Mobileye,该公司凭借着EyeQ系列芯片占据了全球ADAS 70%左右的市场,为英特尔切入自动驾驶市场创造了条件。收购完成之后,英特尔形成了完整的自动驾驶云到端的算力方案——英特尔凌动/至强+Mobileye EyeQ+Altera FPGA。英特尔收购Mobileye之后,后者也直接推出了EyeQ5,支持L4-L5自动驾驶,预计在2020年量产。


英伟达在汽车AI芯片的竞争中不落下风。英伟达在2015年推出了世界首款车载超级计算机Drive PX,紧接着2016年推出Drive PX2,2018年推出新一代超级计算机Drive Xavier,同年,基于双Drive Xavier芯片针对自动驾驶出租车业务的Drive PX Pegasu计算平台面世。2019 CES上,英伟达推出了全球首款商用L2+自动驾驶系统NVIDIA DRIVE AutoPilot。DRIVE AutoPilot的核心是Xavier系统级芯片。该芯片处理器算力高达每秒30万亿次,已经投产。


安防


安防市场是全球及国内AI最为确定以及最大的市场,尤其是AI中的图像识别和视频处理技术正在全面影响安防产业。其中,在安防产品中,摄像头、交换机、IPC(网络摄像机)、硬盘刻录机、各类服务器等设备都需要芯片,这些芯片也决定了整个安防系统的整体功能、技术指标、能耗以及成本。在安防芯片中,最为关注的还是四类与监控相关的芯片(ISP芯片、DVR SoC芯片、IPC SoC芯片、NVR SoC芯片)。


ISP芯片(Image Signal Processing,图像信号处理)主要负责对前端摄像头所采集的原始图像信号进行处理;DVR(DigitalVideoRecorder,数字硬盘录像机)SoC芯片主要用于模拟音视频的数字化、编码压缩与存储;IPC(IP Camera,IP摄像机)SoC芯片通常集成了嵌入式处理器(CPU)、图像信号处理(ISP)模块、视音频编码模块、网络接口模块等,具备入侵探测、人数统计、车辆逆行、丢包检测等一些简单的视频分析功能;NVR(Network Video Recorder,网络硬盘录像机)SoC芯片主要用于视频数据的分析与存储,功能相对单一,但由于多与IPC联合使用,市场增长也较快。


通常情况下,安防视频监控模拟摄像机的核心部件包括一颗图像传感器和一颗ISP芯片,安防视频监控网络摄像机的核心部件包括一颗图像传感器和一颗IPC SoC芯片。单从国内来看,未来国内视频监控行业增速仍将保持12%-15%左右的水平增长,其中网络监控设备增长更为迅速,相关芯片产品需求十分旺盛。


安防AI芯片市场上,除了传统芯片以及安防厂商,还有大量的创业企业在涌入。国外芯片厂商主要有英伟达、英特尔、安霸、TI、索尼、特威、三星、谷歌等;国内厂商主要有海思(华为)、国科微、中星微、北京君正、富瀚微、景嘉微、寒武纪、深鉴科技、云天励飞、中科曙光等。英伟达、英特尔等企业凭借着通用处理器以及物联网解决方案的优势,长期与安防巨头如海康、大华、博世等保持紧密联系;国内寒武纪、地平线、云天励飞等企业,都有AI芯片产品面世,海思本身就有安防摄像机SoC芯片,在新加入AI模块之后,竞争力进一步提升。


从安防行业发展的趋势来看,随着5G和物联网的快速落地,“云边结合”将是行业最大的趋势,云端芯片国内企业预计很难有所突破,但是边缘侧尤其是视频处理相关AI芯片还是有较大潜力,国产化替代将加速。但也看到,AI芯片离在安防领域实现大规模快速落地仍有距离。除了功耗和算力约束外,工程化难度大也是困扰行业的重要因素,尤其是在安防这种产业链长而高度碎片化的产业,新技术落地需要长时间的积累与打磨,以及人力资源的不断投入。


智能家居


智能家居近年来也成为人工智能重要的落地场景。从技术应用上讲,人类90%的信息输出是通过语音,80%的是通过视觉,智能家居领域应用最多的就是智能语音交互技术。近年来,正是看到语音交互技术与智能家居深度融合的潜力,谷歌、苹果、微软均将其作为进入智能家居领域的重要切入口,发布了多款软硬件平台,如亚马逊推出的智能音箱设备。国内智能语音龙头企业科大讯飞较早就切入了该领域,联合地产商推出了硬件平台魔飞(MORFEI)平台,电视、咖啡机、电灯、空调、热水器等产品都能通过融入相关平台实现智能化。


当前,无论是智能音箱还是其他智能家居设备,智能功能都是在云端来实现,但云端存在着语音交互时延的问题,对网络的需求限制了设备的使用空间,而且由此还带来了数据与隐私危机。为了让设备使用场景不受局限,用户体验更好,端侧智能已成为一种趋势,语音AI芯片也随之切入端侧市场。国内主要语音技术公司凭借自身在语音识别、自然语言处理、语音交互设计等技术上的积累,开始转型做AI语音芯片集成及提供语音交互解决方案,包括云知声、出门问问、思必驰以及Rokid。


市场上主流的AI语音芯片,一般都内置了为语音识别而优化的深度神经网络加速方案,以实现语音离线识别。随着算法的精进,部分企业的语音识别能力得到了较快提升,尤其是在远场识别、语音分析和语义理解等方面都取得了重要进展。云知声在2018年5月,推出语音AI芯片雨燕,并在研发多模态芯片,以适应物联网场景,目前公司芯片产品已经广泛用于智能家电如空调之中;出门问问也在2018年推出了AI语音芯片模组“问芯”MobvoiA1;Rokid也发在2018年发布了AI语音芯片KAMINO18;思必驰利用其声纹识别等技术优势,2019年初推出基于双DSP架构的语音处理专用芯片TH1520,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能。


由于语音芯片市场过于细碎,需要企业根据场景和商业模式需要设计出芯片产品,这对传统的通用芯片企业的商业模式是一种颠覆,以致于在2018年以前都很少有芯片巨头进入该领域,这也给了国内语音芯片企业较大的施展空间。而对算法公司来说,通过进入芯片市场,进而通过解决方案直接面向客户和应用场景,通过实战数据来训练和优化算法。

机器人


机器人是人工智能行业最早的落地形态,也是现在和将来重要的应用方向。机器人主要包括两类——制造环境下的工业机器人和非制造环境下的服务机器人。工业机器人主要是面向工业领域的多关节机械手或多自由度机器人。服务机器人则是除工业机器人之外的、用于非制造业并服务于人类的各种先进机器人。


随着云物移大智等信息及智能化技术的发展,机器人在某些领域的工作效率高于人类,并在工业和服务场景中得到了大量应用。据国际机器人联盟统计,2017年,全球工业机器人产量达到38.1万台,同比增长30%,预计2018-2021年全球工业机器人产量将保持10%以上增速增长,2021年产量预计将达到63.0万台。中国是全球最大的工业机器人生产国,2017年产量达到13.79万台,同比大幅增长60%。服务机器人主要用于物流、防务、公共服务、医疗等领域,虽然规模不大,但是增长迅速。2017年全球产量为10.95万台,同比大幅增长85%。预计2018年全球专业服务机器人产量将达到16.53万台,同比增长32%,2019-2021年平均增速将保持在21%左右。


机器人尤其是国内产业规模的快速扩大,将大幅带动国内机器人相关智能芯片产业的发展。机器人由控制、传感、驱动和电源四大装置构成,其中控制装置是机器人的“大脑”,核心是AI芯片。机器人芯片需要具备强大的数据计算、自主判断思考和执行能力,国外厂商如高通、英特尔、英伟达都在积极部署该领域,国内企业目前处于追赶状态,相关企业包括瑞芯微、珠海全志、炬力等。

AI

国内外AI芯片厂商概览


整体排名


近年来,各类势力均在发力AI芯片,参与者包括传统芯片设计、IT厂商、技术公司、互联网以及初创企业等,产品覆盖了CPU、GPU、FPGA、ASIC等。在市场调研机构Compass Intelligence 2018年发布的AI Chipset Index TOP24榜单中,前十依然是欧美韩日企业,国内芯片企业如华为海思、联发科、Imagination(2017年被中国资本收购)、寒武纪、地平线机器人等企业进入该榜单,其中华为海思排12位,寒武纪排23位,地平线机器人排24位。


芯片企业


芯片设计企业依然是当前AI芯片市场的主要力量,包括英伟达、英特尔、AMD、高通、三星、恩智浦、博通、华为海思、联发科、Marvell(美满)、赛灵思等,另外,还包括不直接参与芯片设计,只做芯片IP授权的ARM公司。其中,英伟达、英特尔竞争力最为强劲。


英伟达:AI芯片市场的领导者,计算加速平台广泛用于数据中心、自动驾驶等场景


英伟达创立于1993年,最初的主业为显卡和主板芯片组。其主板芯片组主要客户以前是AMD,但是在AMD收购ATI推出自研芯片组之后,英伟达在该领域的优势就荡然无存。于是,公司全面转向到GPU技术研发,同时进入人工智能领域。2012年,公司神经网络技术在其GPU产品的支持下取得重大进展,并在计算机视觉、语音识别、自然语言处理等方面得到广泛应用。


2016年,全球人工智能发展加速,英伟达迅速推出了第一个专为深度学习优化的Pascal GPU。2017年,英伟达又推出了性能相比Pascal提升5倍的新GPU架构Volta,同时推出神经网络推理加速器TensorRT 3。至此,英伟达完成了算力、AI构建平台的部署,也理所当然成为这一波人工智能热潮的最大受益者和领导者。公司的战略方向包括人工智能和自动驾驶。


人工智能方面。英伟达面向人工智能的产品有两个,Tesla系列GPU芯片以及DGX训练服务器。Tesla系列是专门针对AI深度学习算法加速设计GPU芯片,DGX则主要是面向AI研究开发人员设计的工作站或者超算系统。2018年,公司包含这两款产品的数据中心业务收入大幅增长52%,其中Tesla V100的强劲销售是其收入的主要来源。


自动驾驶方面。英伟达针对自动驾驶等场景,推出了Tegra处理器,并提供了自动驾驶相关的工具包。2018年,基于Tegra处理器,英伟达推出了NVIDIA DRIVE AutoPilot Level 2+,并赢得了丰田、戴姆勒等车企的自动驾驶订单。同时,2018年,公司也正在积极推动Xavier自动驾驶芯片的量产。


值得关注的是,英伟达还正在通过投资和并购方式继续加强在超算或者数据中心方面的业务能力。2019年3月,英伟达宣称将斥资69亿美元收购Mellanox。Mellanox是超算互联技术的早期研发和参与者。通过与Mellanox的结合,英伟达将具备优化数据中心网络负载能力的能力,其GPU加速解决方案在超算或者数据中心领域的竞争力也将得到显著提升。


英特尔加速向数字公司转型,通过并购+生态优势发力人工智能


英特尔作为传统的CPU设计制造企业,在传统PC、服务器市场有着绝对的统治力。随着互联网时代的到来以及个人电脑市场的饱和,公司也在开始加快向数字公司转型。尤其在人工智能兴起之后,英特尔凭借着技术和生态优势,打造算力平台,形成全栈式解决方案。


英特尔主要产品为CPU、FPGA以及相关的芯片模组。虽然CPU产品在训练端的应用效率不及英伟达,但推理端优势较为明显。英特尔认为,未来AI工作周期中,推理的时长将是训练时长的5倍甚至10倍,推理端的芯片需求也会放量。同时,即使是云端训练,GPU也需要同CPU进行异构。


目前,英特尔在人工智能芯片领域主要通过三条路径:1)通过并购快速积累人工智能芯片相关的技术和人才,并迅速完成整合。英特尔在收购了Altera后,还先后收购了Nervana、Movidius与Mobileye等初创企业。在完成上述一系列并购之后,英特尔设立了AI事业群,整合了Xeon、Xeon Phi、Nervana、Altera、Movidius等业务和产品,同时将原有的自动驾驶业务板块并入Mobileye。2)建立多元的产品线。目前,英特尔正建构满足高性能、低功耗、低延迟等差异化芯片解决方案,除了Xeon外,包括可支持云端服务Azure的Movidius VPU与FPGA。3)通过计算平台等产品,提供强大的整合能力,优化AI计算系统的负载,提供整体解决方案。


在英特尔收购的这些企业中,除了前面已经提到的Altera、Mobileye之外,Nervana也非常值得关注。2016年8月,英特尔斥资超过3.5亿美元收购这家员工人数不超过50人的创业公司,但是经过不到三年的成长,这家公司已经成为英特尔AI事业部的主体。依托Nervana,英特尔成功在2017年10月推出了专门针对机器学习的神经网络系列芯片,目前该芯片已经升级至第二代,预计2019年下半年将正式量产上市,该芯片在云端上预计能和英伟达的GPU产品一较高下。


IT及互联网企业


AI兴起之后,互联网及IT企业凭借着在各大应用场景上技术和生态积累,也在积极拓展AI相关市场,其中AI芯片是部署重点之一。相较而言,互联网企业凭借着数据和场景先天优势,在AI算法和芯片领域优势更为明显,如美国谷歌、国内的BAT。IT企业如IBM,在人工智能领域较早开始研究,2018年年中曾经推出专门针对深度学习算法的原型芯片。


谷歌:TPU芯片已经实现从云到端,物联网TPU Edge是当前布局重点


谷歌可谓是AI芯片行业的一匹黑马,但是竞争力强劲。谷歌拥有大规模的数据中心,起初同其他厂商的数据中心一样,都采用CPU+GPU等异构架构进行计算加速,用来完成图像识别、语音搜索等计算服务。但是,随着业务量的快速增长,传统的异构模式也很难支撑庞大的算力需求,需要探索新的高效计算架构。同时,谷歌也需要通过研发芯片来拓展AI平台TensorFlow的生态。因此,2016年,Google正式发布了TPU芯片。


从谷歌TPU的本质来看,它是一款ASIC(定制芯片),针对TensorFlow进行了特殊优化,因此该产品在其他平台上无法使用。第一代Cloud TPU仅用于自家云端机房,且已对多种Google官方云端服务带来加速效果,例如Google街景图服务的文字处理、Google相簿的照片分析、甚至Google搜寻引擎服务等。Cloud TPU也在快速改版,2017年推出第二代,2018年推出第三代芯片TPU 3.0。同时,谷歌对TPU的态度也更为开放,之前主要是自用,目前也在对用户开放租赁业务,但没有提供给系统商。


除了云端,谷歌针对边缘端推理需求快速增长的趋势,也在开发边缘TPU芯片。2017年11月,Google推出轻量版的TensorFlow Lite(某种程度取代此前的TensorFlow Mobile),使得能耗有限的移动设备也能支持TensorFlow,2018年推出的Edge TPU芯片即是以执行TensorFlow Lite为主,而非TensorFlow。Edge TPU性能虽然远不如TPU,但功耗及体积大幅缩小,适合物联网设备采用。Edge TPU可以自己运行计算,不需要与多台强大计算机相连,可在传感器或网关设备中与标准芯片或微控制器共同处理AI工作。


按照谷歌的规划,Edge TPU将提供给系统商,开放程度将进一步提升。如果Edge TPU推广顺利,支持的系统伙伴将进一步增多,谷歌将尽快推出下一代Edge TPU产品。即使推广不顺利,Google也可能自行推出Edge网关、Edge设备等产品。

阿里巴巴:推出自研神经网络处理芯片,同时加速对AI企业投资布局


阿里巴巴作为国内AI领域的领军企业,在底层算力、算法技术以及应用平台方面都有较强积累。同Google类似原因,阿里巴巴也在近年来开始开发AI芯片,同时加大对相关领域的投资布局。


2017年,阿里巴巴成立阿里达摩院,研究领域之一就是 AI芯片技术。2018年4月,阿里达摩院对外宣布正研发一款Ali-NPU神经网络芯片,预计将在2019年下半年问世。这款芯片将主要应用于图像视频分析、机器学习等AI推理计算。


阿里巴巴在自研AI芯片之前,主要在通过投资的方式布局 AI芯片领域。目前,寒武纪、深鉴科技、杭州中天微等都有阿里巴巴的入股,其中2016年1月份还成为了AI芯片设计企业杭州中天微的第一大股东。

百度:通过自研、合作以及投资等多种方式部署AI芯片


百度作为搜索企业,其对AI芯片的需求更为明确。早在2011年,百度就在FPGA和GPU进行了大规模部署,也开始在FPGA的基础上研发AI加速器来满足深度学习运算的需要。此后,百度就不断通过合作、投资和自研的方式来推进该业务。


1)加强同芯片设计及IP企业合作。2017年3月,百度发布了DuerOS智慧芯片,并与紫光展锐、ARM、上海汉枫达成战略合作。这款芯片搭载了对话式人工智能操作系统,可以赋予设备可对话的能力,能广泛用于智能玩具、蓝牙音箱、智能家居等多种设备。2017年8月,百度又与赛思灵(Xilinx)发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。同在2017年,百度同华为达成合作,推动终端AI芯片的落地。


2)参与AI芯片企业投资。2018年2月5日,美国初创公司Lightelligence宣布获得了1000万美元种子轮融资,由百度风投和美国半导体高管财团领投。Lightelligence主要利用基于光学的新技术,来加速人工智能的工作负载,通过光子电路的新兴技术来加速信息处理。


3)自研芯片也正在加速部署。2018年7月,百度正式发布了自研的AI芯片“昆仑”,这是当时国内第一款云端全功能AI芯片,其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。昆仑AI芯片是基于百度CPU、GPU、FPGA的AI加速器研发,能够在100W左右的功耗下,提供高达260万亿次/秒的运算速度,算力处于业界领先水平。


创业企业


寒武纪:公司同时发力终端和云端芯片,技术综合实力较强


寒武纪发源于中科院,是目前全球领先的智能芯片公司,由陈天石、陈云霁兄弟联合创办,团队成员主要人员构成也来自于中科院,其中还有部分参与龙芯项目的成员。2018年6月公司,公司获得数亿美元投资,此轮融资之后,寒武纪科技估值从上年的10亿美金大幅上升至25亿美元。公司是目前国内为数不多的同时具备云端和终端AI芯片设计能力的企业。


公司最早发力的是终端芯片,主要为1A系列,包括1A、1H8和1H16,公司通过IP授权的模式赋能终端或者芯片设计企业,目前主要合作伙伴包括华为,其中麒麟970就采用其1A处理器。另外,公司还推出了面向低功耗场景视觉应用的寒武纪1H8,高性能且拥有广泛通用性的寒武纪1H16,以及用于终端人工智能产品的寒武纪1M。2018年9月,华为发布的麒麟980依然集成了优化版的寒武纪1H新一代智能处理器。


公司云端芯片也取得较大突破。云端芯片一直是英特尔、英伟达等公司的领地,国内企业很难进入。2018年5月,寒武纪推出算力达到128Tops的MLU 100云端智能芯片,可用于训练和推理。MLU100相比传统的GPU和CPU芯片,MLU芯片拥有显著的性能功耗比和性能价格比优势,适用范围覆盖了图像识别、安防监控、智能驾驶等多个重点应用领域。


综合来看,公司在AI芯片方面竞争力较强。公司拥有自己的处理器架构和指令集,而且通过硬件神经元虚拟化、开发通用指令集、运用稀疏化处理器架构解决了ASIC用于深度学习时存在的三大问题。这三大问题是:云端算力的挑战、能效瓶颈、手机端和云端超大规模计算场景应用问题。


地平线机器人:公司芯片和计算平台在嵌入式及智能驾驶领域具备优势


地平线成立于2015年,主要从事边缘人工智能芯片和计算平台业务,场景聚焦于智能驾驶和AIoT边缘计算。2018年起,公司逐渐实现产品化落地。2019年2月,公司官方宣布已获得6亿美元B轮融资,SK中国、SK Hynix以及数家中国一线汽车集团(与旗下基金)联合领投。B轮融资后,地平线估值达30亿美元。


2017年12月,地平线发布中国首款全球领先的嵌入式人工智能视觉芯片征程(Journey)系列和旭日(Sunrise)系列。旭日1.0处理器面向智能摄像头等应用场景,具备在前端实现大规模人脸检测跟踪、视频结构化的处理能力,可广泛用于智慧城市、智慧零售等场景。征程1.0处理器面向智能驾驶,具备同时对行人、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准的实时检测与识别的处理能力,同时满足车载严苛的环境要求以及不同环境下的视觉感知需求,可用于高性能L2级别的高级驾驶辅助系统ADAS。


2018年2月,地平线自主研发的高清智能人脸识别网络摄像机,搭载地平线旭日人工智能芯片,提供基于深度学习算法的人脸抓拍、特征抽取、人脸特征值比对等功能。可以在摄像机端实现人脸库最大规模为5万的高性能人脸识别功能,适用于智慧城市、智慧零售等多种行业。


2018年4月,公司发布地平线Matrix1.0自动驾驶计算平台。目前已经更新到性能更强的升级版本,地平线Matrix自动驾驶计算平台结合深度学习感知技术,具备强大的感知计算能力,能够为L3和L4级别自动驾驶提供高性能的感知系统。地平线Matrix自动驾驶计算平台已向世界顶级Robotaxi厂商大规模供货,成功开创了中国自动驾驶芯片产品出海和商业化的先河。

AI

总结


从当前AI芯片竞争格局和市场前景看,国内企业在边缘端的机会多于云端。一方面,在边缘场景,国内在语音、视觉等领域已经形成了一批芯片设计企业队伍,相关芯片产品已经在安防、数据中心推理、智能家居、服务机器人、智能汽车等领域找到落地场景,未来随着5G、物联网等应用的兴起,相关企业的市场空间将进一步扩大。另一方面,在云端,国内企业也正在加速追赶,未来也有望取得突破。尤其是寒武纪,作为云端芯片重要的技术厂商,有望通过授权等方式为下游芯片设计、服务器企业赋能。


AI芯片上市公司标的较为稀缺,覆盖标的中,重点推荐中科曙光、科大讯飞、中科创达以及四维图新。中科曙光作为“芯-服务器-云”一体化企业,将直接成为国内AI芯片发展的受益者。除了AMD授权的海光X86处理器之外,公司也正在和同为中科体系的寒武纪合作,预计将在AI服务器、智能芯片等方面获得突破;科大讯飞作为语音交互领域的龙头,不但持有寒武纪的股份,而且还在同外部合作研发AI芯片Castor(北河二),目前该芯片已经完成测试工作,未来可用于智能家居等语音交互场景;中科创达在嵌入式人工智能领域有着较强的积累,主要为手机及安防终端提供软件解决方案,近年来开始向底层芯片发力,2017年11月跟投了国内神经网络处理器厂商——耐能;四维图新作为自动驾驶领域的重点标的,其收购的杰发科技,车规级MCU已经实现量产,为后续进军自动驾驶,实施“汽车大脑”战略打下了良好的基础。


参考资料来自:平安证券、驭势资本研究所

发表评论

邮箱地址不会被公开。 必填项已用*标注