瑞芯微一直以来为 Chromebook、平板电脑、机顶盒和其他消费电子提供低功耗的应用处理器,最新推出的RK1808旨在瞄准热门的AI处理器市场。该公司最近与全志、ARM、地平线机器人等公司组织一道在上海启动了开放人工智能实验室,旨在为中国嵌入式人工智能生态系统开发ARM架构的处理器。

RK1808是一款低功耗神经网络处理器,专为物联网设备设计,芯片内部具备用于处理音频和视频输入的多媒体模块,该芯片采用22nm FD-SOI工艺,这是瑞芯微在其产品线采用过的最高制程工艺节点。芯片的亮点是集成了VeriSilicon VIP8000神经网络引擎,每秒可进行3.1万亿次操作(TOPS)。

该公司还在为Google Chromebook提供的 RK3399Pro 中集成了VIP8000,RK3399Pro提供了与 RK1808 相同的神经网络性能。

图: RK1808结构图

该芯片只集成了两个Cortex-A35 CPU,但VIP8000神经网络引擎提供3.1 TOPS,启用对象识别和其他推理。多媒体子系统处理音频,摄像头和视频输入,GPU可以驱动2D显示器。MIPI的eMMC6X我2 CDDR4 /LPDDR38路我2 S的Cortex-A3532KB L1 I / D.的Cortex-A3532KB L1 I / D.128KB L2VIP8000512KB缓冲区2D GPU视频编解码器ISP2MB SRAM加密PMU24KBBoot ROMDRAM调节器USB2.0千兆以太网USB3.0PCIe 2.1串行闪存调节器。

新资源丰富,但乘法器利用率低

如图所示,RK1808集成了两颗运行频率为1.6GHz的 Cortex-A35 CPU,每个ARM核心具有32KB的L1指令和数据缓存。该设计有三个独立的电源域,客户可以单独关闭CPU,或者使用双核控制器串联运行这些CPU以实现动态电压和频率调节(DVFS)。在该双核SoC中,两个ARM内核共享128KB的 L2 缓存,同时该芯片还集成了2MB SRAM。

对于RK1808的深度学习加速器(DLA),瑞芯微集成了VeriSilicon的VIP8000 IP核心。VIP8000IP核心包含了 1920 个 8位整数(INT8)乘加单元,64个半精度浮点(FP16)乘加单元和192 个16位整数(INT16) 乘加单元。VIP8000 包括一个SIMD矢量引擎,VeriSilicon 称之为并行处理单元(PPU),这个引擎实现了一组图像处理指令集。该 PPU 处理一些神经网络任务,例如元素运算、16×16点积和其他矩阵运算功能。

DLA运行频率为800MHz,性能最高可达3.1 TOPS。在目前面市的低功耗物联网芯片,该性能很高。但是通过公开基准测试的数据评估,DLA加速器的MAC利用率并不高。以通用的ResNet-50图像分类为例,RK1808可达到81fps。使用Yolo V2进行目标检测时候可以达到43fps,在大多数端侧应用中,可以满足人脸识别和其它分析,但其他竞品芯片用了更少的乘加器打到了同样的性能,比如比特大陆的BM1880内部有 512个 8比特乘加单元,按照理论评估,其算力约为1.0 TOPS,仅为RK1808的三分之一,但其ResNet-50性能基本一致。

RK1808利用内部512KB的缓冲区来存储AI运算时的权重和中间结果,同时与32位宽的 DRAM 相连,可支持LPDDR3-1600和DDR4-2133 内存,对于端侧芯片来讲,小Cache和和单 DRAM 通道能耗更低,但是对于其AI算力,带宽可能成为局限因素。

RK1808的多媒体子系统可以驱动一个2D图形显示器,分辨率可达4Kx4K并形成并执行alpha混合,图像缩放和90度旋转。视频处理器可以解码60fps的1080p视频或编码30fps的1080p视频,同时内部包含了H.264编码器,但是考虑到H.265标准已经成熟,对比海思系列专业的IPCamera芯片组方案,仍在市场定位上存在差距。显示处理器单元(DPU)可以通过MIPI DSI接口实现60fps高清显示。它的ISP处理来自单MIPI CSI连接的1080p相机的 RAW 数据。

深耕垂直领域

早在2016年,瑞芯微为 Google Chromebook 设计了RK3399 SoC芯片,最新上市的RK3399Pro与 RK3399 的大部分组件基本一致,但是内部具备了与RK1808 相同的VIP8000神经网络加速器。

虽然RK3399缺少接口引擎,但它为瑞芯微和 Arm China 的 Open AI Lab 开发嵌入式AI开发套件(EAIDK)提供支持。与其前代一样,RK3399Pro 是一款采用大小核设计的六核处理器,包含了两个Cortex-A72 CPU和四个Cortex-A53 CPU,其中A72的主频高达1.8GHz并连接到48KB ICache和32KB的L1缓存,A53小核的最高主频为1.4GHz,具有32KB L1Cache。两颗A72 处理器共享1MB L2缓存,而A53共享512KB L2缓存,同时具备两颗Cortex-M0内核,在连接传感器外设时候,可以大幅度降低功耗。

RK3399Pro与RK1808的2D、3D图形引擎、图像增强处理器、ISP和视频编解码器都相同,但是Mali-T860这款端侧GPU已经有五年的历史,针对最新的OpenGL图形应用,其性能难以满足需求。

RK3399Pro的视频编解码器有所升级,可解码 4K@60fps 视频,但其编码能力较弱,仅能进行1080p@30fps的视频编码。

计算棒

在很多应用场景,由于种种原因,原有SoC设计很难替换,通过USB扩展的AI计算棒是一个赋能传统嵌入式平台人工智能能力的最佳方案,市面上其他常见的计算棒有Gyrfalcon 和Movidius。Gyrfalcon 的 Plai Plug集成了 Lightspeeur 2801 加速器,它可以在50MHz主频下仅消耗 300mW 的功耗,同时提供2.8 TOPS 的CNN加速性能,该芯片支持VGG等神经网络,但目前Gyrfalcon尚未公布任何性能数据。

英特尔收购的Movidius公司设计的Myriad X计算棒约六百人民币。Myriad X内部包含DNN加速器,Movidius称之为神经计算引擎。Movidius指出,通过它,在Myriad X理论上四万亿次计算能力的背景下,Myriad X能获得理论DNN峰值吞吐量的超一万亿次的每秒运算量。

此外,Myriad X 有4个可编程的128位VLIW矢量处理器和MIPI通道,内部具备十六个SHAVE(矢量引擎)加速器内核,通过2.5 MB的SRAM相连,和更多的固化功能的视觉加速器,对CNN类视觉模型推理进行了优化,同时Myriad X也支持最新的LPDDR4。

在目前市场上的三款计算棒产品中,RK1808性能最高,其的功耗约在1.0W左右,介于Lightspeeur 2801和 Myriad X 计算棒之间。但是RK1808的 Cortex-A35 CPU 能够运行 Android 或 Linux,而 Gyrfalcon的产品缺乏该功能。Myriad X还有一个应用程序CPU能够运行RTEMS实时操作系统,目前仅有少量厂家基于Myriad的LEON内核进行应用开发。综合考虑,基于RK1808的嵌入式系统功耗更低,同时其生态链更为完备,大幅度缩短了产品上市时间。

开放AI

瑞芯微为了支持Open AI Lab,在 GitHub 上开源了一个该芯片 Linux SDK,同时允许开发人员下载PCB的版图以及处理器的详细技术参考手册。SDK支持 C ++ 和Python,同时AI模型转换工具能够兼容 Caffe、Pytorch、MXNet 和 TensorFlow框架。在社区方面,Pine64 计划以仅29美元的价格出售基于 RK1808 的 SoM,该平台将可以运行VeriSilicon 的针对计算机视觉和深度学习的 Acuity集成开发环境。

发表评论

邮箱地址不会被公开。 必填项已用*标注