CPU、GPU、TPU、NPU等到底是什么? - 网络

文章推薦指數: 80 %
投票人數:10人

NPU – Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

RPU ... 资讯话题直播技术期刊技术大会社区编辑申请我关注的话题我收藏的文章退出 注册/登录 CPU、GPU、TPU、NPU等到底是什么? 作者:Jasonangel2021-01-0508:23:20网络网络设备本篇详细介绍CPU、GPU、TPU、NPU等到底是什么?有什么区别及作用。

 CPU即中央处理器(CentralProcessingUnit) GPU即图形处理器(GraphicsProcessingUnit) TPU即谷歌的张量处理器(TensorProcessingUnit) NPU即神经网络处理器(NeuralnetworkProcessingUnit) 概括三者区别: CPU虽然有多核,但一般也就几个,每个核都有足够大的缓存和足够多的数字和逻辑运算单元,需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理,并辅助有很多加速分支判断甚至更复杂的逻辑判断的硬件; GPU的核数远超CPU,被称为众核(NVIDIAFermi有512个核)。

每个核拥有的缓存大小相对小,数字逻辑运算单元也少而简单(GPU初始时在浮点计算上一直弱于CPU),面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

TPU是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。

大致上,相对于现在的处理器有7年的领先优势,宽容度更高,每秒在芯片中可以挤出更多的操作时间,使用更复杂和强大的机器学习模型,将之更快的部署,用户也会更加迅速地获得更智能的结果。

所谓NPU,即神经网络处理器,用电路模拟人类的神经元和突触结构。

CPU 中央处理器(CPU,CentralProcessingUnit),是电子计算机的主要设备之一,电脑中的核心配件。

其功能主要是解释计算机指令以及处理计算机软件中的数据。

电脑中所有操作都由CPU负责读取指令,对指令译码并执行指令的核心部件。

CPU的结构主要包括运算器(ALU,ArithmeticandLogicUnit)、控制单元(CU,ControlUnit)、寄存器(Register)、高速缓存器(Cache)和它们之间通讯的数据、控制及状态的总线。

CPU遵循的是冯诺依曼架构,其核心就是:存储程序,顺序执行。

另外,因为遵循冯诺依曼架构(存储程序,顺序执行),CPU就像是个一板一眼的管家,人们吩咐的事情它总是一步一步来做。

但是随着人们对更大规模与更快处理速度的需求的增加,这位管家渐渐变得有些力不从心。

于是,大家就想,能不能把多个处理器放在同一块芯片上,让它们一起来做事,这样效率不就提高了吗? 没错,GPU便由此诞生了。

GPU 在正式讲解GPU之前,我们先来讲讲上文中提到的一个概念:并行计算。

并行计算(ParallelComputing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。

它的基本思想是用多个处理器来共同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。

并行计算可分为时间上的并行和空间上的并行。

时间上的并行是指流水线技术,比如说工厂生产食品的时候分为四步:清洗-消毒-切割-包装。

如果不采用流水线,一个食品完成上述四个步骤后,下一个食品才进行处理,耗时且影响效率。

但是采用流水线技术,就可以同时处理四个食品。

这就是并行算法中的时间并行,在同一时间启动两个或两个以上的操作,大大提高计算性能。

空间上的并行是指多个处理机并发的执行计算,即通过网络将两个以上的处理机连接起来,达到同时计算同一个任务的不同部分,或者单个处理机无法解决的大型问题。

比如小李准备在植树节种三棵树,如果小李1个人需要6个小时才能完成任务,植树节当天他叫来了好朋友小红、小王,三个人同时开始挖坑植树,2个小时后每个人都完成了一颗植树任务,这就是并行算法中的空间并行,将一个大任务分割成多个相同的子任务,来加快问题解决速度。

所以说,如果让CPU来执行这个种树任务的话,它就会一棵一棵的种,花上6个小时的时间,但是让GPU来种树,就相当于好几个人同时在种。

GPU全称为GraphicsProcessingUnit,中文为图形处理器,就如它的名字一样,GPU最初是用在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。

为什么GPU特别擅长处理图像数据呢?这是因为图像上的每一个像素点都有被处理的需要,而且每个像素点处理的过程和方式都十分相似,也就成了GPU的天然温床。

但GPU无法单独工作,必须由CPU进行控制调用才能工作。

CPU可单独作用,处理复杂的逻辑运算和不同的数据类型,但当需要大量的处理类型统一的数据时,则可调用GPU进行并行计算。

GPU的工作大部分都计算量大,但没什么技术含量,而且要重复很多很多次。

借用知乎上某大神的说法,就像你有个工作需要计算几亿次一百以内加减乘除一样,最好的办法就是雇上几十个小学生一起算,一人算一部分,反正这些计算也没什么技术含量,纯粹体力活而已;而CPU就像老教授,积分微分都会算,就是工资高,一个老教授资顶二十个小学生,你要是富士康你雇哪个? 但有一点需要强调,虽然GPU是为了图像处理而生的,但是我们通过前面的介绍可以发现,它在结构上并没有专门为图像服务的部件,只是对CPU的结构进行了优化与调整,所以现在GPU不仅可以在图像处理领域大显身手,它还被用来科学计算、密码破解、数值分析,海量数据处理(排序,Map-Reduce等),金融分析等需要大规模并行计算的领域。

TPU 张量处理单元(TPU)是一种定制化的ASIC芯片,它由谷歌从头设计,并专门用于机器学习工作负载。

TPU为谷歌的主要产品提供了计算支持,包括翻译、照片、搜索助理和Gmail等。

CloudTPU将TPU作为可扩展的云计算资源,并为所有在GoogleCloud上运行尖端ML模型的开发者与数据科学家提供计算资源。

按照上文所述,CPU和GPU都是较为通用的芯片,但是有句老话说得好:万能工具的效率永远比不上专用工具。

随着人们的计算需求越来越专业化,人们希望有芯片可以更加符合自己的专业需求,这时,便产生了ASIC(专用集成电路)的概念。

ASIC是指依产品需求不同而定制化的特殊规格集成电路,由特定使用者要求和特定电子系统的需要而设计、制造。

而TPU(TensorProcessingUnit,张量处理器)就是谷歌专门为加速深层神经网络运算能力而研发的一款芯片,其实也是一款ASIC。

据称,TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。

初代的TPU只能做推理,要依靠Google云来实时收集数据并产生结果,而训练过程还需要额外的资源;而第二代TPU既可以用于训练神经网络,又可以用于推理。

NPU 所谓NPU(NeuralnetworkProcessingUnit),即神经网络处理器。

用电路模拟人类的神经元和突触结构。

神经网络中存储和处理是一体化的,都是通过突触权重来体现。

而冯·诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异。

当用现有的基于冯·诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,因而影响效率。

这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一。

NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorth。

以中国的寒武纪为例,DianNaoYu指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。

用数字来说话,CPU、GPU与NPU相比,会有百倍以上的性能或能耗比差距–以寒武纪团队过去和Inria联合发表的DianNao论文为例–DianNao为单核处理器,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算,65nm工艺下功耗为0.485W,面积3.02平方毫米mm。

BPU BPU(BrainProcessingUnit,大脑处理器)是由地平线科技提出的嵌入式人工智能处理器架构。

第一代是高斯架构,第二代是伯努利架构,第三代是贝叶斯架构。

目前地平线已经设计出了第一代高斯架构,并与英特尔在2017年CES展会上联合推出了ADAS系统(高级驾驶辅助系统)。

DPU DPU(DeeplearningProcessingUnit,即深度学习处理器)最早由国内深鉴科技提出,基于Xilinx可重构特性的FPGA芯片,设计专用的深度学习处理单元(可基于已有的逻辑单元,设计并行高效的乘法器及逻辑电路,属于IP范畴),且抽象出定制化的指令集和编译器(而非使用OpenCL),从而实现快速的开发与产品迭代。

事实上,深鉴提出的DPU属于半定制化的FPGA。

总结 APU–AcceleratedProcessingUnit,加速处理器,AMD公司推出加速图像处理芯片产品。

BPU–BrainProcessingUnit,地平线公司主导的嵌入式处理器架构。

CPU–CentralProcessingUnit中央处理器,目前PCcore的主流产品。

DPU–DeeplearningProcessingUnit,深度学习处理器,最早由国内深鉴科技提出;另说有DataflowProcessingUnit数据流处理器,WaveComputing公司提出的AI架构;DatastorageProcessingUnit,深圳大普微的智能固态硬盘处理器。

FPU–FloatingProcessingUnit浮点计算单元,通用处理器中的浮点运算模块。

GPU–GraphicsProcessingUnit,图形处理器,采用多线程SIMD架构,为图形处理而生。

HPU–HolographicsProcessingUnit全息图像处理器,微软出品的全息计算芯片与设备。

IPU–IntelligenceProcessingUnit,DeepMind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU–Microprocessor/MicrocontrollerUnit,微处理器/微控制器,一般用于低计算应用的RISC计算机体系架构产品,如ARM-M系列处理器。

NPU–NeuralNetworkProcessingUnit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

RPU–RadioProcessingUnit,无线电处理器,ImaginationTechnologies公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU–TensorProcessingUnit张量处理器,Google公司推出的加速人工智能算法的专用处理器。

目前一代TPU面向Inference,二代面向训练。

VPU–VectorProcessingUnit矢量处理器,Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU–WearableProcessingUnit,可穿戴处理器,InedaSystems公司推出的可穿戴片上系统产品,包含GPU/MIPSCPU等IP。

XPU–百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核。

ZPU–ZylinProcessingUnit,由挪威Zylin公司推出的一款32位开源处理器。

 责任编辑:姜华 来源: 嵌入式Linux系统开发CPUGPUTPUNPU分享到微信微信扫码分享分享到微博相关推荐云计算人工智能vs边缘人工智能:2022年选择哪个更好?近年来,由于对GPU、NPU、TPU和其他人工智能加速器的需求增加,边缘人工智能技术发生了巨大变化。

2022-02-0814:09:12四款开源日志收集工具简介及特点分析本文讨论了市面上流行的几款日志收集工具(包括Logstash、Fluentd、FluentBit和Vector)及其主要特点。

2022-02-1815:19:52日志收集工具开源使用企业微信发送Zabbix告警信息企业微信在很多公司都有使用,得益于它强大的消息推送API,我们可以自己实现使用企业微信作为告警媒介,本文就从零开始介绍如何使用企业微信发送Zabbix告警。

2022-03-0111:33:36企业微信Zabbix监控软件隐私计算的硬件方案:「可信执行环境TEE」兼顾数据安全、隐私保护本文阐释梳理了可信执行环境(TEE)的概念定义及发展脉络,剖析TEE与基于密码学的隐私保护技术的对比及其在联邦学习中的应用,最后介绍TEE的现有框架和相关应用。

2022-02-2110:36:29隐私应用技术深度学习中,CPU、GPU、NPU、FPGA如何发挥优势随着AI的广泛应用,深度学习已成为当前AI研究和运用的主流方式。

面对海量数据的并行运算,AI对于算力的要求不断提升,对硬件的运算速度及功耗提出了更高的要求。

2019-09-1115:38:15CPUGPUNPU深度学习中,CPU、GPU、NPU、FPGA如何发挥优势随着AI的广泛应用,深度学习已成为当前AI研究和运用的主流方式。

面对海量数据的并行运算,AI对于算力的要求不断提升,对硬件的运算速度及功耗提出了更高的要求。

2019-05-1008:43:05CPUGPUNPU英特尔宣布新路线图:XeonCPU与XeGPU设计被提前曝光在今年英特尔与华尔街分析师举行的英特尔投资者日会议上,首席执行官PatGelsinger透露了XeonCPU和XeGPU 的新路线图。

值得注意的是,英特尔首次将Xeon处理器产品线分为两种微架构类型。

2022-02-2509:23:03英特尔芯片CPU单个GPU无法训练GPT-3,但有了这个,你能调优超参数了模型越大,超参数(HP)调优成本越高,微软联合OpenAI提出HP调优新范式,单个GPU上就可以调优GPT-3超参数。

2022-03-1009:48:11人工智能机器学习模型给5G基带也加上机器学习单元:高通的AI脑洞还有太多最先进的人工智能技术,并不总意味着数块GPU、每秒算力上E的超算。

2022-03-1015:14:06人工智能超算5G研究表明新的网络攻击可以绕过针对Intel和ARMCPU中Spectre漏洞的硬件防御Spectre是一种安全漏洞,最初于2017年1月披露,它源于现代CPU的性能相关特性,称为推测执行,CPU试图提前预测程序在到达条件分支时将采用哪条路径执行,并提前在该路径上执行指令。

2022-03-1016:24:25安全漏洞Spectre网络攻击XR开年福利:首云GPU云桌面免费领首云GPU云桌面V1.0版本已正式开启公测,欢迎大家体验和使用。

2022-02-2310:56:16GPU硬件算力产品FPGA+CPU架构的自动驾驶平台性能分析在这里本文试图探讨如何对FPGA+CPU自动驾驶平台的性能进行估计,目的是希望帮助开发者在选择FPGA+CPU自动驾驶系统平台时初步掌握一种对系统性能的评估方法。

2022-03-0311:26:14自动驾驶开发性能单核游戏也挑配置,GPU的尽头在何方?GPU正悄悄渗透到计算的方方面面。

就连单核CPU都可以玩的很爽的游戏,也开始投向了GPU的怀抱。

随着云计算、XR、元宇宙的兴起,GPU、图形计算等会有哪些演进方向?希望此文能给大家一些新的启发和帮助。

2022-02-1100:06:40Chrome更快更强,在Mac上击败SafariGoogle在官方博客中表示,macOS上的Chrome99浏览器在Speedometer基准测试中获得了300分,这一成绩是迄今为止所有浏览器中的最佳性能表现,Safari的得分则是277左右。

2022-03-0909:35:07GoogleChrome99SafariVR丝滑全景指日可待?谷歌这个360°NeRF让人看到未来谷歌研究科学家、论文一作JonBarron表示,他们开发了一种名为Mip-NeRF360的模型,该模型能够生成无界场景的逼真渲染,给我们带来了360°的逼真效果和漂亮的深度图。

2022-03-1009:43:24谷歌AR模型ARMv8-A地址翻译技术之MMU的前世今生页表级数、块大小的不同,会对地址翻译产生什么样的影响?如果我的CPU只有32位,但是我想实现大于32位地址范围的虚拟地址访问,又该如何操作?2022-03-1011:57:16Python多线程、多进程详细整理在学习Python的过程中,有接触到多线程编程相关的知识点,先前一直都没有彻底的搞明白。

今天准备花一些时间,把里面的细节尽可能的梳理清楚。

2022-03-0917:01:32Python多线程多进程LaserShark无接触式攻击植入技术根据定义,物理隔离系统无法从外部渗透。

然而现在研究界已经表明,这并不一定是正确的,并已经证明了多种弥合差距的方法。

虽然这些方法以各种非常有创造性的隐蔽信道为特色,但由于低数据率、短距离或只有单向通信,它们的实际效用仍然存在问题。

2022-03-1012:17:02植入LaserShark无接触Windows11任务管理器“效率模式”的一些有趣细节目前,微软专注于CPU优化,因为它只想减少功耗。

在即将到来的Windows版本中,你可以期待其他系统资源的类似技术,如内存甚至是GPU。

2022-02-2212:54:37微软WindowsIntel超级GPU计算卡亮相:六十三个小芯片合体、六百瓦功耗Intel此前曾经披露过,它使用了5种不同的制造工艺,内部封装多达47个芯片/单元(Tile),晶体管数量突破1000亿个。

2022-02-2311:00:10芯片GPUIntel相似话题通信技术2531内容网络优化321内容4G/5G881内容网络管理1876内容查看全部话题编辑推荐教你怎么选择最合适的无线AP你会使用交换机吗?连接交换机的正确方法通过降低数据采样率,如何构建通用的智能物联网关设备利用运维工具破局!看招商银行运维部门如何与开发、业务和睦相处理解NVMe的内部实现原理,这一篇就够了相关专题更多戴尔超融合研讨会终端安全网络安全的最后防线2022-03-1013:48:032021年网络安全盘点及展望2022-03-1013:48:03我收藏的内容微博QQ微信复制链接微信扫码分享51CTO技术栈公众号51CTO技术栈公众号 业务 速览 在线客服媒体51CTOCIOAgeHC3i社区51CTO博客OpenHarmony技术社区教育51CTO学堂精培企业培训CTO训练营



請為這篇文章評分?