100万元!NVIDIA Tesla V100能技压群雄吗?

上星期,NVIDIA在加州举行了2017年的GPU技能大会。在大会上,NVIDIACEO黄仁勋发布了全新力作 NVIDIA Tesla V100。

依据NVIDIA官方介绍,Tesla V100选用了全新架构Volta,不只会有更强的功能,还增加了TensorCore用以专门针对深度学习。在发布会后,NVIDIA的股价也随之走高。

那么NVIDIA能凭仗Tesla V100强悍的功能在深度学习范畴力压群雄吗?

Tesla V100的长处和存在的缺乏

依据NVIDIA官方介绍,Tesla V100选用台积电12nm FinFET制作工艺,供集成了210亿个晶体管,芯片面积达815平方毫米。NVIDIA为了针对深度学习,专门进行了优化,通过优化的规划比前代Pascal架构能效高50%。

新的Tensor Core是专门为深度学习规划的,为浮点运算速度带来了12倍的提高 Tesla V100增加了Tensor Core,Tensor单元本质上是把运算器做得更密布,以这种方法获取更强功能。

此外,Tesla V100还具有更大的带宽和更低的推迟,半精度浮点乘混合单精度浮点加法也十分合适深度学习练习。

简而言之,便是运算器堆的更多,矩阵乘法运算才干更强,功能得道大幅提高,Tesla V100双精浮点运算功能高达7.5TFlops,相比之下,Intel用于深度学习的KnightsMill双精浮点功能为3TFlops。

因为人工智能的迅速发展,许多企业对与高功能深度学习处理器的需求也日积月累:

微软的ResNet的深度学习项目需求每秒7百亿亿次浮点运算的处理才干;
 
百度2016年打造的DeepSpeech2AI需求每秒20百亿亿次浮点运算的处理才干;
 
Google2017年打造的NMT则需求每秒105百亿亿次浮点运算的处理才干;
 
......







因而,NVIDIA的Tesla V100作为数据中心GPU是十分具有潜力的,不只能够满意练习的需求,还能够放在后台供给相关服务。

尽管Tesla V100在功能上无与伦比,并且在一些范畴颇具商场潜力,但仍是存在不少缺陷的。

比方芯片面积过大 高达815平方毫米,而过大的芯片面积,加上NVIDIA在该款芯片上巨额的研制投入,直接导致Tesla V100的价格反常贵重,价格高达14.9万美元。如此高的价格会让许多用户望而生畏。

就产品定位来说,Tesla V100功能超强,拿来类比的话是一台超级计算机,而在许多场景下,其实用不到功能这么强,价格如此贵重的产品。

关于普罗群众和大多数运用场景来说,功能够用、功耗低且廉价的产品才是最好的挑选,就像一般顾客需求的是智能手机和PC,而不是超级计算机。

比方将来智能手机里假如要集成针对深度学习的模块,NVIDIA的产品显然是不合适的。在这种场景下,开发专门针对嵌入式渠道的处理器IP愈加契合商场需求。

NVIDIA的Tesla V100的商场定位相似于核弹,但真实需求核弹的场景其实相对不多,并且客户也只能是Google、微软、百度这些世界巨子。

正如核弹仅被少量国家把握,并且在世界抵触和局部战争中鲜有运用,AK47和RPG是才是被最广泛运用的兵器相似,NVIDIA的这种商场定位,会使其失掉十分宽广的嵌入式设备商场。

最终便是功耗的问题,NVIDIA的终端低功耗做得不够好。有必要阐明的是,台积电的12nm工艺其实是16nm工艺的改进版别,是针对三星玩14nm命名游戏的反击。因而,台积电的12nm工艺究竟对功耗操控有多大实际效果仍是等产品上市后才干见分晓了。

深度学习处理器将进入战国时代

自AlphaGo与韩国棋手李世石大战之后,深度学习、人工智能这些概念立马火了,不只成为本钱的宠儿,各色各样的深度学习处理器纷繁出现出来,各家IC规划公司推出了各自CPU、GPU、FPGA、DSP、ASIC等计划。

就CPU来说,最典型的便是Intel的Xeon Phi。Intel的众核芯片双精浮点功能为3 TFlops,功能功耗比为12 GFlops/W。

尽管Intel声称, 四片Knights Landing Xeon Phi芯片比四片GPU要快2.3 倍 、 运用Intel优化版的Caffe深度学习结构时,Xeon Phi芯片要比规范Caffe 完成快30倍 ,但现在来说,仍是NVIDIA的GPU更胜一筹。

除了Intel之外,我国自主规划的申威26010也是一个潜在的选手,在人工智能范畴也有运用的潜力,百度还为此与申威有过触摸。

在DSP上,国内外还有不少单位或公司也挑选用传统SIMD/DSP架构适配神经网络,比方中星微的星光智能一号、CEVA公司的XM4处理器、Cadence公司的Tensilica Vision P5处理器、Synopsys公司的EV处理器等。

这些处理器本质上都是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,首要在运算器方面作了相应修正,例如低位宽和逾越函数。这种做法的优势在于能够充分利用现有的老练技能,但缺陷也很明显,便是在运用范畴上有必定局限性。大多用于卷积神经网,而对循环神经网络和长短期回忆网络等处理语音和自然语言的网络则力不从心。

Copyright © 2018 菠菜网菠菜网-菠菜信誉导航 All Rights Reserved 

人才招聘  |