此章节稍后订阅由于断网可能会赶不上全勤所以复制了一些乱七八糟的东西明天之前就会改正
TheNextPlatform评论称,TPU并不复杂,看上去更像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,虽然TPU有很多矩阵乘法单元,但TPU比“GPU在思路上更接近浮点单元协处理器”,TPU没有任何存储程序,仅执行从主机发送的指令。
由于要获取大量的权重并将这些权重送到矩阵乘法单元,TPU上的DRAM是作为一个独立的单元并行运行。同时,矩阵乘法单元通过减少统一缓冲区的读写降低能耗,也就是进行所谓的“脉动运行”(systolicexecution)。
TPU有两个内存,还有一个用于存储模型中参数的外部DRAM。参数进来以后,从矩阵乘法单元的上层开始加载。同时,可以从左边加载激活,也就是“神经元”的输出。这些都以“systolic”脉动的方式进入矩阵单元,然后进行矩阵相乘,每个周期可以做64,000次累积。
鉴于大多数使用机器学习的公司(除了Facebook)都使用CPU做推理,因此谷歌TPU论文将英特尔“Haswell”XeonE5v3处理器和TPU做了对比,而且从数据可以看出,后者在多维度推理方面性能远超前者。TheNextPlatform也由此评论,难怪用惯了X86处理器集群做机器学习的谷歌要自己研发一款新的芯片做推理。
在谷歌的测试中,使用64位浮点数学运算器的18核HaswellXeonE5-2699v3处理器,以2.3GHz运行的情况下每秒能够处理1.3TOPS(每秒万亿次运算),提供51GB/秒的内存带宽,Haswell芯片的能耗是145瓦,系统(包括了256GB的内存)繁忙时耗能455瓦特。
相比之下,TPU使用8位整数数学运算器,拥有256GB的主机内存和32GB的自身内存,片上内存带宽34GB/秒,峰值92TOPS,推理吞吐量高了71倍,而托管TPU的服务器的热功率为384瓦。
谷歌还对比测试了CPU、GPU和TPU处理不同批量(batch)大小的每秒推理吞吐量。
在批量很小、数量为16的情况下,HaswellCPU处理完前99%的响应时间接近7毫秒,每秒推理数为5,482次(IPS),相当于最大值(13,194IPS,批量64)的42%,而达到峰值则用了21.3毫秒的时间。相比之下,TPU可以做到在批量大小为200的情况下仍然满足7毫秒的上限,并且IPS为225,000次,达到峰值性能的80%。TPU在批量大小为250的情况下,经过10个毫秒就出现了前99%的响应。
需要指出,谷歌测试的是一个相对较早的HaswellXeon,随着架构的变化和预计今夏发布的“Skylake”XeonE5,IPC还会上升。此外,Skylake是28核(相比Haswell是18核),Xeon的总体吞吐量也会加大(TheNextPlatform的估计是提高80%)。但即便如此,CPU与TPU还是有着很大的差距。
国际计算语言学协会(ACL)第55届年会将在加拿大温哥华举行。这一次会议将于2017年7月30日至8月4日在温哥华市中心的威斯汀湾海岸酒店(WestinBayshoreHotel)举办。
ACL2017除了主要会议之外,还如同其他顶级会议一样包含研讨会、专题报告、研习会和演示等。ACL会议是计算语言学领域的首要会议,广泛涉及自然语言的计算方法及其各类研究领域。
下面列出了ACL2017所接收的长篇论文、短篇论文和软件展示,所有论文或展示采取分类无序排列。