AI芯片架构：后进AI算力倍数增长，围剿霸主GPU仍为时过早

2018-11-03 21:31:10 网络整理阅读：124 评论：0

AI 计算架构百百种，有使用 GPU，也有 FPGA、DSP，或者是目前流行在各种嵌入式计算架构的类神经网络 ASIC，也就是 NPU 技术等。这些都是很常见的计算架构，在各种不同的应用中也发挥各自的计算特性和效能表现。

虽然目前有各种测试方式来比较不同架构的性能落差，但追根究底，不同架构原本的设计目的就有不同，有的必须要兼顾通用计算，因此在芯片布局中必须塞入更多逻辑管理单元，有的专注于纯粹的计算能量，完全不考虑其他工作，因此可能在芯片几乎大部分都塞乘加法器（MAC）之类的计算单元，也有的计算架构考虑的是各种情境下的通用计算需求，这些不同的考虑就产生的不同的效能/能效结果。

而近来欲在人工智能领域挑战 GPU 架构的各类计算新秀，都不约而同的号称可提供相较于 GPU 计算倍数以上的算力输出。GPU 性能变成这些新架构最直观的比较基准。

比如说包含寒武纪、华为的达芬奇架构，甚至是美国的 Habana 公司，都在产品发布时号称可在同样的规模设定下达到最高 1~3 倍于 NVIDIA 方案的性能输出。

后起之秀超越 GPU 的算力已经变成常识，且其宣称的性能优势也越来越大，所以 GPU 这种传统 AI 计算架构注定已经是末路黄花？其实这也还言之过早。当然，以行销而言，直接点出自己产品和竞品之间的技术落差是最直接有效的方法，但厂商往往只会指出对自己有利的部分，而对那些较不利的部分略之不谈，因此讨论这些新架构时，还是得从其设计目的、具体架构的真实际算效率来观察，才不会被厂商宣称的数字所蒙蔽。

最后，若这新架构在计算能量方面远优于旧架构，为何市场不选择这些理论上效率更高的计算架构？反而偏好既有的、没那么有效率的架构？寒武纪与 TPU 渊源深，达芬奇、Habana 则都借鉴 GPU，精简以求效率为共通点