知乎
原文

文章《DaDianNao: A Machine-Learning Supercomputer》介绍了一种专为机器学习设计的高性能计算架构——DaDianNao,它通过独特的内存管理方式解决了神经网络计算中的关键瓶颈,特别是在处理全连接层时的内存带宽限制问题。DaDianNao系统利用多芯片分布式存储和高密度eDRAM(嵌入式动态随机存取内存)来优化存取模式,显著提高处理大型神经网络模型的效率。

该系统采用“分块(tiling)”策略来减少内存流量和提高操作能效,通过将数据划分为较小的块或“瓦片”,并行处理这些瓦片,以最大化数据复用并减少频繁的内存访问。每个瓦片有其专用的缓冲区和处理单元,这有助于快速且能效地完成计算。

此外,DaDianNao还包含特定的硬件组件,如神经功能单元(NFU),该单元专为执行神经网络操作而设计,能够支持包括卷积和池化在内的多种操作,是系统实现高计算密度和性能提升的关键。

总的来说,DaDianNao通过其创新的内存和计算架构,在处理复杂的机器学习模型方面,比传统的CPU和GPU架构具有明显的优势。