下载PDF摘要:机器学习(ML)模型广泛应用于媒体处理与生成、计算机视觉、医疗诊断、嵌入式系统、高性能科学计算、推荐系统等领域,为了有效地处理这些计算和存储密集型应用,这些过参数化模型的张量通过利用张量的稀疏性、降维和量化来压缩。非结构化稀疏性和不同维度的张量产生不规则形状的计算、通信和内存访问模式;在硬件加速器上以传统方式处理它们本身并不能利用加速机会。本文对如何在硬件加速器上高效地执行ML模型的稀疏张量计算和不规则张量计算进行了全面的综述。特别是,它讨论了体系结构设计和软件支持中的其他增强模块;对不同的硬件设计和加速技术进行了分类,并从硬件和执行成本的角度对它们进行了分析;重点介绍了所描述的硬件和软件增强模块之间在硬件/软件/算法协同设计优化和联合优化方面的进一步机会。从这篇白皮书中学到的东西包括:了解在加速稀疏、不规则形状和量化张量方面的关键挑战;了解用于支持其高效计算的加速系统的增强;分析选择特定类型的设计增强的权衡;了解如何映射和编译加速器上具有稀疏张量的模型;了解高效加速的最新设计趋势和进一步的机会。