Softmax函数作为深度学习和机器学习中的核心组件,广泛应用于多分类问题、注意力机制以及推荐系统和强化学习。其核心价值在于通过指数运算放大输入差异并归一化输出,确保结果符合概率分布特性,从而支持模型进行精细化分类和决策。然而,Softmax的硬件实现面临计算复杂度与内存访问瓶颈、数值稳定性问题以及并行化与同步障碍等多重挑战。这些挑战会导致网络模型的部署效率下降和资源消耗攀升,限制了它们的实际应用价值。
为此,南京大学智能科学与技术学院王宇宣副教授团队针对Softmax函数在硬件实现时可能面临的各类挑战展开深入研究,提出了相应的创新方法,相关工作发表于IEEE TCAS-I学科卓越期刊中。
工作一:一种具有并行和稀疏适应性的小型高效Softmax架构
许多面向Transformer的硬件加速架构均采用了高并行度计算以及稀疏感知处理方法,但现有的Softmax硬件架构未实现对上述计算范式的高效适配,这导致在大部分现有的加速架构中,Softmax成为了主要的访存和计算瓶颈。为了解决这一挑战,研究团队提出了TEA-SPS架构,以实现具有并行和稀疏适应性的高效Softmax硬件架构。该架构首先应用了文章提出的具有稀疏掩码的可重构并行Softmax算法CPSS以实现对并行性和稀疏性的融合适配,随后应用了文章提出的特定分段信息提取器SPIE以高效优化算法中的非线性算子。该架构实现的稀疏Softmax算法能够高效适配不同吞吐需求的Transformer加速架构,具有高能效和高兼容性的优秀特性。该工作已被IEEE TCAS-I("TEA-SPS: A Tiny and Efficient Architecture for Softmax With Parallelism and Sparsity Adaptability," IEEE Transactions on Circuits and Systems I: Regular Papers)接收发表。

图1 CPSS算法示意图

图2 TEA-SPS硬件架构图
论文链接:https://ieeexplore.ieee.org/document/11184336
工作二:一种高精度的Softmax逼近方法及高效硬件实现
现有部分工作采用如Base-2 Softmax等方法对Softmax函数进行近似计算以提升硬件效率,但在频繁使用Softmax将导致近似误差积累,严重影响模型推理精度,且往往需要对原始网络进行重训练,不仅带来额外计算资源消耗,还存在兼容性不足、过拟合或欠拟合等风险。为此,研究团队提出了MBS近似算法,采用底数为2与4的混合指数函数对传统Softmax进行近似,兼具硬件友好性与高精度计算特性。相比Base-2 Softmax方法,MBS可直接应用于预训练的Transformer网络中,无需额外训练,在计算精度上具有优势,从而大幅减少软件开销并增强系统兼容性。在硬件实现方面,该研究设计了一套高并行度、资源占用低的MBS近似计算硬件架构,在保持低面积与功耗的同时,计算精度也得到了提高。该工作已被IEEE TCAS-I("MBS: A High-Precision Approximation Method for Softmax and Efficient Hardware Implementation," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 72, no. 7, pp. 3366-3375, July 2025)接收发表。

图3 MBS算法示意图

图4 MBS硬件架构图
论文链接:https://ieeexplore.ieee.org/document/10966265
