我院科研成果新动态（十八）Softmax函数应用

发布者：汤靖玲发布时间：2025-10-31浏览次数：10

Softmax函数作为深度学习和机器学习中的核心组件，广泛应用于多分类问题、注意力机制以及推荐系统和强化学习。其核心价值在于通过指数运算放大输入差异并归一化输出，确保结果符合概率分布特性，从而支持模型进行精细化分类和决策。然而，Softmax的硬件实现面临计算复杂度与内存访问瓶颈、数值稳定性问题以及并行化与同步障碍等多重挑战。这些挑战会导致网络模型的部署效率下降和资源消耗攀升，限制了它们的实际应用价值。

为此，南京大学智能科学与技术学院王宇宣副教授团队针对Softmax函数在硬件实现时可能面临的各类挑战展开深入研究，提出了相应的创新方法，相关工作发表于IEEE TCAS-I学科卓越期刊中。

工作一：一种具有并行和稀疏适应性的小型高效Softmax架构

许多面向Transformer的硬件加速架构均采用了高并行度计算以及稀疏感知处理方法，但现有的Softmax硬件架构未实现对上述计算范式的高效适配，这导致在大部分现有的加速架构中，Softmax成为了主要的访存和计算瓶颈。为了解决这一挑战，研究团队提出了TEA-SPS架构，以实现具有并行和稀疏适应性的高效Softmax硬件架构。该架构首先应用了文章提出的具有稀疏掩码的可重构并行Softmax算法CPSS以实现对并行性和稀疏性的融合适配，随后应用了文章提出的特定分段信息提取器SPIE以高效优化算法中的非线性算子。该架构实现的稀疏Softmax算法能够高效适配不同吞吐需求的Transformer加速架构，具有高能效和高兼容性的优秀特性。该工作已被IEEE TCAS-I（"TEA-SPS: A Tiny and Efficient Architecture for Softmax With Parallelism and Sparsity Adaptability," IEEE Transactions on Circuits and Systems I: Regular Papers）接收发表。

图1 CPSS算法示意图

图2 TEA-SPS硬件架构图

论文链接：https://ieeexplore.ieee.org/document/11184336

工作二：一种高精度的Softmax逼近方法及高效硬件实现

现有部分工作采用如Base-2 Softmax等方法对Softmax函数进行近似计算以提升硬件效率，但在频繁使用Softmax将导致近似误差积累，严重影响模型推理精度，且往往需要对原始网络进行重训练，不仅带来额外计算资源消耗，还存在兼容性不足、过拟合或欠拟合等风险。为此，研究团队提出了MBS近似算法，采用底数为2与4的混合指数函数对传统Softmax进行近似，兼具硬件友好性与高精度计算特性。相比Base-2 Softmax方法，MBS可直接应用于预训练的Transformer网络中，无需额外训练，在计算精度上具有优势，从而大幅减少软件开销并增强系统兼容性。在硬件实现方面，该研究设计了一套高并行度、资源占用低的MBS近似计算硬件架构，在保持低面积与功耗的同时，计算精度也得到了提高。该工作已被IEEE TCAS-I（"MBS: A High-Precision Approximation Method for Softmax and Efficient Hardware Implementation," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 72, no. 7, pp. 3366-3375, July 2025）接收发表。

图3 MBS算法示意图

图4 MBS硬件架构图

论文链接：https://ieeexplore.ieee.org/document/10966265