所以我在Attention is All You Need中读到,Transformers 完全消除了对递归和卷积的需求。但是,我看到一些 TNN(例如SepFormer、DPTNet和TSTNN)仍然使用卷积。这有什么特别的原因吗?这不是违背变形金刚的目的吗?
为什么在一些 Transformer 网络中仍然使用卷积来进行语音增强?
数据挖掘
机器学习
变压器
注意机制
2022-03-11 02:44:10
1个回答
我们在Conformer 论文中找到了一些理由:
卷积在检测细粒度模式方面优于 Transformer:
虽然 Transformer 擅长对远程全局上下文进行建模,但它们提取细粒度局部特征模式的能力较差。另一方面,卷积神经网络 (CNN) 利用局部信息并用作视觉中事实上的计算块。
变压器和卷积一起工作比单独工作更好:
最近的工作表明,将卷积和自我注意相结合比单独使用它们有所改进[14]。他们一起能够学习位置方面的局部特征,并使用基于内容的全局交互。
其它你可能感兴趣的问题