我正在使用 cuFFT 在大小为 2048x2048 或更大的矩阵上执行一些 2D FFT。FFT 之前和之后是各种缩放操作。
这些缩放操作受内存限制,因此它们的执行时间与 FFT 本身一样长。我认为加速它们的最佳方法是将它们与 FFT 内核融合。但是,cuFFT 的回调作为单独的内核执行。为了解决这个问题,我想我需要访问 FFT 源本身。
是否有人使用过开源 GPU FFT 实现,或者有人对开源 GPU FFT 实现有建议吗?我找到了 fbFFT,但它似乎几乎没有文档或比较基准。