是实数双精度数的密集矩阵,通常大小为 2000 万行和 500 列,是存储为向量的实数非负双精度数的对角矩阵。我正在使用 C 语言并查看了 BLAS 的文档,但找不到一个似乎非常适合此的例程。
这台机器有超过 20 个 CPU 内核,如果可能的话,我想利用它们。和有足够的容量完全在内存中,但我想避免复制数据,除非真的有必要,因为它是共享计算资源。
我计算数百次。在每次迭代是恒定的,但会发生变化。
我很乐意用 OpenMP 用 C 语言为此编写自己的代码,但理想情况下,如果速度最快的话,我会使用现有的优化例程。