Linux 服务器运行 R&RStudio 的硬件要求

数据挖掘 r
2022-03-09 20:04:27

我想建立一个家庭服务器/工作站来运行我的 R 项目。根据我收集到的信息,它可能应该是基于 Linux 的。我现在想购买硬件,但我对处理器/内存/主板的许多可用选项感到困惑。我希望能够使用并行处理,至少 64GB?内存和足够的存储空间(~10TB?)。软件方面,Ubuntu?、R、RStudio、PostgreSQL、一些 NOSQL 数据库,可能是 Hadoop。我做了很多资源密集型的文本/地理空间/网络分析。预算约 3000 美元。

我的问题:
理想的配置是什么样的?(硬件+软件)
什么类型的处理器?

备注:
不,我不想使用云解决方案。
我知道这是一个模糊的问题,但是任何想法都会有所帮助,好吗?
如果离题或太模糊,我很乐意删除。

干杯乙

1个回答

对于R或一般来说,没有理想的配置 - 产品选择始终是一项艰巨的任务,并且有许多因素在起作用。我认为解决方案相当简单 - 获得预算允许的最好的计算机。

话虽如此,由于您想专注于R开发,而R's 的紧迫问题之一是它对可用物理内存(RAM) 数量的严重依赖,我建议将更多 RAM 用于其他参数。在我看来,第二个最重要的参数是内核(或处理器- 请参阅下面的详细信息)的数量,因为您可能专注于多处理。最后,我要注意的两个最重要的标准是与 Linux 的兼容性和系统/制造商的质量

存储而言,我建议考虑使用固态驱动器 (SSD),如果您希望速度比更多空间更高一点(但是,如果您的工作涉及密集的磁盘操作,您可能需要调查SSD可靠性问题或咨询了解此事的人)。但是,我认为对于以 R 为中心的工作,磁盘操作不如内存操作那么重要,正如我上面提到的。

在选择特定的Linux 发行版时,我建议使用支持良好的发行版,例如 Debian,甚至更好的是 Ubuntu(如果您更关心支持,请选择他们的 LTS 版本)。我宁愿不购买零件和组装定制盒子,但有些人肯定更喜欢这条路线 - 因为你确实需要很好地了解硬件,但潜在的兼容性仍然可能是一个问题。下一段提供了一些商业现货 (COTS)定制解决方案的示例。

如果您对自定义系统路线感兴趣,这个讨论可能值得一读,因为它包含一些有趣的定价数字(只是为了了解潜在的节省)并且还揭示了多处理器与多核替代方案(显然,上下文不同,但仍然可能有用)。正如我所说,我会走 COTS 路线,主要是因为可靠性和兼容性问题。在单处理器多核系统方面,你的预算绰绰有余。然而,当我们使用多处理器工作站(我什至不是在谈论服务器)时,即使是双处理器配置也很容易超出您的预算。一些,不远处,比如HP Z820工作站. 它的起价为 2439 美元,但配置最低。当您升级它以匹配您想要的规格时(如果可能的话),我相信我们会谈论 5K 美元的价格范围(从该系列的更高级别型号推断)。不过,我喜欢 HP Z820 的地方在于该系统是经过 Ubuntu 认证的。考虑到系统兼容性并假设您希望运行 Ubuntu,解决问题的最佳方法是通过Ubuntu 认证的硬件列表和您喜欢的候选系统。只是为了完整起见,看看这个有趣的多处理器系统,在兼容的配置中,它的成本可能低于惠普或其他主要供应商的价格。然而,它是面向多媒体的,它的可靠性和兼容性是未知的,更不用说它超出了你的指定预算。

在软件方面RR我强烈建议您使用RStudio Server而不是RStudio,因为这将为您提供能够从任何支持 Internet 的位置工作的机会(前提是您的计算机将运行,显然)。我的另一个建议是密切关注替代R分布我不是在谈论昂贵的商业项目,而是关于新兴的开源项目,例如pqRhttp ://www.pqr-project.org 。将根据需要更新。我希望这是有帮助的。