R:在 R 中读取大数据文件

数据挖掘 Python r 大数据 CSV
2022-02-18 11:34:15

在 R 中,有一些库可以帮助加快读取巨大数据文件的过程。这些库的示例包括 sqldf 和 ff。

使用这些包读取通常使用 read.csv 读取的小文件会有什么缺点?

如果它们在读取小文件方面没有缺点,这是否意味着像 read.csv 这样的函数在未来可能没有太多用处,因为新兴的以大数据为目标的阅读器?

1个回答

在 R 中,许多重大改进通常是通过创建新库而不是更改基础 R 本身中的实际函数来实现的。数据表、readr 中的 read_csv、小标题等都是很好的例子。

由 Matt Dowle 本人回答的read.csv vs fread

read.csv 默认强制字符串作为因子,read_csv 和 fread 不这样做。因此,如果这是您需要的,那么 read.csv 会很好用。现在回答您的问题,使用快速阅读器读取小文件没有任何缺点,除了您可能获得的小加速。