我使用 pandas 数据框进行了多次合并(请参阅下面的示例脚本)。它使数据帧爆炸并消耗更多内存,因为它的记录达到了 180 亿,df3并尝试与 5Lack 记录合并df4。
这导致内存问题。它消耗了 RAM 中的全部内存(140 GB 内存)并且会话被终止。
df = df1[df1_columns].\
merge(
df2[df2_columns],
how='left',
left_on='col1',
right_on='col2'
).\
merge(df3[df3_columns], how='left', on='ID').\
merge(df4[df4_columns], how='left', on='ID')
)
感谢是否有任何解决方案来解决导致问题的连接。