Pandas 中的数据清理,其中 csv 文件在 1 个字段中包含每一行的所有数据

数据挖掘 数据清理 数据争吵
2022-03-08 02:24:08

我有看起来像这样的非常混乱的数据:

在此处输入图像描述

如您所见,每行中的所有数据都包含在 1 列中,以分号分隔。

如何排列这些数据,以便它们分布在更多列上?例如category_idcategory_id_lvl_0等,位于单独的列中,下面的行对应于该列,即由分号分隔的行位于category_id, category_id_lvl_0...的列下

1个回答

在我看来,这根本不像是杂乱的数据,它只是一个带有;分隔符的 csv 文件。根据区域设置,excel 可以在将数据保存为.csv文件时使用不同的分隔符,;作为其中之一。默认情况下pandas假定 a,作为分隔符,在这种情况下不适用。sep尝试通过使用参数指定正确的分隔符来读取它,如下所示:

import pandas as pd

df = pd.read_csv(filename, delimiter=";")