Pandas 在从 URL 加载数据集时抛出“错误标记数据。C 错误”

数据挖掘 机器学习 Python 熊猫 CSV 卡格尔
2022-02-01 13:01:04

我正在努力参加泰坦尼克号比赛,以获得数据科学和机器学习方面的经验。我尝试从 GitHub 加载数据集,但 pandas 抛出以下错误:

ParserError: Error tokenizing data. C error: Expected 1 fields in line 32, saw 2

我试图听从其他 SO 用户的建议,所以我在调用中添加了skiprows=1参数pd.csv()以跳过第一行,但它没有用。

import pandas as pd

train_dataset = pd.read_csv("https://github.com/oo92/titanic-files/blob/master/train.csv", skiprows=1)
test_dataset = pd.read_csv("https://github.com/oo92/titanic-files/blob/master/test.csv", skiprows=1)
ground_truths = pd.read_csv("https://github.com/oo92/titanic-files/blob/master/gender_submission.csv", skiprows=1)

train_dataset.head()
1个回答

您访问的路径是一个 Github 存储库页面,它是一个网页,它不返回 CSV。您必须单击 Github 中的“原始”选项,然后传递 URL,在您的情况下为:

test = pd.read_csv('https://raw.githubusercontent.com/oo92/Titanic-Kaggle/master/test.csv')