我一般对 RF 和决策树有以下假设,如果假设不正确,请纠正我。
- 它处理缺失值
- 它处理异常值
- 它处理数据中的偏度,因此不需要转换。
- 不需要特征缩放
- 不需要特征选择。
如果我的观察结果不正确,请更正,因为您可以看到数据集中存在 nan 值错误。还有怎么整?
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
导入数据集
share3.info()
share2.isnull().sum()
XRD = share2.drop(['Close'], axis = 1)
YRD = share2['Close']
训练和测试集
from sklearn.model_selection import train_test_split
X_trainRD, X_testRD, Y_trainRD, Y_testRD = train_test_split(XRD,YRD,test_size = 0.2, random_state = 0)
将随机森林回归拟合到数据集
from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(n_estimators= 350,random_state = 0)
regressor.fit(X_trainRD, Y_trainRD)
***ValueError: Input contains NaN, infinity or a value too large for dtype('float32')***
```