预测缺失数据。寻找好的数据预测技术

数据挖掘 数据挖掘 统计数据 可能性 数据科学模型 数据分析
2022-03-10 12:24:04

我正在分析国家贸易 GDP 的数据。一些国家在给定的一年内缺少 GDP 值。但是,我有当年整个地区的总计。是否有一种好的数据科学技术来填补以下示例中缺失的 GDP 贸易。

在此处输入图像描述

2个回答

根据您拥有多长时间的历史记录,有几种方法可以插入丢失的数据:

  • 您可以计算每个州在 Y-1 年的 GDP 比率 r_i(其中所有 r_i 总和为 1),在 Y 年有缺失值;那么你知道 Y 年的 GDP 数量应该分布在缺失的 (GDP_total - GDP_known) 中并乘以 r_i
  • 一种更复杂的方法是从时间线 Y-1、Y-2、Y-3... 计算梯度,然后为每个缺失状态预测 Y 年的值;然后您将再次计算缺失的比率 r_i 并相应地分配剩余的 GDP。如果您知道 Y+1、Y+2、Y+3、... 或 Y-1 和 Y+1 的插值,则此回归也可以向后进行。

取决于您使用的工具。但是在 Python 中,我遇到了这个论坛,有人问过类似的问题 https://stackoverflow.com/questions/41532518/fill-in-a-blank-dataframe-column-with-all-0-values-using-python

我希望这有帮助。