我有一个数据集,它跟踪全球 150 个不同城市的 24 家公司收取的 21 种产品的价格。但是,数据集有缺失值——也就是说,我可能有 X 公司在伦敦的产品 A 的价格,但没有纽约。鉴于我已经拥有的数据,我正在寻找有关如何估算这些值的指导。
数据中有待利用的趋势。如:
- 地理趋势:即,按照给定产品的中位价衡量,伦敦和纽约是相似的市场,但像开罗和约翰内斯堡这样的市场往往要贵得多(尽管不同产品的价格不同)
- 产品趋势:在给定的市场内,对于给定的公司,产品按等级定价,尽管这种关系是非线性的。例如,如果产品是“Good”、“Better”和“Best”,“Better”的价格可能是“Good”的 2X,“Best”的价格可能是“Good”的 2.5X,尽管这些关系没有严格持有。
- 公司趋势:在大多数市场中,某些公司的价格往往高于其他公司,但同样,这些关系并非严格保持,并且对于公司具有竞争优势的某些产品或市场子集可能会有所不同。
我在下面描述了我迄今为止尝试过的方法,尽管我觉得它过于简单化了。我正在寻找有关如何更好地捕捉数据复杂性并为缺失值获得合理准确估算的建议。任何建议表示赞赏。
到目前为止,我尝试过的方法是估计每个类别的系数。例如,保持公司和产品不变,市场 B 与市场 A 的平均价格倍数是多少?市场 C 优于市场 A?然后,如果我知道我在市场 B 和 C 中有一个(公司 X,产品“好”)的价格,我会将它们乘以这些平均倍数,以获得“基于市场的最佳猜测”。然后我重复保持不变的公司和市场,以及市场和产品。最后,我留下了三个“最佳猜测”。然后问题是将我的三个最佳猜测转换为一个猜测,因为根据对这种方法的一些测试,真实价格可能位于这三个最佳猜测之间或之外。这是基于训练样本的错误直方图:
