熊猫:计算畅销书以包含已售房屋数量

数据挖掘 Python 熊猫 数据分析
2022-02-28 02:32:16

我一直在分析卖家数据并试图获得洞察力。我写了一个 groupby 语句来获取每个卖家的平均售价

for seller,seller_df in g:

df=df.append({'Seller':seller,'AveragePrice':seller_df.Price.mean() }, ignore_index=True)
print(seller)
    df.sort_values(by='AveragePrice',ascending=False,inplace=True)
plt.figure(figsize=(15,30))
sns.barplot(data=df.dropna()[:100],y='Seller',x='AveragePrice')

条形图仅适用于前 100 名卖家,并显示谁的平均售价最高。阴谋

我认为这种方法是不准确的,因为我还应该考虑他出售的房产数量才能获得畅销书。例如:如果 A 卖出 20 套,平均 5 套,B 卖出 200 套,平均 5 套,B 应该是赢家。所以我有两个问题:

  1. 如何将其合并到我的代码中?

  2. 我可以优化代码片段吗?

我是一个新手,任何帮助表示赞赏。请参阅此链接以获取我的 Kaggle 笔记本。它不包含此处发布的代码,因为我在本地进行分析,但您可以查看数据。

数据集

0个回答
没有发现任何回复~