什么时候是样本比例 p hat 而不是 x bar

机器算法验证 分布 标准差 意思是 样本量 样本
2022-04-11 04:58:49

我刚开始我的第一堂统计学课,我不是主修统计学的,如果这听起来像是一个初学者的问题,我很抱歉,如果我的语言不正确,我也很抱歉。(请随时纠正我。)我一直在学习如何创建 phat 的样本分布以及 xbar 的样本分布。我想知道您是否可以通过查看平均值、标准差和样本量来区分何时需要和何时需要另一个。

我有两个来自班级的示例,一个需要 phat 的样本分布,另一个需要 xbar 的样本分布

第一个使用 xbar 样本分布的例子

Aamco Heating and Cooling, Inc. 宣传说,在 7 月的前 16 天购买空调的任何客户,如果这 16 天的平均高温高于正常水平 5 度以上,将获得 25% 的折扣。7 月份的日高温正态分布,平均为 84 度,标准差为 8 度。

如果我们将 7 月的前 16 天视为随机样本,样本均值的抽样分布的期望值、标准差和形状是多少?(不要回答这个问题,这里只是在上下文中显示问题。)

现在第二个使用 phat 的样本分布

假设一所大学所有商科学生中有 30% 投资于股票市场。我们随机挑选500名学生

显示 phat 的抽样分布,该大学商科学生投资股票市场的样本比例。(再一次,只需给出上下文就不需要这样做了。)

因此,我再次询问是否有办法判断在给定均值、标准差和样本大小并要求给出抽样分布时,我是否需要使用 xbar 或 phat 的方程。(是的,我知道第二个例子是给出 p-hat 的采样分布,但我想知道是否有办法判断它是否没有这么说。)如果这是一个不好的问题,再次感谢和抱歉。

以下是分别用于解决第一个和最后一个问题的 x bar 和 p hat 的含义在此处输入图像描述

2个回答

这两个问题本质上都是中心极限定理的应用,它(非正式地)说“随着样本数量的增加,来自一个共同群体的许多样本的总和值将趋于正态分布”。

这两个问题在他们处理的数据类型上有所不同。“xbar”问题涉及温度,它是一个连续测量值(例如十进制数)。“phat”问题隐含地涉及二元测量(真/假,例如每个学生要么投资,要么不投资)。

通常随机变量的测量值表示为x. 对于随机样本 x1,,xN样本均值表示为x¯=1Nixi. 这直接适用于“xbar”问题。这里每xi是温度测量,问题是关于采样分布x¯. (这出现在x¯在不同的样本上计算多次,每个样本的大小N)。

对于“phat”问题,表示法和逻辑与此一致,但联系要复杂一些。在这种情况下,每个xi将对应于一个学生,他要么投资(x=1) 或不 (x=0)。学生投资的概率通常表示为p(=30%在这种情况下)。这些约定Pr[true]=p{true,false}={1,0}二元随机变量情况的标准。

现在想象我们不知道p,但希望从学生的随机样本中估计x1,,xN. 对于单个学生,期望值xip, 表示E[x]=p(另见此处)。同样,根据期望的性质,对于我们有的样本E[x¯]=p. 所以这里的样本均值x¯提供总体参数的估计值p. 在统计学中,标准做法是使用“帽子”来表示总体参数的估计值,因此在这里我们将样本均值表示为是有意义的p^.

(对于“xbar”问题,可比较的符号是x¯=μ^, 因为x正常的,而不是伯努利。)

下面一个可能是一个方便的提示。该图像清楚地区分了样本均值和样本比例。

资源

来源信息:UF Biostatistics 开放学习教材,模块 9,样本均值的抽样分布(以防将来链接失效)

在此处输入图像描述