了解特征标签空间之间的联合概率分布

数据挖掘 机器学习 统计数据 监督学习 学习
2022-03-13 14:34:51

我正在学习CORNELL CS4780“智能系统的机器学习”课程。你可以在这里找到我要参考的第 1 课的链接

教授解释说,我们有样品

D=(X1,y1),(X2,y2),,(Xn,yn)P 其中,(Xi,yi) 是特征标签对。在特征标签空间上存在联合分布,表示为P.

我们永远无法访问P, 只有天知道P. 我们在这个监督学习任务中要做的是从这个分布中获取数据并学习一个映射/函数形式Xy.

到目前为止,我同意/理解。

然后,教授继续在讲座中发表声明,时间正好是 34 分 26 秒,

“如果我们可以访问这个发行版,一切都会很容易”。但他没有解释这个说法。

现在我的问题是,如果我们知道分布情况会很容易吗?他的意思是,如果我们可以访问分布,那么我们将知道每个分布的概率(Xi,Yi)一对。然后我们可以学习一个映射/参数,这样我们就可以减少样本错误?

1个回答

兴趣是预测y.

如果我们知道真实分布P(x,y),无需再构建机器学习模型。给定x,我们可以直接咨询P知道概率P(y|x). 对于离散的情况Y, 我们有P(y|x)=P(x,y)zP(x,z).