面向数学家的数据科学/机器学习书籍

数据挖掘 参考请求 图书
2021-09-29 00:34:33

我在这里找到了其他参考请求。特别是: 从哪里开始,哪些书籍书籍关于数据科学中的“科学”?

我看了一眼:

  • 人工智能:一种现代方法 (Russel & Norvig)
  • 机器学习:理解数据的算法的艺术和科学(Flach)
  • 从数据中学习(Abu-Mostafa 等人)
  • 统计学习简介(James 等人)
  • 统计学习的要素(Hastie 等人)
  • 模式识别和机器学习(毕晓普)

现在很难评估它们是否符合我的需求,因为通常只有几页可以在线获得。然而,我的第一印象是他们没有。在《人工智能:一种现代方法》的附录中,我可以阅读:

数学家将向量定义为向量空间的成员,但我们将使用更具体的定义:向量是值的有序序列。

这正是我想要的那种方法。

我正在寻找一本书,它假设读者对集合论、抽象代数、测度和概率论、统计学、拓扑、图论、复杂性理论等有很好的理解,并且偏爱形式和公理化的解释而不是冗长和基于基本数学对象和示例的所谓“直观”方法。此外,我不想要从一开始就看起来像食谱书的东西。我想要一本书,首先形式化所有数据科学方法的抽象和共同形式,以及它们的共同目标。只有在那之后,它才能开始解释不同的类别,明确说明每个类别假设了哪些进一步的假设,以及它们已知可以有效处理哪些案例/问题/领域。

最后,要明确一点,例如,通过特定的编程语言向我展示具体示例及其处理方法是没有问题的。我只是想让它排在第二位,作为概念解释的说明,而不是作为替代品。

4个回答

首先,数据只有多种形式,因此坚持更“具体的定义”可能是有意义的。数据科学必然是实用的。但这里还有一些其他具有更多理论基础的书籍。其他人肯定会知道更多...

然而,机器学习的研究主要出现在期刊和论文中。很难找到一本或几本涵盖你想知道的一切的书。

Hastie 等人的数学水平达到了您所要求的水平——由具有强大数学血统的统计学学者撰写(例如,Hastie 目前是一名数学教授)——全文可通过作者的网站免费在线获得。对于具有数学和统计背景的研究生来说,这可能是关于机器学习的最佳综合调查。也就是说,这仍然是一项调查,个别主题需要在其他地方跟进,尽管提供了有用的推荐阅读。

Bishop 还假设了合理程度的数学成熟度,尽管目录可能会使内容看起来比实际更简单,例如,将包括高斯在内的概率分布的回顾列为第 2 章。

Russel & Norvig 不是关于机器学习或数据科学,而是更广泛的人工智能领域,其中将机器学习作为一个小子集,而实际上根本不是数据科学。例如,它讨论了许多不同类型的预编程人工智能方法系统——与机器学习完全相反。如果您想了解更广泛的自动化世界,但对您了解 ML 帮助不大,这很有趣。

我向您推荐我在 CrossValidated 上针对类似请求提出的上一个问题,并且仍然坚持我对这个问题的回答。

根据@Coffee 的建议,我会推荐Sergios Theodoridis的文本机器学习:贝叶斯和优化视角以及同一作者的模式识别

这两篇文章总共有2000 页,涵盖了从本科生概率到线性模型的所有内容,以及(据我所知)统计学习要素涵盖的所有内容,除了时间序列、概率图形模型、深度学习、和蒙特卡罗方法。

作者努力使所有符号清晰一致(感谢您将所有向量加粗!)并且似乎使用了精心挑选的练习。

在阅读这些文本之前,拥有概率以及卡塞拉和伯杰级别的统计数据将非常有帮助。这里有一些关于 UMVUE 的讨论。

我会推荐

Gilbert Strang 的线性代数和数据学习

对于具有本科数学背景的人来说,这是一个很好的介绍。

它的范围不是特别广,并且包含一些可能不必要的线性代数摘要(尽管如此有见地)和概率(非常基础),但数据部分是很好的介绍。

您可以在https://math.mit.edu/~gs/learningfromdata/看到一些示例章节