在进入计算生物学研究之前,学生必须关注哪些领域?

计算科学 计算生物学
2021-12-12 20:14:58

我不是生物学家。但受到现代生物学的最新进展和问题的高度激励。我已入围 6 月第一周的博士(马德拉斯IMSc计算生物学项目)面试。我的背景是电子和通信工程。但是根据 IMSc,该计划不需要先前的生物学知识。

但面试通知书是这样写的:“面试将考验你在计算生物学各个领域的能力、知识和理解深度。没有具体的课程大纲。”

我有信息论、线性代数、概率和统计学的基础知识,读过分子生物学的基础知识。我也有机器学习的介绍。但缺乏算法和数据结构的理论知识。

距离面试还有不到一个月的时间,您对我的准备工作有何建议?我应该介绍哪些科目?

1个回答

几乎任何生物学都可以计算。现在因为它被称为“计算”,我希望你能做一些编程,因为这就是它的目的。

对于基因的东西,我认为数据库和算法很重要,因为它们处理大数据。这是一个我知之甚少的领域,但似乎其他人所建议的主要在这里有用(即基本排序算法、数据库)。

另一方面,系统生物学通常更关注一些特定的、较小的系统(基因如何抑制、促进和相互作用)。一个典型的模型是本质上是化学反应。因此,在某种程度上,它是将 Michaelis-Menten 平衡动力学扩展到具有噪声的较小群体。有很多方法可以解决这个问题,在数值上最流行的一种可能是 Gillespie 方法。假设你记得你的微分方程,掌握这个以及酶(化学)反应速率常数并不难。

现在很多参与这个项目的人似乎都有物理学背景,因此他们发表了关于膜的出版物,这是生物物理学家最喜欢的模型玩具。很多关于膜的有趣问题都与它们的弹性行为有关。作为教科书的例子,弯曲需要多少能量以及热波动导致它弯曲需要多少能量。这通常是通过使用所谓的 Helfrich Hamiltonian 来完成的。为了能够分析这些,你必须提醒自己平衡热力学:自由能、均分定理和涨落耗散定理浮现在脑海。从数学工具中,您需要傅立叶分析和变分法(即欧拉-拉格朗日)。仍然与膜相关的是相分离和基本上所有的热力学。在这方面,学习和编码 Ising 模型会让您走得更远。流体动力学不仅对膜很重要,而且对一般计算生物学的许多研究也很重要。最后我想指出,DNA 也常常与统计力学、热力学和流体力学有关,最简单的拉伸模型实际上是基于 Ising 模型(和聚合物物理学)。

最后,您可以对小型生物结构进行密集的计算建模。也许大多数关于蛋白质的计算工作都是关于同源建模的,在这里你可能正在使用来自量子物理和化学的工具,所以知道那里的一些术语可能是有用的(比如在 Hartree-Fock 的水平上,DFT 代表什么,什么是 pi 轨道)。通常,这些结果被参数化为经典力场,并使用分子动力学模拟运行。编写一个简单的 MD 程序(比如三个相互吸引的行星)应该又是一项简单的任务。这里的一些关键字,如果你想深入研究,可能是 AMBER、CHARMM、GROMACS(这些是用于生物分子模拟的程序,而学习使用它们是另一回事,

现在我在这里的解释中确实采取了从基因到单个分子的非常特殊的路线,并且有很多事情我没有涉及(鉴于我的背景是物理学,不是生物学或数据科学,这是我的主要支柱任何计算)。特别是,我没有讨论主动过程,这在生物学中当然非常重要:这就是为什么我在上面多次引用(平衡)热力学,它实际上只能用于平衡。然而,如果不首先引入平衡,就很难理解非平衡。然而,我认为考虑到与该计划相关的研究人员的兴趣,我上面提到的一些主题很可能会出现。另请注意,我确实在某些地方深入了技术细节,

最后,我想提一下 Coursera.org,因为他们提供了多种系统生物学等课程,因此您可能会发现这是一个有用的资源。