我目前正在斯坦福大学攻读计算生物学博士学位。我得到了回答我感兴趣的问题所需的数据。数据集有时是“大”的,这些大问题需要更长的时间来解决(有时需要几天)。
话虽如此,我想知道在极其庞大的数据集上机器学习是如何工作的?假设谷歌想要解决其中有 100 亿行,找到任何梯度似乎都令人望而却步。如果 google 实际运行这些模拟所需的时间(我相当于几天),那么解决方案在它到来之前可能一文不值。在训练神经网络或实施更复杂的方法时,这个问题会更加突出。这个问题的实际解决方案是什么?
我见过像“我们选择有代表性的样本......”这样的说法。在我看来,这是一个荒谬的说法,因为当 p >> n 时,没有任何东西具有代表性,因为系统是不确定的。在这些情况下,任何关于“代表”的帮助也将有所帮助。