投入机器学习中去

博客很久没有更新了，虽然我直到写在这里也不会有多少人看到，但就权且写给未来的自己看吧。为什么写下此文呢？几个月前，我结束了在腾讯的实习，进入了MSRA开始了下一份实习。然而，相比在腾讯的激情澎湃，在MSRA的工作却总是让我提不起兴致。写下此文梳理心中所想。

在当今这个时代，机器学习的出现，给很多之前难以解决的的问题带来了难以想象的进步，比如在最经典的图像分类任务上。如今如今，各个领域都在寻求机器学习的帮助来解放人力，各个领域都有大量的研究力量涌入。而在我们软件工程专业上更是如此，研究生导师中十个有九个是做机器学习相关方向的。

而我个人，虽然自认为实力出众，但也身处这个潮流之中，只得顺势而为。既然已经决定报送研究生，便也加入了机器学习的研究大军之中。

前辈们都称这项工作为“炼丹”，看来大家对这些研究的性质也算是达成了一些共识了。现在机器学习的研究工作基本可以概括为：构建一个人工神经网络，训练它，它有一些不足，为什么？不清楚。那么我们再做出一些改进，效果更好了，为什么？还是不清楚，一些猜测，但这几乎都是先有实验，然后再试图将理论向实验的结果拟合。但即使这样，这些理论还是很难预测未来实验的结果。为什么这会被称作炼丹也就可见一斑了。

“炼丹”这一个说法，也体现了大家对现状的不满。小时候，我听说人类利用理论，在数十年前就准确预测了哈雷彗星的回归，这就是我所信奉的科学的力量。是科学，赋予了全人类未卜先知的能力，我们也得以更加有自信地说，我们对世界尽在掌握。而传统的软件也是这样，不论软件有多么复杂，它都是依照人类实现设定的规则在运行。虽然有可能比较困难，但任何人都可以去了解并控制它的点点滴滴。到了机器学习的时代，软件本身变得简单，但软件做出决策的过程却被编码在了几百M，甚至数G的数字里，面对浩无边际的数字在计算机的存储介质中跳动，目前大多研究人员也只能望洋兴叹。目前虽然也有对机器学习模型进行解释的尝试，但都很表面，难以用于预测神经网络的行为，其中还有这大量的假设/近似。这让我们不禁怀疑，机器学习的研究，究竟是科学，还是”炼丹“。虽然我们一手创造了神经网络，但我们对它却还是不甚了解。作为研究者之一，我也感觉比较迷茫，以前，在软件行业，我习惯了掌握一切，如果我想知道什么，我就去研究，因为我知道我一定能弄清楚。而现在，我又回到了团团迷雾之中，在混沌中探寻秩序，在黑暗中寻找光明。

不过换一个角度想，这其实也实属正常。大千世界，本就是复杂的。宇宙的基础原理我们虽然已经基本了解，但就只说地球上，大到生物圈，小到细胞，基因的运作方式，人们都还不能说是非常了解。我们的世界的发展变迁，有着悠久的历史，在时间中，逐渐积累了他们的复杂性。而人工神经网络脱胎于我们自然界中动物的神经网络，自然也继承了它的复杂。但相应地，也具有了解决复杂问题的能力。经典的程序之所以简单，是因为他们要处理的问题都是经过了人类抽象过后的。如今，人们不满足于此，我们希望软件能直接面对我们的大千世界，接触复杂的现实。因此，人工神经网络现在没有，可能以后也不会有像那样简单的指导理论。人工神经网络就像是研究者们的孩子，我们带它领略世间万物，领略风土人情。同时，也像生物进化那样，不同的神经网络优胜劣汰。与自然界不同的是，在进化过程中研究者们注入了自己对世界的理解，以帮助神经网络更快地发展。

写到这里，我也释怀了一些。虽是“炼丹”，但我们追求的目标并不是虚无缥缈的长生不老，而是非常实际的现实问题。虽然在前进的路上缺乏理论的引导，而不断追求模型效果的提升看上去也意义不大，也不知道是否能够成功。但生物进化的历程又何尝不是如此呢，每一次的基因突变可能都很渺小，也不知是否有利。但聚沙成塔，经过时间的洗礼，依旧造就了如今熠熠生辉的人类文明。人工神经网络究竟有多大潜力，能不能在未来世界中发挥中流砥柱的作用？不知道，但未知的领域总是要有先行者去探索，而不总是沉浸在尽在掌握的已知领域之中。

希望我们的神经网络越来越强大，也希望我能以更加饱满的热情投入到今后的研究工作中去。

评论