投入机器学习中去

创建时间:2020/1/5 下午11:03:42
编辑时间:2020/1/5 下午11:18:54
作者: huww98@163.com (huww98@163.com)
分类:

博客很久没有更新了,虽然我直到写在这里也不会有多少人看到,但就权且写给未来的自己看吧。为什么写下此文呢?几个月前,我结束了在腾讯的实习,进入了MSRA开始了下一份实习。然而,相比在腾讯的激情澎湃,在MSRA的工作却总是让我提不起兴致。写下此文梳理心中所想。

在当今这个时代,机器学习的出现,给很多之前难以解决的的问题带来了难以想象的进步,比如在最经典的图像分类任务上。如今如今,各个领域都在寻求机器学习的帮助来解放人力,各个领域都有大量的研究力量涌入。而在我们软件工程专业上更是如此,研究生导师中十个有九个是做机器学习相关方向的。

而我个人,虽然自认为实力出众,但也身处这个潮流之中,只得顺势而为。既然已经决定报送研究生,便也加入了机器学习的研究大军之中。

前辈们都称这项工作为“炼丹”,看来大家对这些研究的性质也算是达成了一些共识了。现在机器学习的研究工作基本可以概括为:构建一个人工神经网络,训练它,它有一些不足,为什么?不清楚。那么我们再做出一些改进,效果更好了,为什么?还是不清楚,一些猜测,但这几乎都是先有实验,然后再试图将理论向实验的结果拟合。但即使这样,这些理论还是很难预测未来实验的结果。为什么这会被称作炼丹也就可见一斑了。

“炼丹”这一个说法,也体现了大家对现状的不满。小时候,我听说人类利用理论,在数十年前就准确预测了哈雷彗星的回归,这就是我所信奉的科学的力量。是科学,赋予了全人类未卜先知的能力,我们也得以更加有自信地说,我们对世界尽在掌握。而传统的软件也是这样,不论软件有多么复杂,它都是依照人类实现设定的规则在运行。虽然有可能比较困难,但任何人都可以去了解并控制它的点点滴滴。到了机器学习的时代,软件本身变得简单,但软件做出决策的过程却被编码在了几百M,甚至数G的数字里,面对浩无边际的数字在计算机的存储介质中跳动,目前大多研究人员也只能望洋兴叹。目前虽然也有对机器学习模型进行解释的尝试,但都很表面,难以用于预测神经网络的行为,其中还有这大量的假设/近似。这让我们不禁怀疑,机器学习的研究,究竟是科学,还是”炼丹“。虽然我们一手创造了神经网络,但我们对它却还是不甚了解。作为研究者之一,我也感觉比较迷茫,以前,在软件行业,我习惯了掌握一切,如果我想知道什么,我就去研究,因为我知道我一定能弄清楚。而现在,我又回到了团团迷雾之中,在混沌中探寻秩序,在黑暗中寻找光明。

不过换一个角度想,这其实也实属正常。大千世界,本就是复杂的。宇宙的基础原理我们虽然已经基本了解,但就只说地球上,大到生物圈,小到细胞,基因的运作方式,人们都还不能说是非常了解。我们的世界的发展变迁,有着悠久的历史,在时间中,逐渐积累了他们的复杂性。而人工神经网络脱胎于我们自然界中动物的神经网络,自然也继承了它的复杂。但相应地,也具有了解决复杂问题的能力。经典的程序之所以简单,是因为他们要处理的问题都是经过了人类抽象过后的。如今,人们不满足于此,我们希望软件能直接面对我们的大千世界,接触复杂的现实。因此,人工神经网络现在没有,可能以后也不会有像那样简单的指导理论。人工神经网络就像是研究者们的孩子,我们带它领略世间万物,领略风土人情。同时,也像生物进化那样,不同的神经网络优胜劣汰。与自然界不同的是,在进化过程中研究者们注入了自己对世界的理解,以帮助神经网络更快地发展。

写到这里,我也释怀了一些。虽是“炼丹”,但我们追求的目标并不是虚无缥缈的长生不老,而是非常实际的现实问题。虽然在前进的路上缺乏理论的引导,而不断追求模型效果的提升看上去也意义不大,也不知道是否能够成功。但生物进化的历程又何尝不是如此呢,每一次的基因突变可能都很渺小,也不知是否有利。但聚沙成塔,经过时间的洗礼,依旧造就了如今熠熠生辉的人类文明。人工神经网络究竟有多大潜力,能不能在未来世界中发挥中流砥柱的作用?不知道,但未知的领域总是要有先行者去探索,而不总是沉浸在尽在掌握的已知领域之中。

希望我们的神经网络越来越强大,也希望我能以更加饱满的热情投入到今后的研究工作中去。


返回文章列表

评论

登录 / 注册 后发布评论