尽管所谓“深度神经网络”已经帮助机器学会如何利用自然语言进行交谈、驾驶汽车、游玩电子游戏并夺取围棋赛冠军,甚至绘制梦境、画画并推动科学发现,但其同时亦给创造者们带来新的挑战——因为研究人员从未想到深度学习技术能够拥有如此出色的运作效果。除了从人类大脑架构中得出的模糊灵感之外,时至今日,我们仍不清楚到底是怎样的基本原则指导着这些学习系统的实际设计(也没人能够真正理解其运作原理)。
与大脑一样,深度神经网络拥有大量神经元——人工神经元正是计算机记忆的象征。当某一神经元被激活时,其会将信号发送至上层与之连接的另一神经元。而在深度学习过程中,网络中的连接会根据需要进行加强与减弱,从而使得系统能够更好地发送来自输入数据(例如一张小狗图片中的各像素)的信号,并经由各层最终通过神经元将内容关联至正确的高级概念处——例如“狗”。在深度神经网络对成千上万张小狗图片样本进行“学习”之后,其即可像人类一样准确从新图片中发现狗这一对象。在学习过程中,这种由特殊情况到一般性概念的奇迹般认知提升正是深度神经网络的力量所在,这意味着其真正在与人类一样凭借着推理、创造力以及其它被统称为“智力”的能力得以解决实际问题。专家们现在很想知道深度学习到底是什么,而大脑又是否在以同样的方式理解现实事物。
上个月,在柏林举办的一场YouTube视频会议也许能够为人工智能研究人员带来潜在的答案。讲座当中,耶路撒冷希伯来大学计算机科学家兼神经科学家Naftali Tishby提出了证据以支持一面新的理论,希望能够借此对深度学习的工作原理作出解释。Tishby认为,深度神经网络是根据一种所谓“信息瓶颈”的流程来进行学习的,而他早在1999年就曾与两位合作者利用纯理论术语首次描述了这一概念。其想法在于,神经网络会从输入数据中排除无关细节与干扰信息,类似于挤压信息以通过瓶颈,最终仅保留与一般性概念相关性最强的特征。Tishby和他的学生Ravid Shwart-Ziv设计出新的计算机实验,希望至少立足其实验环境展示这一挤压过程究竟是如何在深度学习过程当中实现的。
耶路撒冷希伯来大学计算机科学家兼神经科学家Naftali Tishby
Tishby的发现很快在人工智能领域引起轰动。谷歌公司的Alex ALemi表示:“我认为信息瓶颈这一概念在未来的深度神经网络研究中可能将扮演非常重要的角色。”他开发出多种新的近似方法,旨在对大型深层神经网络进行信息瓶颈分析。Alemi解释称:“这一瓶颈不仅能够作为理解神经网络实际工作原理的理论性工具,同时也可作为构建新型网络与架构的辅助方案。”
一部分研究人员仍然怀疑该理论究竟是否能够解释深度学习所获得的成功,不过曾利用机器学习技术分析大型绳子对撞机内粒子碰撞状态的纽约大学粒子物理学家Kyle Cranmer认为,单纯从学习的一般性原则角度来看,这一理论“听起来挺有道理”。
同时在谷歌公司与多伦多大学任职的深度学习技术先驱Geoffrey Hinton在观看了此次柏林演讲之后向Tishby发出一封电子邮件。他写道“这非常有趣,我必须重听一遍才能真正理解其中的内容。现在我们终于听到了真正具有原创性的思维,这很可能代表着一个重大难题迎来了正确答案——可喜可贺!”
根据Tishby的观点,信息瓶颈为机器学习背后的一项基本原则——无论是对于算法、昆虫抑或是任何其它有意识的存在,甚至包括对紧急行为的物理计算,我们长久以来所期盼的答案应该是“学习当中最重要的部分其实在于遗忘”。
Tishby最初投身于信息瓶颈研究工作时,其他研究人员才刚刚开始钻研深层神经网络——不过当时这两项技术概念还没有被正式定名。那时候是上世纪八十年代,Tishby正在考虑人类在语音识别方面的实际表现——这对当时的人工智能还是一项巨大的挑战。Tishby意识到,这个问题的核心在于相关性——语音词汇中相关性最高的特征究竟是什么?我们如何从与之相关的变量当中剔除某些特征,例如噪音、杂音以及语调?一般来讲,在面对现实世界中的数据海洋时,我们应选择保留哪些信号?
Tishby在上个月接受采访时表示,“这种与信息相关的概念曾在历史上被多次提及,但从来没能得到正确的表述。多年以来,人们一直认为信息理论并不是解读相关性的正确途径,而只是Shannon本人长久以来一厢情愿的想法。”
信息理念的缔造者Claude Shannon在某种意义上解放了信息研究工作的力量。从上世纪四十年代开始,信息理论开始将信息视为纯抽象产物——类似于数学意义上的0和1。Shannon认为,“信息与语义无关”。不过Tishby对此抱不同看法。利用信息理论,他意识到“我们可以精确地对‘相关性’作出定义。”
我们首先想象X是一套复杂的数据集,例如小狗图片中的全部像素,而Y则是一个能够代表这些数据的简单变量,例如单词“狗”。我们可以尽可能地压缩X,同时保证不失去预测Y的能力,这样即可在X中捕捉到全部“相关性”信息。在1999年发表的论文当中,Tishby与联合作者Fernando Pereira(现效力于谷歌公司)以及William Bialek(现任职于普林斯顿大学)将其描述为一个数学优化问题。很明显,这只是一种理论性思想,无法支持有力的现实应用。
Tishby指出,“我已经在各种背景之下对这个问题思考了三十年。幸运的是,如今深层神经网络开始变得如此重要。”
虽然深度神经网络的基本概念早在数十年前就已经诞生,但随着训练方案的逐步改进与计算机处理器的日益强大,其在语音与图像识别领域的表现直到2010年才崭露头角。Tishby在阅读了物理学家David Schwab与Pankaj Mehta于2014年发表的一篇令人惊讶的论文之后,最终意识到其与信息瓶颈原理之间存在着潜在联系。
两位作者发现,Hinton所发明的所谓“深度信念网络”这一深度学习算法能够在特定情况下(特别是重整化)被应用于物理系统,即通过对细节进行粗粒度转化来放大物理系统,从而计算其整体状态。当Schwab与Mehta将深层信念网络应用到磁体模型的“临界点”场景中时,系统在各个衡量尺度之上皆存在分形性或自相似特征,而该网络会自动利用类似于重整化的过程来识别模型状态。正如生物物理学家Ilya Nemenman当时所言,这是一种惊人的迹象,“在统计物理这一背景之下提取相关特征,与在深度学习背景下提取相关特征已经成为同一类操作。”
不过唯一的问题在于,一般来讲现实世界中的分形性较为罕见。Cranmer表示,“自然世界大多不会体现出类似重重叠叠的状态,而更多体现为场景、人、脸、眼睛这样的差异化排布。因此我无法断言重整化程序就是深度学习技术在自然图像识别方面表现良好的原因。”不过当时正在接受胰腺癌化疗治疗的Tishby认识到,深度学习与粗粒度转化程序应可被纳入更为广泛的思路当中。他指出,“思考科学以及思考我旧有思维的作用,是帮助我实现康复的重要支柱。”
2015年,他和他的学生Noga Zaslavsky将深度学习假设为一种信息瓶颈流程,其会尽可能地压缩干扰数据,同时保留关于数据的代表性信息。Tishby与Schwartz-Ziv利用深度神经网络建立的新实验,提示了瓶颈程序如何实际发挥作用。在其中一个案例中,研究人员利用可训练的小型网络通过1或0(代表有狗或无狗)标记输入数据,并给出282个神经连接随机初始优势。在此之后,他们开始持续追踪深度学习网络如何利用一套包含3000份样本的输入数据集进行训练。
Noga Zaslavsky(左)、Schwartz-Ziv(右)
在大多数深度学习程序当中,用于调整神经连接以响应数据内容的基本算法被称为“随机梯度下降”:每当训练数据被馈送至网络当中时,即有一连串激活活动向上经过各人工神经元层。当信号到达顶层时,最终的激活模式将能够与图像的正确标签进行比较——即1或0,有狗或无狗。这种激活模式与正确模式之间的任何差异都都会以“反向传播”形式被发往下层,这意味着类似于老师批改试卷一样,该算法能够增强或减弱每条连接,使得网络层能够更好地产生正确的输出信号。在训练雨刮器 ,训练数据中的常见模式将反映在连接的强度之上,且网络本身也将通过训练提升数据标记的正确率——包括识别小狗对象、单词或者1。
在实验当中,Tishby与Shwartz-Ziv追踪了深度神经网络中每一层的输入数据信息量,以及各输入数据中有多少信息得到保留。科学家们发现,神经网络会逐层向信息瓶颈理论界限收敛:Tishby、Pereira与Bialek的原始论文中设定了一个理论上限,其代表着系统能够在进行相关性信息提取时获得的最佳结果。在这一临界点上,神经网络能够尽可能压缩输入数据,同时不会影响到其作出准确预测的能力。
阶段:一个简短的“拟合”阶段,在此阶段中,神经网络学习对其训练数据进行标记; 接下来为更长的压缩阶段,在此阶段中其获得更强大的泛化能力,且这种能力实际体现在对新测试数据的标记效果上。
当深度神经网络通过随机梯度下降来调整其连接时,首先其存储的关于输入数据的比特数字会保持大致恒定或略微增加,与此同时连接调整以对输入中的模型进行编码,神经网络本身也将更好地与正确标签相契合。部分专家将这一阶段比喻为人类的记忆过程。
接下来学习过程切换至压缩阶段。神经网络开始丢弃与输入数据有关的信息,而追踪其中最强大的特征——包括与输出标签相关性最高的特征。之所以会发生这种情况,是因为随机梯度下降的每一次迭代当中,训练数据中都或多或少存在意外的相关性告知神经网络做出不同的判断,这将随机引发上下层调用以调整神经连接的强度。这种随机化与压缩系统输入数据的表现效果完全一致。举例来说,某些小狗照片中可能存在背景房屋,而某些则并不包含。当一套神经网络循环播放这些训练照片时,可能会“遗忘”某些照片中房屋与狗之间的相关性,这是因为其它照片中的不相关性会抵消这种关联。Tishby与Shwartz-Ziv认为,正是这种对细节信息的遗忘操作使系统形成一般性概念。事实上,他们的实验结果表明,深层神经网络在压缩阶段提高了泛化能力,从而改善其在测试数据标记方面的成效(一套经过训练的小狗图像识别深层神经网络将能够利用新照片进行测试,并准确判断其中是否包含狗这一对象)。
信息瓶颈究竟是否适用于所有深度学习机制,以及除压缩之外还存在着哪些其它泛化途径,目前仍有待观察。一部分人工智能专家认为,Tishby的理论是近期出现的与深度学习相关的众多极为重要的指导性原则之一。哈佛大学AI研究员兼理论神经科学家Andrew Saxe指出,某些规模非常庞大的深度神经网络似乎并不需要经历这样的压缩阶段。相反,研究人员立足所谓“早期停止”方法进行编程,这样能够有效减少训练时间并防止网络编码中存在过多相关性。
Tishby认为,Saxe和他的同事所分析的网络模型不同于标准深度神经网络架构,而且无论如何,信息瓶颈提出的理论界限决定了此类网络的泛化效能要比其它方法更好。Tishby与Shwartz-Ziv的最新实验在一定程度上解释了瓶颈是否适用于较大规模神经网线的问题。尽管相关结果未被纳入原始论文当中,但他们在这些实验虽训练了规模更为可观的包含33万个连接的深度神经网络,用以识别来自国家标准与技术研究院的6万幅手写数字图像——这套数据集正是衡量深度学习算法性能的著名基准素材。科学家们发现,神经网络的实际表现与信息瓶颈的理论界限存在趋同性; 他们还发现与小型网络相比,这套大规模深度学习网络的两个阶段更加清晰。Tishby指出,“我现在完全相信信息瓶颈属于一种普遍现象。”
人类与机器
大脑是如何从我们的感官当中筛选信号的?又如何将其纳入我们自觉的意识水平当中?这一神秘课题推动了人工智能先驱们研究深层神经网络的早期兴趣,即以逆向方式设计出大脑的学习规则。人工智能从业者在很大程度上已经放弃了这条钻研之路,转而开始利用其它途径小幅提升效能表现。尽管如此,随着智能机器所取得的成就日益升级——甚至让某些人开始担忧人工智能终有一天将构成严重威胁,许多研究人员希望此类探索能够揭示出关于机器学习与智能实现的一般性结论。
纽约大学心理学与数据利润总额助理教授Brenden Lake在研究人类与机器学习间的异同时表示,Tishby的发现代表着“打开神经网络黑匣的重要一步”,但他同时强调大脑代表着一个更大、更黑的黑匣子。我们成年人的大脑拥有860亿个神经元,其彼此间的连接更是多达数百万亿条,这一切可能都需要凭借某些技巧来增强泛化能力,从而实现超越婴儿期的基本图像与声音识别学习过程。在这方面,其很可能与目前的深度学习技术相当类似。
举例来说,Lake认为Tishby所发现的拟合与压缩阶段似乎与儿童的手写字母学习过程并不相似。孩子们并不需要观察成千上万个字母并利用很长时间对其表征进行压缩; 相反,他们能够快速识别出同一字母的其它实例并学习如何书写。实际上,人类甚至能够利用单一例子进行学习。Lake和他同事们的模型表明,大脑能够将新字母解构成一系列笔画——即以往 已经存在的心理结构,从而立足原有认知建立字母概念。Lake解释称:“我不会把信件上的图像想象成一个个像素,并像标准机器学习算法那样对这些特征加以映射。我的目标在于建立一套更为简单的因果模型,”即实现一条更短的泛化路径。
这样的智能实现方式可能会给AI行业带来指导,并促使两个领域实现相互往来。Tishby认为,尽管人类学习比人工智能学习更为普遍,但他的信息瓶颈理论最终将在两大学科当中发挥作用。从理论层面可以得出的直接见解,能够帮助人们更好地理解哪些问题类型能够为神经网络业解决,而哪些需要人工介入。Tishby表示:“其对于可学习的问题作出了完整的描述。这些都属于‘我可以消除输入数据中的干扰信息而不损害分类能力’的问题。这一点体现在自然视觉与语音识别当中,也同样属于我们的大脑能够解决的实际任务。”
与此同时,真实与人工神经网络也都面临着同样的挑战,即每个问题的细节与微波差别都可能影响最终綶。举例来说,大多数人无法快速完成两个大数字的相加计算。Tishby指出,“这类问题长期困扰着我们,事实上逻辑问题很容易受到某一变量的影响。分类、离散乃至密码问题皆是如此。我认为深度学习无法帮助我破解密码。”
泛化——即对信息瓶颈进行遍历,意味着丢弃部分细节信息。这对于实时代数运算不太友好,但此类运算显然不是大脑的主要任务。大脑的工作在于帮助我们从人群中寻找熟悉的面孔、认识混乱中的秩序,并发现嘈杂世界中的其它显著信号。
来源:QuantamaGazine
作者:Natalie Wolchover
编译整理:科技行者
好文章,需要你的鼓励
2022年,周媛选择在这个特殊的时间节点创立万码优才,试图用AI重构传统招聘行业,为数字人才打造一条从“求职”到“职业成长”的新航道。