我经常听到人们谈论神经网络,就像黑盒子一样,您不了解它的作用或含义。实际上,许多人无法理解其含义。如果您了解反向传播的工作原理,那么黑匣子又如何呢?我在人工神经网络的研究工作中遇到了黑匣子问题。无论最终输出的准确性如何,人工神经网络尽管具有优势,但在相关领域仍缺乏模型的可解释性。首先,让我解释一下黑匣子问题。
人工神经网络中的黑匣子问题是什么?
从某种意义上说,神经网络虽然可以近似任何功能,但从其意义上讲,它是一个黑匣子。研究其结构不会对近似函数的结构产生任何见解。
例如,神经网络在癌症预测中的一种常见用途是将人们分为“病患者”和“非病患者”。您具有输入特征C(性别,年龄,身高等)的矩阵和结果R(“乳腺癌”,“肺癌”等)的向量。当使用神经网络对此建模时,您假设在数学函数的正确意义上存在函数f(C)= R。该函数f可以是任意复杂的,并且可能会随着业务的发展而变化,因此您无法手动获得它。
然后,使用神经网络构建函数f的近似值,该函数的错误率对于您的应用程序是可接受的。这行得通,精度可以任意降低-您可以扩展网络,微调其训练参数并获取更多数据,直到精度达到您的目标。
黑匣子问题是:神经网络给出的逼近值不会让您深入了解函数f的形式。权重与要近似的函数之间没有简单的联系。甚至分析哪个输入特性都不相关也是一个未解决的问题。
另外,从传统的统计角度来看,神经网络是不可识别的模型:给定一个数据集和网络拓扑,可以存在两个权重不同且结果相同的神经网络。这使得分析非常困难。
作为“非黑匣子模型”或“可解释模型”的示例,您具有回归方程式和决策树。第一个为您提供函数f的闭式近似值,其中每个元素的重要性都明确,第二个为一些相对风险/几率的图形描述。
黑匣子里面
人工智能算法在人们的生活中越来越具有影响力,但其内部运作通常是不透明的。我们研究了原因,并探讨了该措施。但是,没有关于模型可解释性的标准。
黑匣子之谜如何解决?
一个叫做“ 信息瓶颈 ”的新想法正在帮助解释当今的人工智能算法令人费解的成功-也许还可以解释人脑如何学习。
像大脑一样,深层的神经网络具有神经元层-人造的神经元,是计算机内存中的虚构体。当神经元激发时,它将信号发送到上一层中连接的神经元。在深度学习期间,网络中的连接会根据需要进行增强或减弱,以使系统更好地从输入数据(例如,狗的照片的像素)通过各层向上到达与正确的高信号相关的神经元发送信号。级别的概念,例如“狗”。深度神经网络从成千上万张狗的样本照片中“学习”之后,它可以像人们一样准确地识别新照片中的狗。在学习过程中,从特殊情况到一般概念的神奇飞跃赋予了深度神经网络以强大的力量,正如它是人类推理,创造力和其他统称为“智能”的基础一样。
耶路撒冷来大学的计算机科学家和神经科学家提出了支持新理论的证据,该新理论解释了深度学习的工作原理。科学家认为,深度神经网络是根据称为“信息瓶颈”的过程进行学习的,他和两个合作者于1999年首次以纯理论术语对其进行了描述。这个想法是,网络摆脱了多余细节的嘈杂输入数据,就像通过瓶颈压缩信息一样,仅保留了与一般概念最相关的功能。科学家和他的学生进行了令人震惊的新计算机实验,揭示了这种压缩过程在深度学习期间如何发生,至少在他们研究的情况下如此。
科学家认为,信息瓶颈是学习背后的基本原理,无论您是算法,家蝇,有意识的生物,还是对紧急行为的物理计算,都期待已久的答案“是最重要的部分。的学习实际上是在忘记。”
信息瓶颈
科学家在其他研究人员首次研究深度神经网络时就开始考虑信息瓶颈,尽管至今还没有一个概念被命名。当时是1980年代,科学家正在思考人类在语音识别方面的表现如何-当时对于AI来说是一项重大挑战。科学家意识到问题的症结在于相关性问题:一个口语单词最相关的特征是什么?我们如何从伴随它们的变量中挑出来?通常,当我们面对现实的数据之海时,我们会保留哪些信号?
从某种意义上说,信息理论的创始人从1940年代开始就解放了对信息的研究,方法是抽象地将其视为具有纯数学意义的1和0。香农认为,正如科学家所说,“信息与语义无关”。但是,科学家认为这不是事实。他意识到,利用信息理论,“您可以精确地定义'相关'。”
想象X是一个复杂的数据集,如狗照片的像素,而Y是一个由这些数据表示的简单变量,例如单词“狗”。您可以通过尽可能多地压缩X来捕获X中有关Y的所有“相关”信息,而不会失去预测Y的能力。科学家和他的合著者,在其1999年的论文中将其表述为数学优化问题。这是没有杀手级应用的基本思想。
信息论的演变
尽管深度神经网络背后的概念已经使用了数十年,但由于改进了训练方法和功能更强大的计算机处理器,它们在语音和图像识别等任务中的性能才在2010年代初才开始发挥作用。在阅读了物理学家的令人惊讶的论文之后,科学家在2014年意识到了它们与信息瓶颈原理的潜在联系。
他们二人发现,欣顿发明的一种名为“深层信念网”的深度学习算法在特定情况下的工作原理与重归一化完全相同,重归一化是物理学中用于通过粗粒度细化物理系统细节来缩小物理系统的一种技术,计算其总体状态。物物理学家将深层置信网络应用于磁体的“临界点”模型时,在该模型中系统是分形的,或者在各个尺度上都是自相似的,因此他们发现网络会自动使用类似于归一化的过程来发现模型的状态。这是一个令人震惊的迹象,作为生物物理学家当时说,“在统计物理学的背景下提取相关特征,在深度学习的背景下提取相关特征不仅是相似的词,而且是相同的。”
唯一的问题是,通常来说,现实世界不是分形的。“自然界不是耳朵上的耳朵,耳朵上的耳朵;物理学家说。“因此,我不会说[重归一化过程]是对自然图像进行深度学习如此有效的原因。” 但是当时正在接受胰腺癌化疗的科学家意识到,更广泛的想法可以涵盖深度学习和粗粒度过程。他说:“思考科学以及我的旧观念的作用是我康复和恢复的重要组成部分。”
在2015年,他和他的学生假设深度学习是一个信息瓶颈程序,该程序尽可能地压缩嘈杂的数据,同时保留有关数据表示的信息。科学家用深度神经网络进行的新实验揭示了瓶颈程序实际上是如何发挥作用的。在一种情况下,研究人员使用了小型网络,可以训练这些网络使用1或0标记输入数据(认为“狗”或“没有狗”),并为其282个神经连接提供随机的初始强度。然后,他们使用3,000个样本输入数据集跟踪了网络参与深度学习时发生的情况。
大多数深度学习程序中用于调整神经连接以响应数据的基本算法称为“随机梯度下降”:每次将训练数据输入网络时,一连串的触发活动会向上扫过各个层次人工神经元。当信号到达顶层时,可以将最终的发射模式与图像的正确标签进行比较-1或0,“狗”或“无狗”。触发模式和正确模式之间的任何差异都会在各层之间“反向传播”,这意味着,就像老师对考试进行校正一样,该算法会增强或削弱每个连接,从而使网络层更好地产生正确的输出信号。在培训过程中,培训数据中的常见模式会体现在联系的优势上,
在他们的实验中,科学家跟踪了深度神经网络的每一层保留了多少关于输入数据的信息以及每一层保留了关于输出标签的多少信息。科学家发现,网络层层地收敛到了信息瓶颈的理论界限:原始论文得出的理论极限代表了系统在提取相关信息方面可以做到的绝对最佳。在极限时,网络已尽可能地压缩了输入,而不会牺牲准确预测其标签的能力。
科学家还做出了一个有趣的发现,即深度学习分两个阶段进行:短暂的“拟合”阶段和更长的“压缩”阶段概括而言,由其在标记新测试数据时的性能来衡量。
随着深度神经网络通过随机梯度下降来调整其连接,起初,它为输入数据存储的位数大致保持恒定或略有增加,因为连接会进行调整以对输入中的模式进行编码,并且网络会很好地适应标签它。一些专家将这一阶段与记忆进行了比较。
然后学习切换到压缩阶段。网络开始散布有关输入数据的信息,仅跟踪最强的功能-与输出标签最相关的那些关联。发生这种情况的原因是,在随机梯度下降的每次迭代中,训练数据中或多或少的偶然相关性告诉网络要做不同的事情,在随机行走中上下拨动其神经连接的强度。。这种随机有效地与压缩输入数据的系统表示相同。例如,有些狗的照片可能在背景中有房子,而另一些则没有。当网络循环浏览这些训练照片时,它可能“忘记”某些照片中房屋和狗之间的相关性,而其他照片则抵消了它们。科学家认为,正是这些细节的遗忘使系统能够形成一般概念。确实,他们的实验表明,深度神经网络在压缩阶段提高了其泛化性能,在标记测试数据方面变得更好。
信息瓶颈是否支配着所有的深度学习机制还有待观察,或者除了压缩之外,是否还有其他推广途径还有待观察。一些AI专家认为科学家的想法是最近出现的许多有关深度学习的重要理论见解之一。哈佛大学的AI研究人员和理论神经科学家指出,某些非常大的深度神经网络似乎不需要抽出压缩阶段就能很好地概括。取而代之的是,研究人员采用称为“提前停止”的程序进行编程,这可以缩短培训时间,以防止网络首先对过多的相关性进行编码。
科学家认为,同事分析的网络模型与标准的深度神经网络体系结构有所不同,但尽管如此,信息瓶颈的理论界限比其他方法更好地定义了这些网络的泛化性能。科学家的最新实验部分解决了有关瓶颈是否支持更大的神经网络的问题,在该实验中,他们训练了更大的,330,000个连接深的神经网络来识别手写体中的数字。拥有60,000幅图像的美国国家标准技术研究院数据库,这是衡量深度学习算法性能的著名基准。科学家们看到了网络到信息瓶颈理论界限的相同收敛。他们还观察到了深度学习的两个截然不同的阶段,相较于较小的网络,它们之间的过渡更加尖锐。提什比说:“我现在已经完全确信这是普遍现象。”
人与机器
大脑如何从感官中筛选信号并将其提升到意识意识水平的奥秘,促使AI先驱者开始对深度神经网络产生了很多早期兴趣,他们希望逆向工程大脑的学习规则。从那以后,人工智能从业者已经在疯狂的发展中为技术进步而放弃了这条道路,而不是像敲响钟声那样鼓吹而没有考虑生物学上的合理性。尽管如此,随着他们的思维机器取得更大的成就-甚至引发人们对AI可能在某天构成生存威胁的恐惧 -许多研究人员希望这些探索能够发现关于学习和智力的一般见解。
纽约大学心理学和数据科学的助理教授研究了人与机器学习方式的异同,他表示,提斯比的发现代表“迈向打开神经网络黑匣子的重要一步,”但他强调说大脑代表了更大,更黑的黑匣子。我们的成年大脑在860亿个神经元之间拥有数百万亿个连接,很可能会使用一整套技巧来增强泛化能力,这超出了婴儿期发生的基本图像和声音识别学习过程,并且在许多方面可能类似于深度学习。
莱克说,例如,蒂什比确定的拟合和压缩阶段似乎与孩子学习手写字符的方式没有类似之处,他研究了这一阶段。孩子们无需看成千上万个角色的例子,并在很长一段时间内压缩他们的思维方式,便可以识别该字母的其他实例并自己编写。实际上,他们可以从一个示例中学习。莱克和他的同事们的模型暗示大脑可能将新字母分解为一系列笔画-以前存在的心理构造-允许将字母的概念添加到先验知识的体系中。教授解释说:“与标准机器学习算法一样,教授解释说,“与其将字母的图像视为像素的图案,而没有将其视为映射这些特征的概念,”而是解释道,“相反,我旨在建立一个简单的字母因果模型,”概括的更短路径。
这种机智的想法可能会为AI社区提供经验教训,促进这两个领域之间的来回交流。科学家相信,他的信息瓶颈理论最终将在这两个领域中都被证明是有用的,即使它在人类学习中比在AI中更普遍。可以从该理论中获得的直接见解是,可以更好地了解可以通过实际和人工神经网络解决哪些类型的问题。提什比说:“它完全描述了可以学习的问题。” 这些是“我可以消除输入中的噪声而又不影响分类能力的问题。这是自然视觉问题,语音识别。这些正是我们的大脑可以应付的问题。”
同时,无论是真实的还是人工的神经网络,都碰到了每个细节都很重要的问题,而微小的差异可能会抵消整个结果。例如,大多数人无法快速将两个大数相乘。蒂什比说:“我们遇到了这类问题,这些逻辑问题对一个变量的变化非常敏感。” “可分类性,离散问题,密码问题。我认为深度学习永远不会帮助我破解密码。”
泛化意味着留下一些细节。这对于快速进行代数运算不是很好,但是这不是大脑的主要业务。我们正在寻找人群中熟悉的面孔,嘈杂世界中混乱的秩序,明显的信号。
以上即是关于深度学习和人工神经网络如何解决黑盒子问题的全部内容,想了解更多关于人工智能的信息,请继续关注中培伟业。