AI会毁灭人类吗?看完你就知道了#人工智能是什么#AI学习力#AI算法

通过前两期视频,我们已经了解了人工智能的基本原理和神经网络算法的发展历史。为了方便没看过或者已经忘了的小伙伴,我们简单回忆一下。现在我们知道人工智能是一个非常大的框,很多东西都可以往里装。而机器学习只是这个框里的一件东西。机器学习就像一个大的武侠流派,主张让机器通过分析现有的数据,通过某些数学方法来学习事情的规律。比如让计算机看一大堆猫的图片,最后能够让计算机识别出猫。而神经网络或者说深度学习则是机器学习这个大的流派下面的一支。除了神经网络,其实机器学习下面还有线性回归、k g零、决策树、支持向量机、朴素贝叶斯等等很多流派。

而神经网络因为掌握了分层这一武林秘籍,在二十一世纪可以说是独领风骚,现在几乎成了人工智能的代名词。多么晴朗。所以这次视频我们就专门拿出一集来跟大家说说神经网络到底是如何解决复杂问题的。相信这一次看完,你对那些人工智能会不会代替人类的看法就会有自己的答案了。我们上集视频已经说过,神经网络的基本思想就是使用数学函数来模拟大脑神经元的机制。单个的神经元被称为感知机,其实就是一个线性函数。比如下面这样的。它可以直接用来分类线性可分的问题。

比如这个图中直线上面的是一类,直线下面的是另一类。而机器学习的作用就是找到这条线,而下面这样的数据你就没有办法画一条直线分开,这样的数据就叫做线性不可分。对于感知机这种一次函数来说就傻眼了。最后为了解决线性不可分问题。大家设计了多层的感知器。多层感知机可以逼近任何数学模型,于是神经网络最终开挂了。好了,回忆结束,我相信看过上两期的小伙伴最后可能还会有些疑问。你说最后深度神经网络解决了很多之前无法解决的问题,他们到底是如何解决的呢?这次我们就拿最神秘的图像识别来跟大家聊一聊。

所谓图像识别,就是让计算机能够识别出图像上的内容。这其实是为了让计算机拥有眼睛。我们知道眼睛对生物来说有多么重要,一个没有眼睛的生物怎么可能真实的理解现实世界呢?但是让计算机认识图片太难了,难道之前大家曾经认为这几乎是不可能的?为什么呢?看过量子计算那一期的小伙伴可能已经明白了,计算机虽然能够在自己的屏幕上模拟出世间万物,但它底层存储这些数据的方式却是零一零一。单纯就图像来说,计算机只不过是把每个像素的颜色分成了r g b的色值。就是一个数,然后把这个数记录了下来。所以这张图你看到的是风情万种,计算机看到的是零一零一零一。这张图你看到的是惊涛骇浪,计算机看到的是零一零一零一。这张图你什么也看不到,计算机看到的是零一零一零一。

因为计算机记录的只是每个像素的值,对于计算机来说就是只见树木不见森林。同样的一张图片,可能只是转了一个角度,每个像素的值就完全变了。计算机怎么知道它和之前的是一个东西?就更别说让他认出图像里的事物了。一张狗的图片,你告诉计算机这是狗,因为狗有长长的嘴,卷卷的尾巴,然后计算机问你。什么是嘴?什么是尾巴?什么是卷卷的?哦,对了,什么是狗?我这里只有一堆数字。所以虽然我们看到狗就认识,但是我们没有办法总结世界上所有狗的特征,就算总结出来也没有办法交给计算机。所以要知道狗到底是什么样子,只计算机自己去学习,这个学习的方法就是卷积神经网络。卷积是一个数学概念,但是计算机图形学里的卷积已经和那个纯数学里的卷积没有几毛钱关系了。

为了不让大家原地爆炸,我们就不讨论它原本的数学意义了,我们只看在计算机图形里面的卷积。谈论卷积之前,我们先来看看我们人类是怎么识别一个东西的。这是一张图,现在告诉我刚才这张图你看到了什么?你可能会告诉我看到了一个美女,好美女的头发是什么颜色?我想大部分小伙伴可能已经回答不出来了,也许有人能回答出来。那我继续问,美女的头盔上写了一句什么话?还有谁能回答上来?还有谁?发现没有?我们人类看东西其实只管轮廓不论细节的。当我们的确需要细节的时候,我们才去自己巡视。但这种只管轮廓特征的方式并不妨碍我们扫一眼就能认出视野里的大部分东西。为了让计算机也能识别各种物体,我们必须让计算机也拥有这种忽略细节,只管特征的能力。是的,卷积就是用来做这个的。

在计算机的图形学里,卷积有一个重要的作用就是提取特征。现在我们看一下在计算机图形里,卷积是如何做到提取特征的这段有点难,你忍一下。这是一张图,就像前面所说的,每一个像素都是一个数值。现在我们找到另外一个九个像素的图,这个九宫格的图就叫做卷积核。现在我们把卷积核直接放在第一张图的左上方。看到了没有?九宫格上的每一个像素盖到了图片的每一个像素的上面。ok现在我们把每个像素上这上下两个数相乘,得到了九个数。然后再把这九个数相加,最后再除以九得到了一个数。

现在我们假设还有一张透明的图放在了这两张图的中间,现在把这个数对准九宫格的中间位置。放到那张透明的图上,然后我们把卷积盒向右移动一个像素,继续刚才的步骤。最后当我们的卷积核在下面这张图上移动完之后,我们在那个透明的图上拿到了一个新的图。这张图比原来的图小了一圈,这就是被卷积核提取了特征的图。看到这里,我相信你一定完全懵掉了。这是什么操作?卷积核又是怎么提取特征的?先别着急,听我慢慢解释。卷积核提取特征其实和卷积核本身的设计是有很大相关性的。如果卷积核与下面盖住的图片的特征比较相似,上下相乘再相加,再平均之后,最后算出来的数就会比较大。

而如果上下图片的特征相差很大,最后算出来的数就会比较小。这样想提取的特征就会被放大了。比如我们如果要提取画面中的横线,我们可以给一个这样的卷积核。如果我们要提取竖线,可以用这样的一个卷集合。你看到了一个卷积核只能提取一种特征。所以我们要把画面里常见的各类特征提取出来,就需要多个卷积核。这样一张图经过卷积处理之后,就变成了多张含有不同特征的图。这就是卷积神经网络的第一层卷积层。

图片经过第一次卷积之后,虽然略去了很多特征之外的细节,但是图片的尺寸依然很大。比如一张幺零八零的图片就有一百多万个像素,让卷积核一个一个的挪,要移动一百多万次才能扫描完。并且去掉细节以后,很多像素都不再传递重要信息了,冗余的像素很多。所以我们现在需要一个方式把图片缩小好,继续做下一次卷积。这个图片缩小的方式叫做池化。石化这个词听起来很吓人,但其实很简单。为了让大家放松一下大脑,举一个形象点的例子吧。假设现在你和其他九十九个人组成了一个十乘十的方阵,正在练习团体操,忽然来了一个通知,因为表演场地临时变动,现在没有办法支持一百个人的表演了。

二十五个人就够了。请问这种情况下,你怎么才能迅速的筛选出二十五个人,形成五乘五的方阵,还能保证原来的表演内容基本不变呢?挑最漂亮的。答案是每四个人的小方阵中选出表演最好的那一个留在队伍中,其他人离开,这个过程就是池化。现在我们把人换成图片中的像素,就是每个四乘四的格子中。找到数值最高的那个像素保留下来,其他三个去掉。于是这张图就缩小成原来的四分之一,然后还保留了之前的主要特征。而另一种池化的方法则是四个像素取平均值。道理基本相同,都是缩小的图片,同时保留基本特征。

然后我们再做第二次卷积、第二次耻化、第三次卷积、第三次耻化。在这个过程中图片被逐渐缩小,卷积提取的特征逐渐从局部变成了整体,而图片的厚度也就是特征越来越多。最后就变成了下图这个样子。在经过几次卷积和池化的操作之后,我们把最后提取出来的特征扔到有感知机组成的全连接神经网络中做最后一次的分类。这些特征在感知机里通过损失函数进行反馈,经过成千上万甚至几百上千万次的不断尝试后,最终找到了每个特征的合适的权重组合。当他们按照某些方式组合时,就最可能是猫。当他们按照另一些方式组合时,就最可能是狗。于是,电脑就完成了识别图片的过程。

这就是整个卷积神经网络的图像识别过程。虽然cnn在图像识别中应用最广,但其实它也可以广泛的应用于其他领域。只要数据可以被标签化向量化并转化为矩阵,卷积核就可以大显身手了。语音识别、语义理解、游戏竞技等领域,cnn都是很好的深度学习模型之一。看到这里,你可能会以为cnn网络通过卷积能够提取出人类可识别的特征,比如鼻子嘴巴嘴巴。其实并不是这样,卷积神经网络在几次卷积之后提取的特征虽然越来越整体,但其实可能并不为我们人类所理解。他可能是这样的这样。这样。

但是这些特征通过损失函数和反向传播进行一定的训练,得到权重之后就可以非常准确的实现识别。这到底是如何完成的?已经超出了我们人类的描述能力了,我们已经无法再用数学方式直观的展示出来。所以深度学习往往被大家称之为黑箱。因为我们已经不知道隐藏层里面机器到底是如何分类和设计权重的了。我们只知道这个模型把数据放进去,经过训练它就能管用。另外一个模型,把数据放进去,经过训练它就不管用。到了这个阶段,我们所能做的就只剩下调参了,把参数调整一下,再试一次,看看能不能搞定。所以深度学习的调参也被称之为炼丹,因为就像古代的道士炼丹一样,把原材料放进去,成不成的就听天命了。

也许就是因为这个神经网络,引起了人们的恐惧。因为没有人喜欢自己看不透的东西,人们不知道神经网络那深深的隐藏层下面到底发生着什么。但是当我们了解了神经网络的计算机制,我们就知道不管神经网络所展现出来的学习能力有多么强大,它本质上还是基于一定数学方法的一堆程序代码,本质上还是根据概率而来的一个统计工具。即使他在围棋大赛中吊打人类选手,他也并不明白自己在做什么。他只是根据一定的特征、权重以及概率来决定某一选项的一个程序而已。甚至它和计算机中那些固定程序的逻辑并没有本质的区别。只不过后者是基于固定的数据库,而他的数据是基于概率。它就像马戏团里表演算术的小狗,小狗并不理解算术是什么,也不会自己去计算,它只是根据驯兽员给的提示做出预先训练好的动作而已。

理解算术意义的是人,真正算出来数的也是人。那么最后一个问题,人工智能文明会代替人类文明吗?为了回答这个问题。我们需要思索,我们创造人工智能是为了什么?是为了让它和人类更像吗?不是,除非你是要做一个女朋友。我们创造人工智能是为了让他协助我们去完成那些我们人类不愿去完成或者无法完成的工作。比如分析整个城市的大数据。来给出实时的反馈和调控。比如建立完全自动驾驶的汽车网络,从而最终实现对整个城市交通的自动调节和掌控。比如学习生产和消费数据,从而更智能的调控整个社会的生产和消费。

所以未来他的能力一定会变得无比强大,远远超过我们单个的人类,甚至超过人类的群体。但我相信他的心智可能永远处于零的状态。因为对于一台机器来说,心智这东西根本无从谈起。人工智能的本质是什么?是一堆代码,是训练好的数据,是数学公式,是一堆权重特征和概率。电脑并不知道自己在做什么,就像现在已经能够识别猫的人工智能。其实本质上还是不知道猫的意义是什么,猫对他来说是一堆特征,权重和概率和狗没有本质上的区别。同样你我在他那里也是一样的。他并不知道爱因斯坦最聪明,梦露最性感,而吴彦祖长得很帅。

他只知道特征、权重和概率。即使有一天某一个机器通过了图灵测试,能够跟你谈笑风生,也不要被这种假象欺骗。他并不知道我爱你是什么,在他那里我爱你和我杀了你,只是不同的词向量所代表的不同概率而已。机器并不了解语言的意义,赋予它意义的是与它交谈的人。而这才是人工智能真正可怕的地方。如果一个人和一只猴子都拿着枪,你害怕哪个?我想你肯定会更害怕那只猴子,因为人理解枪意味着什么,所以他并不会轻易的使用它。敢开枪吗?你以为我不敢开枪吗?你把枪放下,我为什么要放下?你先放下,放下,他放我就放,我不放你,你敢开枪吗?你怎么知道我不敢把枪放下让。因为他敢开枪,别这么说,我不敢开枪。

而猴子他并不明白枪的巨大杀伤力,所以很可能只是因为好玩,他就一不留神崩了。你。而人工智能就是那只猴子,它比猴子要强大数亿倍,心智却完全不如猴子。它可能掌控人类社会的一切,却并不理解自己在做的事情。这可能会导致很荒诞的结果。就是他因为要执行某一个很奇葩的任务,而一不留神给人类带来灭顶之灾。比如为了清除全球的垃圾袋,而清除掉了地球上的垃圾袋使用大户。虽然执行这个任务的时候,他可能并不理解什么是地球,什么是垃圾袋,什么是人类。

对他来说,那只是几行代码。它只是在执行梯度下降后损失函数学习出来的最佳方案。就像自动工厂里的机器,在切断工人的手指时,他并不知道他切掉的是什么,他只是在执行预先设计好的零件加工程序而已。所以,不明就里的科普媒体们,请不要再脑补人工智能代替人类建立更高文明的浪漫情节了。虽然我们还搞不清楚意识到底是什么,但我相信意识绝对不是以这种方式产生的。电脑就算表面上表现出再多看起来智能的行为,它仍旧只是一台按照指令和程序读取数据并进行运行的机器。他有一天也许会拥有毁天灭地的能力,但却不具备理解万物的灵魂。所以悲观的说,人工智能可能最终会毁灭人类,但绝对不可能建立更高等的文明。

到这里,我们的人工智能片该告一段落了。很抱歉最后用一个如此悲观的结论作为本系列的结尾。但其实我相信,人类中总有天选之子,总有杰出之人,他们想的可能比我等刮民要深远得多。所以以上评论可能只是杞人忧天,毕竟在上个世纪,我们曾经放出了另外一个毁天灭地的东西,最终我们也算驯服了它。我们的征途是星辰大海,在扬帆星辰大海之前,我们绝不能因为某些原因困死在这颗星球上。