关于智律网ailawai.com

智律网团队是一群心怀法治梦想的人。借助互联网,我们试着让法律服务变得简单方便、公开透明。 越来越多的客户通过智律网解决了他们的法律问题,相信你也可以一样。欢迎各领域的朋友与智律网展开丰富多样的合作,互相合作,共同发展!

关注智律网

微信扫一扫关注智律网
随时随地与我们联系哦

人工智能研究为何需要哲学参与?

人工智能哲学作为一个行当,在国内基本上是还没有确立起来。总体来说国外的情况比我们好一点,马马虎虎算一个哲学分支。举个例子,玛格丽特·博登是研究人工智能哲学的一个比较大牌的人物,一个女哲学家,英国人。她为什么研究比较好?因为她和MIT、卡耐基梅隆这些研究人工智能的重镇有非常密切的联系,和那里的人工智能界的大佬都是私下的朋友。而且玛格丽特除了是哲学专家以外,在计算机、生物学、心理学方面都有相应的学位。我们国家在文科和理科的交汇方面的确做得不是很好。

 

一、哲学能够为人工智能做些什么?

哲学要做的第一件事是思考大问题,澄清基本概念。

与哲学家相比较,一般的自然科学家往往只是在自己的研究中预设了相关问题的答案,却很少系统地反思这些答案的合法性。

第二,哲学在不同学科的研究成果之间寻找汇通点,而不受某一具体学科视野之局限。

举一个例子,用军事上的比方,哲学更像是战略性思考。如果你是在一个炮兵学院里面,不同的研究炮兵战术的军官会讨论炮兵战术所牵扯到的具体的几何学问题。但是站在战略层面,它可能对于这些非常细微的问题会忽略,更多的会考虑炮兵在军事编制中所扮演的功能角色,站在更高的层面去看。这可能帮助大家理解哲学应该是干什么的。

第三,重视论证和辩护,相对轻视证据的约束。

人工智能需要哲学吗?

我个人认为如果说化学家、物理学家和生物学家对哲学的排斥还有一点道理的话,人工智能对哲学的排斥是最没道理。就对于哲学文化的宽容程度而言,AI科学绝对算是个科学界内部的异数。从某种意义上说,该学科本身的诞生,就恰恰是“头脑风暴”般的哲学思辨的产物。

人工智能异数异到什么地步?以至于现在教育部的学科目录里面没有人工智能,这是很有讽刺意味的事。也许以后会形成一级学科,但是现在还没有形成。

我们先看下阿兰·图灵,阿兰·图灵(Alan Turing,1912-1954)在英国哲学杂志《心智》上发表了论文《计算机器和智能》(Turing 1950)。在文中他提出了著名的“图灵测验(Turing Test)”的思想。 

此文牵涉到了对于“何为智能”这个大问题的追问,并试图通过一种行为主义的心智理论,最终消弭心理学研究和机器程序设计之间的楚河汉界,同时还对各种敌对意见提供了丰富的反驳意见。这些特征也使得这篇论文不仅成为了AI科学的先声,也成为了哲学史上的经典之作。

1956年发生大事件——Datmouth 会议,在这一年夏天的美国达特茅斯学院(Dartmouth College),一群志同道合的学者驱车赴会,畅谈如何利用刚刚问世不久的计算机来实现人类智能的问题,而洛克菲勒基金会则为会议提供了7500美元的资助(这些美元在当年的购买力可非今日可比的)。

2006年达特茅斯会议当事人重聚,左起:摩尔、麦卡锡、明斯基、塞弗里奇、所罗门诺夫

在会议的筹备时期,麦卡锡(John McCarthy,1927~)建议学界以后就用“人工智能”一词来标识这个新兴的学术领域,与会者则附议。

参加达特茅斯会议的虽无职业哲学家,但这次会议的哲学色彩依然浓郁。首先,与会者都喜欢讨论大问题,即如何在人类智能水平上实现机器智能(而不是如何用某个特定的算法解决某个具体问题)。

其次,与会者都喜欢讨论不同的子课题之间的关联,追求一个统一的解决方案(这些子课题包括:自然语言处理、人工神经元网络、计算理论以及机器的创造性,等等)。

最后,不同的学术见解在这次会议上自由碰撞,体现了高度的学术宽容度(从麦卡锡完成的会议规划书[McCarthy et al. 1955]来看, 没有什么证据表明这次形式松散的会议是围绕着任何统一性的、强制性的研究纲领来进行的)。让人欣慰的是,这些“哲学化特质”在美国日后的AI研究中也得到了保留。

为何AI科学对哲学的宽容度相对来得 就比较高?这背后又有何玄机呢?

这首先和AI科学自身研究对象的特殊性相关的。

AI的研究目的,即是在人造机器上通过模拟人类的智能行为,最终实现机器智能。很显然,要做到这一点,就必须对“何为智能”这个问题做出解答。

如果你认为实现“智能”的实质就是去尽量模拟自然智能体的生物学硬件。你就会去努力钻研人脑的结构,并用某种数学模型去重建一个简化的神经元网络(这就是联结主义者所做的)。现在我们都知道有一个类脑研究计划,这种研究有复杂版本和简单版本,复杂版本就是蓝脑计划一样,把大脑运作的信息流程尽量逼真的模拟出来,比较简单的就是简化的神经元网络。

站在专业的研究脑科学的立场上,神经元网络很不神经,离真正的神经活动来说,它是高度简化,但是站在很宏观的立场上,至少你说神经元网络也是受大脑的启发和影响。这个路线很多人认为是对的,我认为可以做出一些成果,但是不要抱有太高的期望。

如果你认为智能的实质仅仅在于智能体在行为层面上和人类行为的相似。那么你就会用尽一切办法来填满你理想中的智能机器的“心智黑箱”(无论是在其中预装一个巨型知识库,还是让其和互联网接驳,以便随时更新自己的知识——只要管用就行)。

由此看来,正是因为自身研究对象的不确定性,AI研究者在哲学层面上对于“智能”的不同理解,也才会在技术实施的层面上产生如此大的影响。很明显,这种学科内部的基本分歧,在相对成熟的自然科学那里是比较罕见的。

其次,AI科学自身的研究手段,缺乏删除不同理论假设的决定性判决力,这在很大程度上也就为哲学思辨的展开预留了空间。

 

二、从哲学的角度反思现在

我们再看比较新的话题,从哲学的角度反思现在的自然语言处理与机器翻译,严格的说,自然语言处理是大概念,机器翻译是一个小概念。机器翻译是属于自然语言处理的,但有时候会把它分开来说。

现在机器翻译历史上有不同的路数,有基于神经元网络,基于统计的,基于符号的,基于中间语的,还有很多、很多路数。但是深度学习牛掰起来以后,大家都用深度学习来做,很大程度上,深度学习做机器翻译也将流行,也结合了一些大数据的方法。

“深度学习”技术,主要是作为一种“工程学技巧”进入我们的视野的。实际上,我们目前尚无法在科学层面上清楚地说明:“深度学习”技术为何能够提高相关程序之应用表现——遑论在哲学层面上为这种“进步”的“可持续性”提供辩护。

传统的神经元网络和深度学习相比,它的特点是中间处理层层数比较少,而现在的深度学习靠硬件的进步,可以把中间的处理层做成几十层上百层,这是以前不可想象的。做多以后,在很大程度上分析问题的层次感就多了,因为它层数越多就可以用不同的角度和层数分析问题,因此,很大程度上处理问题的手段就更加细腻了。的确体现出一种明显的工程学的进步。

很大的问题是,这种进步是否可持续?我自己站在哲学领域是持保留意见,我认为可以搞搞,但是认为这件事最后能做成像霍金所说的毁灭人类的超级人工智能是胡扯。我们可以借一些例子来讨论、讨论。

传统的人工神经元网络有输入层、中间层和输出层,通过数据的处理得到一个输出,通过反馈算法等等东西来弄,它的最重要的是要调整计算单元之间的权重,通过这种权重的调整,慢慢的让它的适应一类任务。传统的神经元网络最大的特点是,它能够执行的任务是比较单一的,也就是说它完成一个任务以后做了什么,就永远的恒定在这个表现的水准上做这个事。

如果你让他在大量帧数的画面里,在所有有刘德华的脸出现的图片里面做标记,他开始标记的水平比较差,但是他标记的至少比另外一台机器好,另外一台机器把关之琳的脸也标成刘德华,你的机器至少在正确的道路上,随着时间推移,通过训练慢慢能做了。然后刘德华演一部新电影,这电影刚刚上映,显然不是在训练样本里面,让他辨认里面是谁,分得很清楚,刘德华、吴彦祖、关之琳,分得很清楚,训练成功。

现在给它一个新任务,现在不是认人脸,是认一个完全不同的东西,练什么东西呢?假设是一部武打电影,里面也有刘德华参与,但是不要认刘德华,把所有打螳螂拳或者咏春拳的画面选出来,我没学过,如果你要做这件事,这个机器要重新来进行调整。

但是人类可以做一个推理,比如人类如果已经知道了甄子丹经常演叶问,而叶问是打咏春拳的,而人类已经学会了识别甄子丹,如果一部电影我给你一个任务,到底哪些画面是在打咏春拳?你不用看什么拳,你盯着叶师傅,盯着甄子丹就可以。

这里面有三段论推理,非常方便的从一个知识领域到另外一个知识领域。怎么识别甄子丹是一个领域,谁在打拳、谁在打叶问的咏春拳,这是另外一个知识领域。当中有一个桥,就是叶问老师是由甄子丹扮演的,而甄子丹扮演的叶问老师是打这个拳的,你有这个桥,两个知识就可以合二为一。

现在的问题也就是说,这对于符号AI来说很容易的事,对神经元网络是很难的。现在很多人说要把符号AI和神经元网络结合在一起,但是这个结合点怎么找?实际上困难很大。深度学习只是它的的升级版,它是非常高级的升级版。大家觉得AlphaGo打败李世石是非常了不起的事,实际上这是迟早发生的事,因为它只能局限在围棋这一个网络。同样一个深度学习系统同时做两件事,才算牛掰。

美国的生物统计学家Jeff Leek最近撰文指出,除非你具有海量的训练用数据,否则深度学习技术就会成为“屠龙之术”。有些人认为他的观点是不对的,但是我还是倾向于认为深度学习和神经元网络需要大量的训练样本,把某种模式重复性的呈现出来,让他抓到规律,整台系统才能慢慢调到很好的水平。请问前面的数据是不是在任何一种场合都能够获得呢?这显然不是那么容易的。

哲学家柏拉图会怎么评价目下的机器翻译?

柏拉图有一个东西叫《美诺篇》,主要是以对话形式来写他的哲学著作。《美诺篇》里面有一个重要的桥段,一个从未学过几何学的小奴隶在哲学家苏格拉底的指导下学会了几何证明。旁边的人反复问,你真的没有学过几何学吗?怎么证明那么好?小奴隶说,真没学过。旁边人证明,这小子字都不识,希腊文字母表都背不下来。

由此引发的问题是:小奴隶的“心智机器”,究竟是如何可能在“学习样本缺乏”的情况下获取有关于几何学证明的技能的呢?而后世的语言学家乔姆斯基则沿着柏拉图的思路,问出了一个类似的问题:0-3岁的婴幼儿是如何在语料刺激相对贫乏的情况下,学会复杂的人类语法的?——换言之,按照柏拉图—乔姆斯基的看法,任何一种对于人类语言能力的建模方案,如果无法具备对于“刺激的贫乏性”(the poverty of stimuli)的容忍性的话,那么相关的建模成果就不能被说成是具备对于人类语言的理解能力的。

乔姆斯基的解释是人有先天语法结构的能力。人家问乔姆斯基,这个东西怎么来的?他说,这是进化当中的基因突变导致的。我最近美国开议事大会,碰到乔姆斯基,他一方面承认这肯定是进化基因突变的,但是另一方面又否认我们可能用经验手段去严格的研究语言进化的某个历史瞬间到底发生了什么,因为他认为我们缺乏追溯几十万年的语言基因突变的经验能力。

我并不完全赞成他的观点,但是有一点我赞成他,他正确的提出一个问题,这个问题就是机器学习主流没有办法解决的问题。小朋友是怎么做到这么小就可以掌握语法?

若按照按照乔姆斯基的标准或者伯拉图、苏格拉底的标准,,我们是否可以认为目前基于深度学习的机器翻译技术是能够理解人类语言的呢?答案是否定的。

实际上,已经有专家指出,目前的深度学习机制所需要的训练样本的数量应当是“谷歌级别”的——换言之,小样本的输入往往会导致参数复杂的系统产生“过度拟合”(overfitting)的问题。也就是说,系统一旦适应了初始的小规模训练样本中的某些特设性特征,就无法灵活地处理与训练数据不同的新数据。

一句话,凑数凑得太假了,以至于难以应对世界的真正的复杂性!

举个例子,一个人说她自己很适合谈恋爱,很适合和异性交往。她谈第一次恋爱,两个人如胶似漆,而且她的恋爱对象是非常奇葩的男人,非常宅,邋遢,很奇怪,别的男人对他也有意见,但是这个女人和他一拍即合。这就是过拟合。

你作为她的闺秘会担心一件事,她和这个男人分手以后,能不能适应正常的男人?按照统计学来看,第一次恋爱成功的概率是很低,如果你第一次就过拟合了,你以后怎么玩这个游戏?这很麻烦,这是恋爱中过拟合的问题,和谁都特别熟,黏住谁就是谁,分不开,他什么毛病也传给你,以至于你不能和第二个人谈恋爱。

另外一种是不拟合,就是和谁都不来电。按照机器训练来说就是怎么训练都训练不出来。一种太容易训练出来,太容易训练出来的问题是我现在用这组数据很容易把你训练出来,以后真实世界中真实数据和实验室不一样,你能不能应付?

就语言论语言,新数据与训练数据不同恐怕会是某种常态,因为能够根据既有的语法构造出无穷多的新表达式,本就是一切自然语言习得者所都具备的潜能。如果我愿意,我可以用大家听得懂的汉语跟大家描述各种各样的奇葩状态。这是语言的特点。也就是说既有的语法允许我们构造出无穷多的新表达式。

能够用既有的语法构造更多的新表达式,是任何一个语言习得者的能力,能够听懂别人用你的母语所表达的任何一种奇葩的表达式,也是一个合格语言习得者的能力,这个能力是何等的平常,但是对于机器来说是多么的稀奇。

换言之,无论基于深度学习技术的机器翻译系统已经通过多大的训练量完成了与既有数据的“拟合”,只要新输入的数据与旧数据之间的表面差距足够大,“过度拟合”的幽灵就都一直会在附近徘徊。

所以从过去当中永远没有办法必然的推出关于未来的知识或者关于未来我们不能有真正的知识,这是休谟哲学的相论点,他没有用什么拟合、不拟合的数据,因为他当时不知道深度学习。但是你会发现,过很多年,休谟的哲学问题没有解决。

从本人的哲学立场来看未来人工智能,需要做的事情:

1. 首先要在大的目标上指出通用人工智能是一个大的目的。

很多人给我说通用人工智能做不出来,我的书指出了,所有指出通用人工智能做不出来的论证是不成立的。第二个如果你相信某些人所说的,人工智能将对人类生产生活产生颠覆性的影响,而不是过去的自动化的零敲碎打的影响,只有通用人工智能才能对未来的生活进行颠覆性的影响。因为专用人工智能不可能真正取代人的工作,只有通用人工智能能做到。

比如家政服务员,让机器人做,你知道家务有多麻烦吗,家务有多难做吗?我始终觉得做家务比做哲学烧脑,我一直觉得做家务合格的机器人比做哲学还是要更慢一点,你十个人都喊着文本都是一个文本,十个人不同家庭的打扫情况就是不同。

这个人家里书很多,但他不希望你理得很整齐,另外一个人家里有很多书,但是希望你理得很整齐。这个小朋友3岁,喜欢书。这个地方有小朋友13岁,很不喜欢看书。这些问题都复杂,人都要被他弄崩溃,机器怎么搞得清楚?

2. 认知语言学的算法化。

3. 基于意义的普遍推理引擎,而不能把推理看成形式、逻辑的事情,而要认为这和意义有关。

4. 节俭性算法与该推理引擎的结合,我们的计算要从小数据出发,要体现节俭性,不能依赖大数据。

5. 结合认知心理学研究加入人工情绪等新要素。

(来源:腾讯研究院)