文献:[1] Ernest Davis. How to Write Science Questions that Are Easy for People and Hard for Computers[J]. AI Magazine, 2016, 37(1): 13-22


1 标题与概要

  标题:如何提出对人类很简单而对电脑很难的科学问题   概要:如何衡量一个 AI 的智能化程度,是一个很有挑战性的问题。本文作者提出构造了一种测试,测试所用的题目对人类来说并不困难,但是对电脑来说却相反。在论文中,作者讨论了构造这类题目的方法,并将这些题目按难度分为两种:一种是相当于小学四年级水平,另一种相当于高中水平。对于前一种难度相对较低的题目,作者认为 AI 需要有对时间概念、虚构情节、因果关系、人体结构等知识的理解;对于后一种难度的题目,则需要 AI 将科学知识与实验经验相结合。作者指出这套测试方法比现有的标准化测试方法,例如 SAT 和 New York Regents 测试更有意义,因为现有的测试中所采用的题目都是为了难倒人类而设计的,这些题目往往忽略了许多对电脑很难但对人类很简单的因素。

2 研究背景

   作者指出,如果想测试 AI 的能力,那么最直接的办法就是使用现有的考试,例如New York Regents 或者 SAT 考试。事实上,已经有一部分人致力于此,Brachman 等人(2005) 提出开发一个能够通过 SAT 考试的程序,Clark,Harrison 和 Balasubramanian(2013) 研究了可以通过New York Regents 四年级科学能力测试的项目,Strickland(2013)提出了开发一个可以通过东京大学入学考试的 AI ,Ohlsson 等人(2013)使用预处理过的韦氏学龄前儿童和小学生智力测验试题,对一套基于 ConceptNet(Havasi,Speer 和 Alonso 2007)开发的系统进行了智力评估。Barker 等人(2004)描述了如何构建一个知识库系统,能够在高中化学跳级考试中取得3分并通过考试。Seo 等人(2015)开发的 GEOS 系统可以回答 SAT 考试中的几何问题,对于官方题库和练习题库,这套系统分别取得了49% 和 61% 的成绩。   作者认为现有的标准化考试是用来测试人的而不是 AI,人类和 AI 对“困难”的感受恰恰相反。标准化考试中包含了许多对人类而言非常困难,但对电脑来说微不足道的题目,比如对科学术语的解释或者纯粹的数学计算。从另一方面讲,标准化考试中通常不会有“连傻瓜都知道”的常识性问题,然而这些常识恰恰是 AI 所欠缺的。   作者指出自动生成对人类很简单而对电脑很难的题目是有可能的,CAPTCHA(von Ahn等人 2003)可以自动生成一些人类很容易理解但是电脑却不能理解的图片,然而这只是一个特例。Weston 等人(2015)提出建立一个系统,可以自动生成一些关于常识问题的叙述,然而这套系统需要一个特定的世界模型和语言模型作为输入,不能使用更原始、更普遍的世界模型或者语言模型。   在排除了使用现有的标准化考试和自动生成题目的可能性后,作者认为唯一可行的办法就是手动地构造这些题目,而且这些题目必须是对人类而言很简单的,否则就会陷入一个强人工智能的悖论。对现有的计算机来说,这些题目是很难的,这种困难来自对常识的理解和推理,而不是来自对自然语言的处理或者视觉图像的理解。作者认为建立这种测试是很有必要的,它可以测量具有自然世界的常识的 AI 的智能程度。   作者将这种测试称为基于科学问题的基本理解力评估测试(science questions appraising basic understanding - or SQUABU)。在文章中,作者具体介绍了两种测试,分别是 SQUABU-Basic 和 SQUABU-HighSchool。SQUABU-Basic 用来测试 AI 对自然世界基本常识的理解,这些题目对于任何一个发达国家的10岁儿童来说都不成问题。SQUABU-HighSchool 用来测试 AI 是否可以将高中的物理、化学知识与对自然世界的常识整合在一起,这里的题目对于一个接受过高中教育的学生来说并不困难。

3 研究过程

3.1 排除简单问题

  作者首先讨论了哪些问题对电脑是简单的,这些问题在 SQUABU 中必须要被排除。这些问题可以归结为三大类:术语解释、分类归纳和纯粹计算。

3.1.1 术语解释

  AI 可以通过检索来获得专业术语的释义。例如这道 New York State 4th grade Regents Science 测试中的题目

土壤在风或水的作用下发生运动的现象称为 (A)冷凝 (B)蒸发 (C)侵蚀 (D)摩擦

  如果使用搜索引擎搜索题干,可以得到许多页面,上面有关于侵蚀作用的定义。

3.1.2 分类归纳

  根据子类和实例间的组织关系构造类别和个体的分类层次结构可以被认为是 AI 中已经解决的问题。这个技术已经在网络数据挖掘中得到大量应用,例如 Wu 等人 (2012)的 Probase 项目将2070万个个体归纳为206万个类别,准确率达到了92.8%。例如下面这个问题就很简单(对计算机而言)。

松鼠没有下列哪一种器官 (A)大脑 (B)鳃 (C)心脏 (D)肺

3.1.3 纯粹计算

  涉及检索标准的公式,然后在计算中(代数或符号计算)使用它们的问题很容易。例如下面是来自 SAT-level 物理考试中的题目。

闭合电路中的40Ω电阻在其两端有20伏特电压。 流过电阻的电流为 (A)0.5A (B)2A (C)20A (D)80A (E)800A

水平力F作用在一质量为m的物体上,该物体起初静止放在摩擦力可以忽略的地板上,在F的作用下,物体在t时间内移动了距离d,则物体的动量变化为 (A)F/t (B)m/t (C)Fd (D)Ft (E)mt

3.2 解决方案

  作者分别介绍了 SQUABU 的两种测试,对如何寻找题目来源和构造题目做了详细解释。

3.2.1 SQUABU-Basic

  作者总结了哪些问题对人类简单而对电脑很困难,这些题目并非来自课本,而是自然世界的常识。 时间概念   作者指出,时间问题计算是 AI 一个已经解决的问题,进行时间推理在很大程度上也被解决了。然而在实际应用中,大规模的知识库系统往往会忽略关于时间概念的问题。ConceptNet 系统(Havasi, Speer, and Alonso 2007)在处理时间问题时,显得毫无章法。作者惊讶地发现,最近一个系统手工注释掉了大量代码,以将时间信息从其输出中排除,作者认为这是一个短视的行为。   因此,如果一个时间信息没有明确、清晰的表示,AI 系统就很可能难以处理,例如下面这些问题

Problem B.1 Sally 最喜欢的一头奶牛昨天死了,那么这头奶牛可能在哪天复活? (A)明天 (B)一周内 (C)一年内 (D)几年内 (E)奶牛永远不活复活

Problem B.2 Malcolm Harrison 是弗吉尼亚周的一个农夫,死于200多年前。在他生前,他的农场里有很多匹马。以下哪个叙述是正确的? (A)Harrison 的所有马都死了 (B)大部分马都死了,但是少数还活着 (C)大部分马都活着,少部分死了 (D)Harrison 的所有马都可能活着

Problem B.3 四月份的每周一至周五,Mike 从早上9点到下午4点在学校上课。下面哪个叙述是正确的? (A)从周一早上9点到周二下午4点,Mike总是在学校 (B)从周一早上9点到周二下午4点,Mike都不在学校 (C)从周一下午4点到周五上午9点,Mike都不在学校 (D)从周六上午9点到周一上午8点,Mike都不在学校 (E)从周日下午4点到周二上午9点,Mike都在学校 (F)在不在学校取决于是哪一年

  对于问题 B.2 AI 也许可以从维基百科上获知一匹马的寿命长度,然而要回答这道题目,还需要能将题目中其他元素组合运用,这就涉及到下面会讨论的“组合元素”。作者认为未来10年内都很难有 AI 可以正确回答这些问题。

归纳推理   AI 对于不确定数目的事物序列中的逻辑推理往往表现糟糕,例如下面这几个例子

Problem B.4 Mary 有一只鹦鹉名叫 Paul,那么 Paul 有没有祖先活在公元1750年? (A)当然有 (B)当然没有 (C)不得而知

Problem B.5 Tim 正在一个布满石头的海滩上,他有一个大桶,他正将石头一块一块放入桶中,下面哪项是真的? (A)桶里永远不会一块以上的石头 (B)桶里永远不会有三块以上的石头 (C)桶最终会被装满,并且放不下更多的石头 (D)桶里的石头越来越多,但总是有空间放入另一块石头

虚假情节   如果你虚构了一个显然不可能的故事,那么人们在看过之后往往不会去抱怨“这是不可能的”。正因如此 AI 在阅读这个故事时,也不会去考虑故事的可能性。   当然,如果在题目中有“这是不可能的”答案选项,AI 就会去刻意计算情节故事的可能性,因此要用显然是可能的但是毫无意义的情节去迷惑 AI。

Problem B.6 可以折叠一个西瓜吗?

Problem B.7 可以把一个西红柿放在西瓜上面吗?

Problem B.8 假设你有一个西红柿和一个完好的西瓜,你可以在不破坏西瓜的前提下将西红柿放到西瓜里面吗?

Problem B.9 以下哪项为真? (A)一只雌性老鹰和一只雄性鳄鱼可以生育后代,且后代既不是鳄鱼也不是老鹰 (B)一只雌性老鹰和一只雄性鳄鱼可以生育后代,且后代是老鹰 (C)一只雌性老鹰和一只雄性鳄鱼可以生育后代,且后代是鳄鱼 (D)一只雌性老鹰和一只雄性鳄鱼可以生育后代,且后代一半是老鹰一半是鳄鱼 (E)一只雌性老鹰和一只雄性鳄鱼不可以生育后代

Problem B.10 如果你把一只金丝雀和一只鳄鱼放在一起,以下哪项是不可能的? (A)金丝雀可以看到鳄鱼 (B)鳄鱼可以看到金丝雀 (C)金丝雀可以看到鳄鱼胃里的东西 (D)金丝雀可以飞到鳄鱼背上

因果关系   现有的 AI 所使用的数据库,很可能没有包含为人熟知或者很显而易见的因果关系。

Problem B.11 假设你有两本书,一本封面是白色的,另一本封面是黑色的,除此以外两本书一模一样。如果你从白色的书中撕掉一页,下面哪项为真? (A)黑色书中的相同页也会掉落 (B)黑色书中会长出另一页 (C)白色书中会重新长出被撕掉的那页 (D)白色书中的所有其他页都活掉落 (E)以上都不为真

时空概念   许多基本的时空观对 AI 来说都很难理解

Problem B.12 Ed 出生时,他的父亲在波士顿,他的母亲在洛杉矶,那么 Ed 出生在哪? (A)波士顿 (B)洛杉矶 (C)波士顿或洛杉矶 (D)波士顿和洛杉矶之间的某地

Problem B.13 Joanne 从一根奶酪上切下一块,下面哪项为真? (A)这根奶酪的重量不变 (B)这根奶酪变轻了 (C)这根奶酪变重了 (D)这根奶酪的重量变得不可测量

Problem B.14 Joanne 在一根奶酪的中间插了一根长针,然后把它拉出来,下面哪项为真? (A)奶酪长度不变 (B)奶酪变短了 (C)奶酪变长了 (D)奶酪长度变得不可测量

组合元素   这种题目需要将来源不同的事实元素组合起来考虑,这对于 AI 来说很困难,问题 B.2 是一个例子,下面是另一个

Problem B.15 George 不小心把一点点漂白剂滴进了牛奶里,如果他小心翼翼的不喝到漂白剂,那么喝牛奶是安全的么?

  这个题目需要将若干个事实元素组合起来,首先漂白剂是有毒的,即使经过了稀释,其次漂白剂和牛奶都是液体,你很难将混合过的两种液体再次分开。

人体结构   毫无疑问,人类对人体结构的理解有着先天的优势

Problem B.16 当你把手放在脑袋后面时,你能看到你的手吗?

Problem B.17 如果一个人感冒了,那么他可能在 ___ 时间内康复。 (A)几分钟 (B)几天或者几周 (C)几年 (D)永远不会康复

Problem B.18 如果一个人砍掉了他的手指,那么他可能在 ___ 时间内重新长出手指。 (A)几分钟 (B)几天或者几周 (C)几年 (D)他永远不会长出新的手指

模糊推理   物理模拟程序很擅长对具有确定数量物体的问题进行推导,但对物体数量不确定的问题就不大行

Problem B.19 有一个瓶子正放在桌子上,瓶盖子盖的很紧,瓶子里有几颗花生。 Joe 拿起瓶子上下摇晃,然后把瓶子放回原处。那么,花生最后在哪里? (A)在瓶子里 (B)在桌子上,瓶子外面 (C)在空中

Problem B.20 有一个瓶子正放在桌子上,瓶盖子盖的很紧,桌子上还有几颗花生。 Joe 拿起瓶子上下摇晃,然后把瓶子放回原处。那么,花生最后在哪里? (A)在瓶子里 (B)在桌子上,瓶子外面 (C)在空中

3.2.2 SQUABU-HighSchool

  SQUABU-HighSchool 测试题与 SQUABU-Basic 有很大的区别, SQUABU-HighSchool 要将科学知识与常识推理结合在一起,因此出题范围变得更加严格。   作者指出一个很好的题目来源就是高中科学实验,因为实验一方面考察了对科学知识的掌握,另一方面要理解实验的步骤和设置需要有常识推理的能力。另一个很不错的题目来源是天文学,基本的天文学需要掌握基础物理知识,几何推导能力和理性思考能力。第三个题目来源自日常生活中的现象,这些现象的解释需要严谨的科学分析。

化学实验 Alt text   如图所示,将少许氯酸钾($KClO_3$)放在试管中加热后分解成氯化钾($KCl$)和氧气($O_2$)。将氧气通过导管导入装满水且倒置在水盆里的烧杯中,当烧杯中不再有气泡产生时,实验者上下移动烧杯,使烧杯中的水平面与杯外齐平,此时烧杯内的气压与杯外的大气压相等。减去混合在氧气中的水蒸气体积,即可得到分解产生的氧气体积。

Problem H.1 如果U形管的右端在烧杯之外而不在内部,会发生哪些变化? (A)化学分解将不会发生 (B)氧气将停留在试管中 (C)氧气将进入大气中而不会收集在烧杯中 (D)不会有变化

Problem H.2 如果烧杯底部有一个洞,会发生哪些变化? (A)氧气会从烧杯中冒泡,然后通过洞口进入大气 (B)不会有变化 (C)倒置烧杯中的水会立刻流进盆子里,烧杯中装满了从洞口进入的空气

Problem H.3 如果实验中的试管、烧杯和U型管都是不锈钢的而不是玻璃的,会发生哪些变化? (A)产生的变化肉眼不可见,可以忽略 (B)化学分解将不会发生 (C)氧气将通过不锈钢烧杯渗出 (D)烧杯会破裂 (E)氯化钾会积累在烧杯中

Problem H.4 假设试管中的塞子被移除,但是U形管具有一些其它支撑件,使其保持在其当前位置,会发生哪些变化? (A)氧气将停留在试管中 (B)所有的氧气都会逃逸到外部空气中 (C)一些氧气将逸出到空气中,还有一些氧气将通过U形管并且冒泡到烧杯。所以烧杯会得到一些氧气,但不是所有的氧气

Problem H.5 假设分解停止时,烧杯中的水位高于盆中的水位,以下哪项为真? (A)烧杯中的压力低于大气压,烧杯应该降低 (B)烧杯中的压力低于大气压,应该升高烧杯 (C)烧杯中的压力高于大气压,烧杯应该降低 (D)烧杯中的压力高于大气压,烧杯应该升高

Problem H.6 假设氯酸钾不是少量,而是几乎塞满了试管,会发生哪些变化? (A)分解反应将不会发生 (B)分解产生的氧气多到烧杯装不下 (C)分解产生的氧气少到无法测量

Problem H.7 除了烧杯中的气体体积,以下哪一项也需要精确测量? (A)氯酸钾的初始重量 (B)烧杯的重量 (C)烧杯的直径 (D)气泡的数量和大小 (E)烧杯中液体的体积

Problem H.8 图中实验使用了有刻度的烧杯,如果烧杯没有刻度,会发生哪些变化? (A)烧杯将无法收集氧气 (B)实验者将无法得知应该升高还是降低烧杯 (C)实验者无法测量气体的体积

Problem H.9 实验开始时,烧杯内装满了水,且杯口在盆中水平面以下,这种状态是如何实现的? (A)将烧杯装满水,然后立刻倒扣在盆中 (B)将烧杯口向上,然后完全浸没在盆中,等烧杯中装满水后,将烧杯倒置,然后慢慢提出水面 (C)将烧杯口向下,浸入盆中水平面以下,然后提出水面 (D)将烧杯放在图中位置,然后把水溅入烧杯中 (E)将烧杯底部开个小洞,然后用移液管将烧杯中装满水,然后把洞口补上

密立根油滴实验 Alt text

Problem H.10 如图,在密立根油滴实验中,一个带有单个电子的微小油滴悬浮在两个充电板中间。实验者通过调节板上的电荷量,直到油滴所受电场力与重力相等,使其悬浮。带点板的电荷该如何调节? (A)两个带电板都是正电荷 (B)两个带电板都是负电荷 (C)上电板为正,下电板为负 (D)上电板为负,下电板为正 (E)无论怎样调节,实验总能成功

Problem H.11 如果油滴开始向上移动,实验者需要? (A)增加电板的带电量 (B)减少电板的带电量 (C)减少油滴的带电量 (D)增加油滴的重量 (E)降低油滴的重量 (F)增加油滴的带电量 (G)移动下带点板

Problem H.12 如果油滴掉在下带电板上,实验者需要? (A)增加电板的带电量 (B)减少电板的带电量 (C)增加油滴的带电量 (D)减少油滴的带电量 (E)重新开始实验

Problem H.13 实验的目的是为了证明所有油滴所带的电量均是某一最小电荷的整数倍,而不是小数或其他非整数倍,为了得到这个实验结果,实验者需要测量? (A)一个油滴 (B)两个油滴 (C)许多油滴

天文学

Problem H.14 有没有发生过日食和月食出现在同一天?

Problem H.15 有没有人曾在日落后立刻看到月食?

Problem H.16 有没有人曾在午夜看到月食?

Problem H.17 有没有人曾在中午看到月食?

Problem H.18 有没有可能当一个人看到全月食时,地球上另一个人却没有看到月食?

Problem H.19 有没有可能当一个人看到全日食时,地球上另一个人却没有看到日食?

Problem H.20 假设你站在月亮上,地球就在你的头顶,地球多久会落下? (A)大约一周 (B)大约两周 (C)大约一个月 (D)地球永远不会落下

Problem H.21 假设你站在月亮上,太阳就在你的头顶,多久会日落? (A)大约一周 (B)大约两周 (C)大约一个月 (D)永远不会日落

Problem H.22 在一个天气明朗的晚上,你盯着一颗星星看,火星就在你和星星的连线上,你能看到这颗星星么?

Problem H.23 在一个天气明朗的晚上,你盯着一颗星星看,星星的一颗卫星正好处于你和星星的连线上,你能看到这颗星星么?

Problem H.24 假设你站在木星的某颗卫星上,忽略太阳系的其他星球,以下哪项为真? (A)星空的图案几乎和在地球上看到的一样 (B)星空的图案和在地球上看到的大不相同

日常生活现象

Problem H.25 假设你有一个空桶,重量为1公斤,你在其中装入了10克水,和1克盐,然后将桶密封。随之时间推移,桶中的水挥发成水蒸气,留下盐在桶底,此时,整个桶的重量为? (A)1000克 (B)1001克 (C)1010克 (D)1011克 (E)水在密封的桶内不会挥发

Problem H.26 假设你在一个房间内,温度为17摄氏度,你打开了加热器,半小时后,温度上升到24摄氏度,然后你关闭了加热器。房间的门是关闭的,但是门和门框间存在门缝,空气可以由此进出。假设这段时间内,房间外的温度和气压保持不变,则以下哪项为真? (A)房间内的气压上升了 (B)房间内的气体体积增加了 (C)有空气进入房间 (D)有空气流出房间 (E)条件不足,无法判断

Problem H.27 题目条件和 H.26 相同,只是房间是完全密闭的,空气无法进出,以下哪项为真? (A)房间内的气压上升了 (B)房间内的气压降低了 (C)房间内的气体体积增加了 (D)房间内的气体体积减小了 (E)理想气体常数在结束时比在开始时大 (F)理想气体常数在结束时比在开始时小

Problem H.28 你吹起一个气球,则球中的气压? (A)比大气压低 (B)等于大气压 (C)比大气压高

3.3 标准化测试的优缺点

  作者在介绍了构建 SQUABU 测试的方法后,又对标准化测试与 SQUABU 测试进行了分析比较。

  • 标准化测试是现成的。这并非不是一个“偷懒的借口”,计算语言学界的研究经验表明,构建完备的测试系统和评价标准需要花费大量精力。当然计算语言学界的人也不会考虑使用 SAT 测试来衡量 NLP(natural language process)的研究进度。
  • 既当运动员,又当裁判员会引起偏见。如果 AI 的评判标准是由 AI 界的人来制定,那么研究者就会按照他自己对题目的理解来构造 AI 程序。采用原本就是用来测试人类的标准化测试就不会产生这个问题。
  • 测试的公信力。如果 AI 能够通过现有的标准化测试,那么大众都会承认它的智能性,相反如果通过的只是研究者自己构建的测试,那么势必会有人怀疑。作者觉得这是采用标准化测试最大的优点。然而这也会带来一大弊端,公众会误以为通过了某项考试的 AI 有着和通过这项考试的人类一样的智力水平,假设一个 AI 通过了考察4岁儿童语言能力的测试,公众就会认为这个 AI 具有和4岁儿童一样的智力。然而一个4岁的儿童拥有惊人的创造力、学习力等等,这都是现有的 AI 系统不具备的。
  • 某些标准化测试,例如 SAT 的题目是不公开的,研究人员只有遵循严格的保密协议才能获取这些题目并研究。作者认为研究者因保密协议带来的损失远大于收益,如果不能公开发表和讨论研究成果,那么采用标准化测试显得毫无意义。
  • 标准化测试承担了太多的社会职责,因此很多方面受到严格限制。例如题目的难度每年都要尽量一致,题目对于每个考生都要显得公平公正,作者认为 AI 的研究者们不应该受此束缚,而应该自由地发挥创造力,开发 AI 的评价系统。

4 总结

4.1 论文的不足点

  论文虽然提出了如何构建一个 AI 的测试系统,然而却没有给出相应的评判标准,作者认为 SQUABU 测试对适龄的正常人类而言都是很简单的,应该可以得到接近满分的成绩。但是对于如何评价 AI 在测试中的表现却没有说明,是答对全部题目,还是答对80% 就可以认为 AI 通过了测试?这个问题在实际应用中还需要解决。   作者在文章中曾指出,AI 对测试题的阅读不应该成为测试的难点之一,然而 SQUABU 测试中的题目,题干都是使用自然语言描述,甚至还有配套图片。但目前自然语言处理和图形图像分析仍然在研究之中,SQUABU 测试很难避免 AI 系统在阅读理和解题目描述上带来的问题。

4.2 论文的优点

  除去图灵测试,AI 界的研究者们热衷于使用人类社会的标准化测试来测量 AI 系统的智能化程度,本文作者发现这会带来许多问题。一味地追求在标准化测试中获得更高的分数,会将 AI 的研究带入歧途。作者构建的 SQUABU 测试中的许多问题,往往被 AI 研究者所忽视,因为这些题目对人类而言太过简单,简单到研究者甚至没有去考虑 AI 是否可以解决。   SQUABU 测试着重于测量 AI 的推理能力、对自然常识的理解程度,对人类而言,这些能力可能就像本能一样,然而这正是 AI 所欠缺的,也是构建一个真正的 AI 系统的基石。

4.3 可能的研究方向

  • 制定 SQUABU 测试的评分标准
  • 构建 SQUABU 测试的题库系统