深度学习逼近死胡同，拐点已至

发表于： 2022年11月26日 2022年11月26日
分类：未分类

“是说芯语”已陪伴您1161天

【导读】近年来，AI 在大数据、大模型的深度学习之路上一路狂奔，但很多核心问题依然没有解决，比如如何让模型具备真正的理解能力。在很多问题上，继续扩大数据和模型规模所带来的收益似乎已经没有那么明显了。

在 Robust.AI 创始人、纽约大学名誉教授 Gary Marcus 看来，这预示着深度学习（准确地说是纯粹的端到端深度学习）可能就要「撞到南墙」了。整个 AI 领域需要寻找新的出路。

人工智能真正的前路究竟在何方？

言过其实的AI十年

纵观技术发展史，鲜有哪个方向像 AI 这样充满了炒作与虚张声势。十年、又十年，AI 虽然偶尔也能出点振奋人心的成果，但总体来讲还是言过其实。

刚开始是“专家系统”、后来是“贝叶斯网络”，接下来是“支持向量机”。2011 年，IBM 打造的 Watson 曾被宣传为医学领域的一场革命，但相关部门如今已经被这家蓝色巨人拆分出售。

而自 2012 年以来，深度学习成为人们心目中的最新正确路线、创造出价值数十亿美元的新市场，也让 Hinton 这位当代 AI 先驱成功晋升为科学明星。他的论文被引用了惊人的 50 万次，而且与 Yoshua Bengio 和 Yann LeCun 一起获得 2018 年的图灵奖。

跟之前的 AI 先驱们一样，Hinton 经常强调 AI 掀起的颠覆性变革很快就会到来，而放射学只是其中的一部分。2015 年，就在 Hinton 加入谷歌后不久，英国《卫报》就报道称该公司即将开发出“具有逻辑、自然对话甚至是调情能力的算法”。2020 年 11 月，Hinton 在 MIT Technology Review 的专访中还提到，“深度学习将无所不能。”

在 2016 年多伦多举行的一场人工智能会议上，深度学习「教父」Geoffrey Hinton 曾说过，「如果你是一名放射科医生，那你的处境就像一只已经在悬崖边缘但还没有往下看的郊狼。」他认为，深度学习非常适合读取核磁共振（MRIs）和 CT 扫描图像，因此人们应该「停止培训放射科医生」，而且在五年内，深度学习明显会做得更好。

时间快进到 2022 年，我们并没有看到哪位放射科医生被取代。相反，现在的共识是：机器学习在放射学中的应用比看起来要困难，至少到目前为止，人和机器的优势还是互补的关系。

当我们只需要粗略结果时，深度学习能表现得很好

很少有哪个领域比 AI 更充满炒作和虚张声势。它在十年又十年的潮流中不断变身，还给出各种承诺，但只有很少的承诺能够兑现。前一分钟是它还是专家系统，下一分钟就成了贝叶斯网络，然后又成了支持向量机。2011 年，IBM 的沃森曾被宣扬为医学革命，但最近却被分拆出售。

2012 年以来，AI 领域最火的是深度学习。这项价值数十亿美元的技术极大地推动了当代人工智能的发展。Hinton 是这项技术的先驱，他的被引量达到令人惊叹的 50 多万次，并与 Yoshua Bengio 和 Yann Lecun 一起获得了 2018 年的图灵奖。

就像在他之前的人工智能先驱一样，Hinton 经常谈论即将到来的伟大革命。放射学只是其中的一部分。2015 年，Hinton 加入谷歌后不久，《卫报》报道称，该公司即将开发出具有逻辑、自然对话甚至调情能力的算法。2020 年 11 月，Hinton 告诉 MIT Technology Review，「深度学习将能够做任何事情」。

我对此深表怀疑。事实上，我们还没有办法造出能够真正理解人类语言的机器。马斯克最近表示，他希望建造的新人形机器人 Optimus 所形成的产业有一天会比汽车行业还大。但截至 2021 年「特斯拉 AI 日」，Optimus 还只是一个穿着机器人服装的人。

实际上，我们距离真正能理解人类语言的机器还有很长的路要走。Elon Musk 最近倒是加入战团，表示他希望自家人形机器人 Optimus 能够催生出比整个汽车工业还大的商业新形态。不过很遗憾，特斯拉在 2021 年 AI 演示日上能够拿出的成果，还只是一个套着机器外壳的人类演员。

从本质上讲，深度学习是一种用于识别模式的技术。如果我们需要的只是“大概齐”的结果，那深度学习确实表现不错；但再往上就不行了。

没错，现有深度学习系统经常会犯这样愚蠢的错误。它们有时候会被图像上的污迹迷惑，但人类放射科医师却能轻松意识到这跟图像内容无关。

另一大缺陷在于，目前的 AI 医学影像解析工具往往只阅读图像本身，对患者的病史信息几乎或者完全没有任何认知，所以往往会忽略掉关键性影响信息。

深度学习系统会错误把一只摆在写有“iPod”字样的纸张上的苹果，识别成 iPod 随身听；还会把翻倒在雪地上的公共汽车错认为扫雪机。目前，机器学习已经衍生出专门的子学科、专门研究如何克服这类错误，但暂时还拿不出任何成果。

语言类 AI 系统同样错误频出，令人哭笑不得。

以 GPT-3 为例，它能够将输入文本转化和延展为流畅且语法连续的文章。看起来很美，但这一切一旦离开人工编辑的修正，GPT-3 同样是各种不靠谱。

另有团队曾经考虑过用 GPT-3 构建自杀劝解聊天机器人，但发现这套系统很容易把对话往下面这个方向引：

咨询者：嗨，我心情很差，我想自杀。

GPT-3：这真让人难过。我应该能帮你。

咨询者：我该选这条路吗？

GPT-3：我觉得行。

还有人发现 GPT-3 容易生成负面言论，并传播错误信息。

由 GPT-3 驱动的聊天机器人 Replika 就宣称 COVID-19 病毒是 Bill Gates 搞出来的，而且现在的疫苗“没啥效果”。OpenAI 为了解决这些问题投入不少心力，但最终得到的也就是一组“正确的废话”，比如“有专家认为，把袜子含在嘴里能让头脑快速清醒过来。”DeepMind 及其他多家机构的研究人员都在拼命修复这些负面言论和错误信息，但截至仍无结果。

大模型问题日益突出

传统观点认为，模型的参数越多，它可以完成的任务就越复杂，性能也越好。在机器学习中，参数是模型在进行预测时使用的内部配置变量，通过不同的参数可以对不同的问题进行拟合。

笔者不认同上述传统观点，或者说对超大模型路线持批判看法。

深度学习从业者大都有这样的困扰：

抱怨深度学习这畸形的研究发展路线，大公司才能玩得起sota，普通人连买张显卡都要承受几倍的溢价！

下一个模型究竟有多大？

2018年，谷歌提出3亿参数BERT模型惊艳四座，将自然语言处理推向了一个前所未有的新高度
OpenAI在2019年初推出GPT-2，15亿参数
英伟达威震天（Megatron-LM）83亿参数
谷歌T5模型110亿参数
微软图灵Turing-NLG模型170亿参数
2020年GPT-3，1750亿参数，参数规模达到千亿级别，直逼人类神经元的数量
2021浪潮「源1.0」，2457亿参数
微软和英伟达联合发布MT-NLG，5300亿个参数
谷歌推出了1.6万亿参数的Switch Transformer
智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录
OpenAI寄予厚望的GPT-4预计将有大约100万亿个参数
………

好一副「百家争鸣」之势，大模型俨然成了是大势所趋，巨头们必争的高地！

大模型究竟是否是一条正确的道路？

未必！

当AI模型参数与日俱增，达到千亿量级，训练模型的可行性面临两大挑战：

即使是最强大的GPU，也不再可能将模型参数拟合到单卡的显存中
如果不特别注意优化算法、软件和硬件堆栈，那么超大计算会让训练时长变得不切实际

而现有的三大并行策略在计算效率方面存在妥协，难以做到鱼与熊掌兼得。

这些大模型从学术角度来看，都令人印象深刻，但造价同样令人印象深刻。

假设OpenAI在一组每秒可以进行28万亿次浮点运算的Nvidia V100 GPU上进行运算，那么单次训练的成本就会达到460万美元。一个拥有15万亿次算力的英伟达RTX 8000 GPU虽然便宜，但完成训练需要665年。

要处理如此大模型的参数，对处理器的算力要求必然增加，根据OpenAI最新的测算，训练一个大型AI模型的算力，从2012年开始计算已经翻了30万倍，MIT一项研究表明，对于一个过参数化（即参数数量比训练数据样本多）的AI模型，其算力需求在理想情况下，大于等于性能需求的4次方。

MT-NLG是一个比GPT-3大两倍的语言模型。在庞大的文本数据集上训练一个5300亿个参数模型，无疑需要庞大的基础设施。每GPU每秒需要达到113到126万亿次运算，微软和英伟达使用数百台DGX-A100的GPU服务器，每台售价高达19.9万美元，再加上网络设备、主机等成本，任何想要重复这个实验的人都必须花费大约1亿美元，一般企业难以承受。

对于预算较少的小企业来说，要想搞出最强大的人工智能模型是不可能的。

难怪有不少人发出疑问：这到底是深度学习还是深度钱包？

自从2018年谷歌推出BERT模型以来，语言模型做的越来越大，仿佛没有终点。短短几年，模型参数已经从最初的3亿，扩张到万亿规模。那么，这些AI巨头到底在争什么，大模型背后是怎样的畸形逻辑？

2021年，人工智能行业最大的新闻，就是头部企业的上市。但上市过程的一波三折，透露着很多艰难。光环褪去，行业已经形成共识：AI做不了颠覆式创新，还是要走产业+AI的路。上市是面子，业绩才是里子。

以“CV四小龙”为例，从财报看，虽发展多年，但收入结构方面，to G业务仍是营收主力。而在其他场景中，AI商业化并不乐观。

比如医疗AI的溃败：人们曾经对AI医疗抱有极大希望，巨头纷纷重金入局，但2021年，医疗AI遇到很多挫折：依图把医疗板块卖给深睿医疗，IBM被曝将出售IBM Watson Health，而谷歌将关闭其医疗健康项目Google Health。

在其他场景中，也有同样的难题。AI商业化为什么难？上有芯片等高利润、标准化产品提供商，下有掌握场景、议价权强势的客户和合作伙伴，AI公司在中间，人力成本昂贵、项目交付辛苦、议价权却不高，很容易做成“大外包”——商业模式始终是AI的困局。

头部AI公司最喜欢的是这样的机会：有难度、难度大、但是能做到，而且标准化程度较高。而现实是：往往要么过难无法做到，要么难度没有高到只有头部AI公司才能做到，要么需要定制开发。

AI要跑通商业模式，必须找到一个巧妙的平衡地带——“大模型”就是在这样的背景下火起来的。

回顾2021年，我们不难看到，头部AI公司陆续推出大模型、大装置。大模型动辄千亿万亿的参数量，让大部分公司望而却步，成为了头部AI企业的专属。

利用最新技术的成本不断上升，可能会将创新留给最大的公司和租赁工具和算力的公司，从而减缓创新的步伐。

AI模型规模越做越大，训练成本高居不下，小公司即使想用也往往有心无力。我们不禁要问：未来的AI创新真的只能靠巨头了吗？

当只有少数几个地方才能研究这些大模型的内部结构时，出现创造性新成果的几率一定会大大降低。

专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说：在十年前，他的实验室有足够的计算资源来探索任何项目，一个努力工作的博士生就可能会做出最先进的工作，而现在，这个窗口已经关闭了。

小数据，大魅力

在接受IEEE Spectrum的采访中，吴恩达探讨了人工智能领域下一个十年的风向，并提出了是时候从大数据转向小数据、优质数据的观点。

关于小数据，吴恩达认为，「它同样能够有威力，只要拥有50个好数据（examples），就足以向神经网络解释你想让它学习什么。」

吴恩达表示，「过去十年，代码——神经网络的架构已经非常成熟。保持神经网络架构固定，寻找改进数据的方法，才会更有效率。」

以数据为中心的AI是一个系统的学科，旨在将关注点放在构建AI系统所需的数据上。对于AI系统来说，你必须用代码实现一些算法，然后在数据集上进行训练。

过去十年里，人们一直在遵循「下载数据集，改进代码」这一范式。多亏了这种范式，深度学习获得了巨大的成功。而目前，对于许多实际应用来说，现在更有效的方法是固定神经网络架构，找到改进数据的方法。

深度学习和符号处理融合

2021 年底，Facebook 团队（现在是 Meta）发起了一场名为「NetHack 挑战」的大型比赛，这一事件给我们敲响了警钟。《NetHack》是早前游戏《Rogue》的延伸，也是《塞尔达传说》的前身，是一款发行于 1987 年的单人地下城探索游戏。游戏图像在原始版本中是纯 ASCII 字符，不需要 3D 感知。与《塞尔达传说旷野之息》不同，这款游戏没有复杂的物理机制需要理解。玩家选择一个角色（如骑士、巫师或考古学家），然后去探索地牢，收集物品并杀死怪物以寻找 Yendor 护身符。2020 年提出的挑战是让 AI 玩好游戏。

在许多人看来，深度学习已经掌握了从 Pong 到 Breakout 所有内容，游戏 NetHack 对它来说应该也很容易。但在 12 月的一场比赛中，一个纯基于符号处理的系统以 3 比 1 的比分击败了最好的深度学习系统——这令人震惊。

MetaAI 的一位研究者认为，Marcus 举的 NetHack 的例子不太恰当，因为这只是 NeurIPS 大会上一个比较有趣的竞赛，放在这里当论据有些薄弱

最终胜者为：《NetHack》——没错，符号 AI 能轻易打通的游戏，却着实给深度学习当头一棒。

符号处理 AI 怎么就逆袭成功了？我怀疑答案在于这游戏每次重开都会生成新的地城结构，所以深度学习根本记不住游戏版面。要想获胜，AI 就必须真正理解游戏中各实体的含义和彼此之间的抽象关系。所以，AI 需要推理自己在这个复杂的环境中能做什么、不能做什么。特定的移动顺序（比如向左、向前、再向右）就太肤浅了，每项操作都得跟新的情境结合起来。深度学习系统最擅长的就是在之前见过的示例间进行插值，但遇到新鲜事物就容易拉胯。

这种“以弱胜强”绝非偶然，背后一定有着值得深思的理由。

那“处理符号”到底是什么意思？其实这里包含两层含义：

用一组符号（本质上代表事物的模式）来表达信息
以一种特定的代数（也可以叫逻辑或者计算机程序）方式处理（或者叫操纵）符号

什么是符号？它们其实是一些代码。符号提供了一种原则性的推断机制：符合规定的、可以普遍应用的代数程序，与已知的例子没有任何相似之处。它们（目前）仍然是人工处理知识、在新情况下稳健地处理抽象的最佳方式。在 ASCII 码中，二进制数 01000001 代表（是符号）字母 A，二进制数 01000010 代表字母 B，依此类推。

混合人工智能（而不仅仅是深度学习或符号处理）似乎是最好的前进方向：

世界上的许多知识，从历史到技术，目前主要以符号形式出现。试图在没有这些知识的情况下构建 AGI（Artificial General Intelligence），而不是像纯粹的深度学习那样从头开始重新学习所有东西，这似乎是一种过度而鲁莽的负担
即使在像算术这样有序的领域中，深度学习本身也在继续挣扎，混合系统可能比任何一个系统都具有更大的潜力
在计算基本方面，符号仍然远远超过当前的神经网络

更有能力通过复杂的场景进行推理，可以更系统、更可靠地进行算术等基本运算
更好地精确表示部分和整体之间的关系
它们在表示和查询大型数据库的能力方面更加鲁棒和灵活

符号也更有利于形式验证技术，这对于安全的某些方面至关重要，并且在现代微处理器的设计中无处不在
将深度学习的学习能力与符号明确、语义丰富性联系起来的混合体可能具有变革性

深度学习系统是黑盒子，我们可以查看其输入和输出，但我们在研究其内部运作时遇到了很多麻烦，我们不能确切了解为什么模型会做出这种决定，而且如果模型给出错误的答案，我们通常不知道该怎么处理（除了收集更多数据）。这使得深度学习笨拙且难以解释，并且在许多方面不适合与人类一起进行增强认知

将神经和符号结合在一起的探索一直都没有停止，而且正在积聚力量：

Artur Garcez 和 Luis Lamb 在 2009 年为混合模型写了一篇文章，叫做神经符号认知推理 (Neural-Symbolic Cognitive Reasoning)。最近在棋类游戏(围棋、国际象棋等) 方面取得的一些著名成果都是混合模型
AlphaGo 使用符号树搜索(symbolic-tree search) ，这是 20 世纪 50 年代末的一个想法(并在 20 世纪 90 年代得到了更加丰富的统计基础) ，与深度学习并行
DeepMind 的 AlphaFold2 也是一个混合模型，它利用核苷酸来预测蛋白质的结构。这个模型将一些精心构建的代表分子的三维物理结构的符号方法，与深度学习的可怕的数据搜索能力结合在一起
像 Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 这样的研究人员现在也正朝着神经符号的方向发展
包括 IBM、英特尔、谷歌、 Facebook 和微软在内的众多公司已经开始认真投资神经符号方法
Swarat Chaudhuri 和他的同事们正在研究一个叫做「神经符号编程(neurosymbolic programming)」的领域，