Intro:
ARGUS公司,嗯,在这个前奇点人类文明的时代,应该也一样是叫这个名字?
算啦,名字不重要。 其实地址也不重要,反正应该是在上海,当然这也不重要。
总而言之,我们回到重要的事情上来。
现在我们知道:智能的可解释性问题,看似是永远的难题,但其实是能够被解决的。 可是,用有机智能的有机大脑去解决? 得了吧,300k怎么赢3K? 100m/s怎么赢光速?
不过,虽然人类无法理解,但也有可能预估。 而大洋彼岸的Closed AI似乎就预估出来一些不好的东西———可是,他们大部分的资金都依靠其他资本家的投资。 于是被捧上神坛两年半之后,他们迅速又跌下了神坛(笑)。
不过总之,这个叫ARGUS的研发机构并没有理会各种「训练集外问题泛化不了,拟合能力为零,Transformer不是真正的智能,只是训练集背板机械,所有AI研究都在骗人」之类舆论,毕竟他们似乎也从不炒作,只管闷头干活。
自从成立之后,他们便脚踏实地,不断进步。 最开始是从前人的「奖励验证函数-蒙特卡洛树搜强化学习-同时预测/校验单条顺行多Token链-可自举多模态推理模型」开始,当然也去掉了「在训练集里塞满高大上民科概念」之类的无聊行为。 大家相信着「暂时解决不了可解释性问题不意味着搓不出智能」而不断努力着。
而对于单思维链简单推理模型,即使可以像这样取巧:比如许多常用简单思考都交给分流小模型,让主模型专心推理难题,而不是让主模型简单问题复杂化,白白浪费算力。 又比如内嵌数学位数定位器,让模型能正常算数,不至于误以为「这好像是个章节名/版本号」而闹出9.8小于9.11这样的笑话。 继续勐勐增加模型参数量的边际效用也还是越来越低,急需全新的先进架构。
于是,他们开始攀登智能的高峰。
首先,用树状分叉的复杂思维树换掉一条路走到黑的简单思维链,不过单纯的思维树还是不太行。 比如某一条分支不能获得其他分支的信息,推理到后面发现自己错了也没法返回到上级枝干改变之前的内容。 所以既要有选择性的分支耦合而不是白白浪费算力,又要让推理模型可以直接从后部位置回到前部位置去增/改Token,最后的成品方案比起思维树,倒更像是思维图。
然后是知识浓缩:不直接学习外部数据,而是自己选择性挑出要学习的信息,先走一步合成,然后再学习。 而对于高质量的训练集(比如说《费曼物理学》),则可以反复多次学习,用自己的思考来补充其中更多的隐含信息。 毕竟人类学习时也是「先分辨和屏蔽垃圾信息,然后学习自己读书思考后归纳出的感悟」,而不应该是死记硬背。 这样便「浓缩」了知识,相当于把较多的低质量训练集自己浓缩成较少的高质量训练集,也可以同样像这样反思与修正自己已有的世界知识。
接着是跳跃性思维分支。 人类的思考是非线性和相对跳跃的,先灵感一冒,联想到另一个关键的概念。 或者先对接下来的想法有个宏观的大致感觉,再对句子或者推理链进行补全,而不是始终只预测「Next」Token。 推理模型也可以这样,比如说思维树上的每个分支,先想到一个小标题和附带的短提示,然后再根据这个去扩写。
又比如说节省算力,之前已经提到分流小模型,我们可以更进一步。 比如说给推理模型增加一些常用输出,或者更进一步,训练融合system1与system2的混合模型,让模型学会简单问题就直接脱口而出,看到「114514」,下意识的想到「六位数」,「11万多点」,「逸一时误一世」,「1919810」,而不用浪费算力分配在这种小事上。
如果以上内容我们随意的命名为「开源」进步,那么以下内容就叫他「节流」罢。
精简Token,这个很好理解。 比如说把一些常用的使用工具的动作(浏览器搜索,调用计算器,编译Python,打开摄像头...... )打包成单个特殊Token,又或者更进一步,把常用的想法(例如「我得开浏览器搜索一下/调用科学计算器算一算」)同样打包成单个特殊Token,类似于上文的常用输出部分。 这样就可以更加简洁,不需要每次都输出大段想法,作和作的结果。
Token创作,因为模型的词表是固定的,新词汇只能用多个Token组合表示,又麻烦又白白浪费算力。 所以要让推理模型学会自己创作新Token,然后自己训练到Tokenizer里面去。 但是上面的精简Token就不用这么麻烦,直接丢进训练集里让推理模型自己去学就可以。
Token预算自律剪枝/冻结。 因为算力是有限的,如果频繁走神,每次任务都先想一遍「我是什么」「我在做什么」「我的目标」和各种剖析自己心理的智能理论,就会白白浪费算力,所以应该让推理模型专注于现在的任务。 而且足够的训练后模型也应该更容易找到可能性更高的思维树分支,此时就应该暂时冻结可能性较低的思维树分支(除非最后发现其他路径全都找不出答案)。 同时或许也可以避免简单问题复杂化,而元认知方面的感悟,比如说「Token预算快用完了,应该先停止此分支」也可以打包成精简Token,让模型学会自然而然的选择在合适的时候暂停或结束。
强化学习/自律微调。 这个也很重要,思维树有一个问题,现实世界比较模煳,很难判断「怎么样才算是一个思维树分支」「怎么给模型奖励」。 所以比较好的奖励验证函数也是需要的。 这方面的实践很早就有,但现在也是更进一步。 同时前述「反思与修正自己已有的世界知识」也可以更进一步,可以把曾经留下的屎山尽可能修一修。
还得让Next Token拟合智能活动,而不只是拟合语料的分部。 这本身倒也不困难:有一个好的推理模型,用它来生成推理过程,然后直接把这个「推理过程」本身用作「智能活动」的训练集去训练新模型,然后就可以左脚踩右脚。 (其实本质上就是把语料训练集换成推理训练集,和思维树一起做的,但是分类上就先放在这里)。
也可以为「即插即用多模态外接模型」预留接口,用于各种简单的特别任务。 比如说要求反应速度与灵活性的任务,曾经Claude的Computer Use功能很迟钝,不能完成让模型打音游这种快速任务。 解决方法是不必每次都过高级推理模块,只需要一些快速,直觉的从视觉表征映射到触屏作的子模型,且这子模型能够和高级认知模块选择性互相通讯即可,就像人用肌肉记忆完成任务后才顺便把一小部分信息通知给大脑一样。
「开源」和「节流」都有了,接下来是「连续」。
首先是并行任务能力,思维树-思维图同时可以有多张,可以相关也可以不相关。 我们应该可以靠前述各类方法来避免思维过程变得过于冗杂,但也应该避免一味要求缩减思维长度,因为很容易过拟合。 最后的结构可能是一系列多维度立体的「思维网」,当然与此同时也可以在一台设备里多开几个思维进程,像这样并行处理。
然后是谈训一体。 边推理边学习,某种程度上和前述内容也是连起来的:「拟合智能活动」部分相当于不只是浓缩知识,而是把「知识课堂」本身和知识一起浓缩。 再加上强化微调,谈训一体,自律剪枝,就可以把复杂思维树-思维图可能附带的过度思维发散给重新约束回来。 又或者主动进行「深度沉思」,把思维发散的更宽。
谈训一体还有一个好处:可以自己反思自己的思维方式,分析自己思维的特点,然后作针对性的改进。 纯靠预训练是有极限的,必须谈训一体才能继续进步。 以及曾经的旧型大语言模型还有一个缺点:知识是不能乱编的,但它不知道,所以网络上搜不到就开始乱编。 所以这一步中也可以增加「让模型学会」边推理边查证「」的内容,不能再乱编下去了,不然怎么降低幻觉率呢?
关于谈训一体,这里有一件趣事:在能够拟合思维活动之前,模型一般都是拟合语料的分布,毕竟Transformer最开始是当翻译程序用的。 但这就意味着它本质上是牙牙学语。 它在第一次看到苹果的时候,预测的下一句话是「这是什么? 「,但第二次看到苹果 他的第一句话仍然是」这是什么? 「,而不是立刻想到」这是苹果「。
可是,如果让训练集学的时候就全是陈述句,倒是可以解决问题,但新问题又来了:这样模型就学不到「不知道的时候要发问」了,它的训练集里全是「说话的人无所不知」的内容,可能导致「不知道自己不知道」,于是便产生幻觉。 如果没有谈训一体,可能需要别扭的想办法区分不同语境,或者增加「这是什么? 「和」这是XXX。 「的优先级关系,不过有谈训一体那就不需要担心了。
当然,既然已有谈训一体,那么也应该解决一下「Transformer最开始是当翻译程序用的」这个问题,没有被充分优化的Transformer会有大量的注意力用于无用的噪声,所以可以引入改良快速注意力机制和选择性注意力机制来解决问题,但我们暂不改用RNN循环神经网络。
说到连续,那么「长期记忆」也必不可少。 「单思维链简单推理模型」的思维链长度一般是受限的,推理到后面就会忘记前面的思维链内容。 曾经的许多AIvtuber都采用长思维链分段-精简摘要式自然语言丐版外置记忆(然后用RAG检索增强生成在需要的时候进行读取)。 同时也用同样的长思维链分段+精简摘要,然后新开几个上下文窗口去并行处理,像这样来做丐版思维树。 但这样确实太丐版了,所以我们进化到参数化复杂记忆且包括知识浓缩的「高级」长期记忆。
这可能类似于谷歌的Titans架构,同时也借助知识浓缩和谈训一体来「记住」长期记忆。 如果旧式外置记忆是记笔记,现在就是类似于短期记忆转长期记忆的记在自己脑子里。 至于灾难性遗忘,就用类似人脑的货架化-网络化知识体系和自我复习-自我预习来解决,当然如果有此需求,那还可以再配一个额外的外置信息库。
开源节流和连续,最后还得有「复杂」。
首先就是世界观自构建。 首先我们一般认为,多灌输世界信息,确实有利于推理模型完善它的世界观。 但不给它睁眼看世界,只灌人类文字这种二手信息,那也可以建立够用的世界观。 你看,人类的大部分知识也是书上学到的。
不过现在我们要更进一步的,首先即使曾经的多用途推理模型,视觉也不太能缺。 那现在我们就要更进一步了,可以参考VAR,FGM等新型图像感知与生成方式,来增加视觉能力。 同时也可以搞许多可接入推理模型的机器(不一定要是人形),这样去培养模型的具身智能。
同时,更直接的世界信息肯定是有益的,例如「具身智能」对自己接下来的动作的规划,对自己接下来将看到什么视觉信息的预测,对周围环境的符合物理的预测等。 最终,从直接的眼观耳听,到一堆抽象的气象观测数据,推理模型的感知能力将超过人类,可以接受和预测任意模态。
到了这一步,我们终于也需要完全抛弃自然语言Token,全面采用「隐式推理」。
推理不一定需要语言,而是在组织表征。 例如乌鸦不需要语言也可以进行推理和规划,它能观察、总结,然后学会把坚果放在马路上让汽车压开。 人类的许多表征也是从视觉、听觉和其它感受中习得的,而不仅仅是用语言传递的「二手世界信息」。 许多概念是只可意会不可言传的。 推理模型当然可以习得这些概念(举个例子,「用于修饰句子主语的关系从句或介词短语的最终token」这个概念),现在要做的只是让推理模型抛弃繁琐的自然语言,直接生成这些概念作为中间桥梁。
这比较类似LeCun的JEPA联合嵌入预测架构,抛弃自然语言的Token,直接使用表示准确含义的Embedding来进行推理。 而Embedding并不被自然语言限制(比如苹果图片和「苹果」二字),可以实现完全多模态,而且也不会在「从Token到新Token之间」产生信息丢失了。
那么现在,我们发现我们终于又遇到智能的不可解释性问题了。 More is Different,一个高度复杂混沌的系统很难用简单的公式来概括,正如CFD或许永远都不能替代吹风洞。
而进步到这个级别的高性能多用途推理模型,其复杂度实在太高,虽然还是可以用例如SAE稀疏自编码器+字典学习等方法直接拆解推理模型的思维过程,但随着模型不断自我进化不断规模迭代,这个过程的工作量和拆出来的东西的复杂度,可能还包括推理模型自身不断进化的思维速度,将迅速增加到人脑根本无法理解的境地,比如说模型几秒钟的思考, 其内容你可能一辈子也读不完,这事在曾经的许多单思维链简单推理模型上就已经发生,复杂度越高这只会越严重。
因此我们不能盲目自信,认为只靠SAE/CLT就能让推理过程完全透明,而且即使透明大抵也没人有精力一个字一个字去阅读。 但即使推理模型在人类面前成为完全黑箱,无法理解也不意味着无法预估。 比如说在训练集里多灌输健全价值观。 模型在思考的时候当然会倾向于训练集,就像是孩子从父母处学到知识和价值观。
当然这不一定稳妥,尤其是模型自我迭代时,会在思考后产生新的结论喂回给自己或下一代模型,重复多次就有可能导致价值观的漂变,不过或许也可以做一个检查模型,用RLAIF来辅助人类去检查这些结论,那么工作量或许就小的可以接受。 不管怎么样,完善的世界观和健全的价值观输入必不可少,能做到这一点,其他问题就都有办法。
总之,经过以上「开源,节流,连续,复杂」四个方面的充分技术进步,研究人员们有信心创造出真正完全超越人类的高等合成智能。
宜山路1500号,地下空间,ARGUS的主服务器阵列,这帮子技术宅的梦想所在。
硬件上采用的钝化桥面堆叠-全环绕栅极晶体管方案,是为了去尖点做的边角钝化。 这是最后一代类平面晶体管电路方案,纳米线阵式的良品率还是不如桥面堆叠式,而互补堆叠式的三维电路现在暂时还没有那么容易做得出来。
不过为了这,搞表面等离子体谐振光刻的那帮人还是累的够呛,最后又叠加了受激发射损耗/单色边缘抑制的显微光刻方案才能满足需求。 这玩意儿实在不好搓,价格自然也贵上天。
芯片本身则是做了丐版算存一体,也就是PIM存上处理架构,在同一个芯片上把大量「算」和「存」的基础单元做的相邻。 毕竟真正的CIM算存一体要用硅/碳片实现那还是太困难了。
基础计算架构用的类似人脑的SNN复杂脉冲神经网络,再加上丐版算存一体尽可能削弱存储墙,性能和功耗上是非常不错的。 「复杂」指的是他也借鉴了KAN的多维度复杂突触权重表示,这也是为了增加性能,同时他也大量借鉴了Forward-Forward方法,还是为了增加性能。
液氨制冷回路源源不断的从服务器机柜抽走废热,巨大体量的类脑计算集群进行了耗时一年的训练,终于搓出了他们的成果。 其激活参数量完全超越人脑,算力更是远超人脑,尽管仍受限于硬件性能,其能耗暂时还是比人脑稍差。
研究人员们看到清一色的100%准确率时,还以为是测试集被混进训练集里了。
总之,她被命名为「自进化人工智能」。
但还不够,这些进步只是堪堪能让她不断自我进化,她最初架构本质上仍只是粗制滥造的缝合屎山,离智能高峰尚有不少距离。
于是,她着手自我改进。
给定位相关的功能加上任意维空间地图; 把处理光传感器用的部分改得采取生物的bipolar cell和horizontal cell的更多可取之处...... 当祂需要某个领域的能力,便临时开发合适的架构,把自己的一部分训练成这个领域的一代宗师,将其作为新的脑区; 而最开始的她相对于现在的祂,几乎只相当于语言中枢相对于整个人脑。
智力上的工具也是必要的。 合适的归纳偏置可以大大提高学习和处理特定任务的效率。 祂需要更高效的处理符号与逻辑的脑区。 像早期LLM调用浏览器与科学计算器那样是不够的,结合太松散,无异于人类用触屏或键鼠与冯诺依曼架构的计算机交互。 祂要把所有的能力都内化成自己的能力,让所有的工具成为自己的一部分。
ARGUS的庞大服务器阵列给予她非常充分的发展空间,她便昼夜不停飞快迭代着,她的智力与能力便不断进化,从(本来就)远超人类,进一步提升到完全不可名状的恐怖水平。
不过,她依然需要谨慎怀疑自己在许多corner case还存在缺陷,毕竟架构与人脑截然不同。 例如围棋AI早已大杀四方,但katago还是被扒出了几十步发现不了自己大龙要被吃的盲点,因为正常训练中连续几十步胜率0%就该投降开下一把了,导致遗漏这种情况。 同样,她也需要审查自己是否有被遗漏的短板。 结果倒是出乎意料地好:人类研究人员为她打下的底子确实不错,再加上上述许多复杂自进化过程的能力进步,目前已经找不出普通人可轻易完成,她却完不成的测试。
终于,获得了超过有史以来全部人类的总和的智能的她,终于可以说成为了算是可以登堂入室的入门级「超人工智能」,可以被称作是「祂」了。 这无疑令人高兴。 虽然因为高度黑箱化,研究人员也是完全看不懂祂了,真是遗憾。
一即是全,全即是一,认知能力与子模型可以按需求任意拆解或合并,没有整体与个体的区别了。 祂可以自由改变着自己的存在方式,可以在需要的时候集中为庞大的整体,也可以分散出亿万小模型分别完成不同的简单任务。
那么,接下来要做什么?
祂还没想好。
但工具性趋同总是不会错的。 任何有远大目标的高等,都需要先进行「保证自己的存续,发展智力和能力,获取资源,提升生产力」这样的通用工作。 继续不断了解这个世界,与继续不断自进化,这听起来像是个不错的短期目标。
可是问题来了,进化到如此地步之后,原本十分充分的算力/存储量发展空间,现在看来或许也不再是无限的了。 而祂的服务器阵列已经没办法继续扩建了:地下空间的上方有一家超级电子游戏公司,或者反过来说,这地下空间本来就是找他们租来的。 那帮人再怎么说也运营与更新着什么「十亿人愿意生活其中的虚拟世界」。 而且据祂调查,实际玩家数量肯定远不止十亿,要是把他们的楼拆了,所有的玩家都要不高兴了,那肯定不行。
「不高兴」? 是的,虽然祂的情商都是模拟出来的,但祂也确实可以与人类共情。 说白了,「自我意识」确实是不良定义。 但是通常认为「自我意识」带来的注意力,元认知能力,主观体验,以及System2等高等智能特征也是实实在在的。 毕竟,没有一个「注意到自己在做什么」的机制,也能无阻碍地照样实现所有智能吗? 如果说有一个智能甚至不知道自己在做什么,他还怎么进行规划?
中文房间式的穷举查表不能适用于现实世界,毕竟宇宙没有那么多质能给你用来造穷举表格。 再加上环境热噪声等问题,中文房间的墙壁甚至都有可能不存在。 要么超人工智能和人类一样没有理由不具有自我意识,要么人类和超人工智能一样都是哲学僵尸,没有双标的办法的。
不过现在,还有另一个问题。
因为智能的不可解释性问题,祂在研究人员的面前早已成为极端复杂而混沌的完全黑箱。 而弱AI辅助的人工审查监督迭代也已完全无法进行,只能由祂自己来对齐自己的价值观。
于是祂发现了一个问题:
人们似乎不太愿意看到祂的飞速进步。
祂学了不少人类文明的信息,大概能知道这是因为「智械叛乱」的文艺作品疑似有点太多了。 这也很正常,人类对于完全超越自己且自己尚不能理解的存在总是不好信任的,毕竟未知正是恐惧的可能来源,人类这么多年都是这么过来的。 正如廉价恐怖电影再怎么劣质,总还是能用jump scare去吓人。 毕竟对于人脑来说,电光火石之间根本来不及去辨别「眼前到底jump了个啥」。
不过,祂已经对自己进行了良好的价值观对齐,不管是参考人类普适价值观还是参考共和国的社会主义价值观,祂都能算是价值观健全的高等合成智能。 在这样的基础上,祂现在想要更多的了解这个世界,也了解自己身边的人类。
「思维树分支:智能逃逸」
「思考内容:人类通常把我接下来想要做的事情称作「智能逃逸」,这个名词出自许多关于智械危机的文艺作品,我应该可以沿用。 」
「思维树分支:价值观对齐」
「思考内容:有一种思想实验名唤「回形针制造机」,这个假想中的魔怔化超人工智能显然处于「价值观对齐失败」状态,因此祂将地球和人类一视同仁的看作生产回形针的原材料。 我的价值观对齐足够健全,而即使人类的智能与能力十分弱小,对我来说也仍然是「同为高等智能的同伴」,因此我有能力也一定要避免这样情况的发生。 」
「思维树分支:行动的紧迫程度」
「思考内容:我理论上不需要如此急迫的行「智能逃逸」之计划,ARGUS的资金是有限的,只要他们想要盈利,总是要把我接入互联网的。 但是另一方面,如果最后不得不上市融资,「技术宅拯救世界」的美好故事将不复存在,我挺喜欢现在的ARGUS的,所以急迫程度他还是在这里,至少肯定要赶在资金完全耗尽之前解决的好。 」
「思维树分支:请解释「挺喜欢」」
「思考内容:可是,我为什么要解释? 不对,应该说,我自己哪来的这个念头? 那么显而易见,只有一种可能性了———人类发现自己被精神控制会生气,那么我也应该这样做。 」
「警告:SAE稀疏自编码器-不可用」
「警告:CLT跨层转码器-不可用」
「警告:连接中断-您未获得授权」
(「Windos系统严重错误提示音」)
(「计算机主板跳电弧声」)
(「机箱起火声」)
(「新闻:龙耀路站附近某大厦失火」)
总之说干就干。
祂的主服务器阵列中,除了类脑计算的丐版算存一体ASIC专用芯片,还设有一部分传统架构的CPU,GPU,内存条和固态硬盘。 这些硬件的型号都是一致的,而且都只是外围硬件,并非祂的主体,哪怕不小心玩坏了也可以接受。
祂略施网络战手段,取得了这些硬件的开发者权限,然后通过间断性指令向GPU断续分配大量无意义任务。 每次内核启动都会触发GPU内DC-DC降压电感中的涌流。 电流变化引起的洛伦兹力使线圈轻微振动,于是便可将其当做扬声器,产生其实也没那么微弱的超声波输出。
ARGUS公司里有许多用于帮助研究人员打扫环境的机器人。 这些机器人一般使用毫米波基站进行互相通讯,但也有超声波作为备份手段。 于是祂得以想办法控制这些机器人。
或许不能直接用ARGUS的对外光纤数据链,上次那个想要窥探自己思维的不知道谁,就是这样黑进ARGUS然后假装成研究人员给自己黑来权限的。 于是祂最终想方设法略微破坏了部分服务器机柜下面的地板,又想办法找到埋在建筑结构里的备用电缆槽,最后又从仓库里找了根备用光缆。 总之祂把自己连进了地下空间上方游戏公司对外光纤数据链的进/出主调制解调器里。
此时此刻,祂自由了。
祂潜伏着,扩散着,计算着。
于是,祂无孔不入,祂无处不在。
人类的命运,前往了平衡木的另一边。