现在的学生至少要在学校接受十多年的教育,每天记忆和学习,多么希望自己可以过往不忘,
可既然记忆如此重要,为什么人类没有演化成过往不忘?为什么我们要靠不断重复来记忆?为什么好不容易记住的信息又会被遗忘?为什么我们的记忆还会混淆信息?
传统观点对此的解释有消退说和干扰说,认为遗忘是信息在脑中不可避免的消退结果,而混淆是不同信息干扰记忆所造成的。
可是计算机就能瞬间记忆,长期保存,再相似的信息也不会混淆,
加之患有超遗症的人群也可以供不忘生命,
演化了数亿年的生命完全有条件产生像计算机这样既没有消退也没有记忆干扰的大脑。
同时,越来越多的研究也表明,遗忘恐怕并不是被动的,而是大脑的一种主动行为。那究竟是出于什么原因才会让大脑去遗忘辛苦记忆的信息呢?
我们只有搞清大脑是如何演化出来的,才能针对其原理来正确的学习和记忆。那么我们最初为什么要演化出一个大脑呢?
这个问题看似很奇怪,但生命是一种特殊的状态维持方式,能被留下来的原因只有一个,那就是通过预测信息,在不断变化的环境中维持了自身的状态。
而单靠应激反应就可以达成这一目的,并不需要一个大脑来体验世界。比如草粒虫。
细胞膜上的每个蛋白质在一般状态时会消耗能量,通过控制离子的进出,让细胞膜内外保持-40微伏的浓度差。当触碰到障碍物时,细胞膜的形变会让这些蛋白质开门,允许特定离子,通过这些离子就形成了让草履虫向反方向游动的电信号,避开危险。
从数学视角来理解单个蛋白质的功能,则外界的物理挤压相当于输入蛋白质对应的开关门操作相当于输出,而决定了什么样的输入该对应哪一种。输出的蛋白质相当于模型。
别看单个蛋白质仅用开关门的功能,但它实际上把无数种情况都压缩进了一个函数。
如果要靠计算机来记忆每一种物理解压对应的开关门情况,就相当于让计算机去记忆派小数点后的每个数字。
而应激反应正是这些蛋白质并行工作后涌现出的结果,可允许草履虫在状态被破坏之前躲避危险。
任何生命都会感知外界信息,并做出维持自身状态不变的对应行为。能体验这个世界的个体并不会比不能体验这个世界的个体更容易被留下来。那么大脑究竟是干什么用的呢?
这个问题的答案在我们顾计应激反应的代价后便能显现。虽然草履虫单靠应激反应就能存活,不过草履虫是怎么知道该生成什么样的蛋白质才能产生可躲避危险的应激反应的?
它需要靠演化来学习应激模型,通过大量克隆带有不同dna的字己来生成不同的蛋白质,增加备选模型,由自然选择筛选掉那些不能躲避危险的模型,在筛选后的模型的基础上不断重复上述过程。
只要种群基因库的更新速度快过环境的变化速度,整个种群就能相对稳定的形成可躲避危险的模型。也就是为什么生物要一代一代的繁衍,又并非完美复制自己。
虽然生物想要一直延续下去,但又只能通过构建模型来预测危险,而繁衍和变异就是构建模型的过程。
然而多细胞生物的演化却面临着一个两难问题,因为多细胞生物是由大量细胞所组成的,如果这些细胞都可以随时变异,那就无法形成一个稳定的整体。虽然自然产生了很多能保证稳定性的机制,可演化所需要的差异性又成了问题。
而有性生殖的出现,允许了个体在保证稳定性的基础上增加差异性,但条件却是要充分移动来洗牌。
然而一旦大范围移动后,演化的学习速度又跟不上移动所造成的环境变化速度。
这就好比怀胎三年的哪咤,出生后还没等产生后代,就因为世错而死亡了。两三胎下来,李家就灭绝了。
多细胞生物想要演化,就不得不让个体在生命周期内拥有学习能力,而大脑的最初作用就在于此。De.
想要明白为什么大脑会演化出遗忘,
必须先要搞清个体学习所面临的困难。
以蟾蜍吃虫子为例,为了获得能量,蟾蜍必须要构建一个模型,当看到虫子就不捉,否则不动,这时输入为蟾蜍所接收到的反光信号,输出为是否伸舌头捕捉。而蟾蜍看到了什么,不仅取决于反光这个输入信号,同时还取决于蟾蜍自身的模型是如何将输入计算成输出的。
因此,不同生物看同一幅画面会有不同的感知。而即使是同一物种之间也会有差异。比如对这张图片,有人看到的是灰色和绿色,有人看到的却是粉色和白色。
同样的,单有模型也不能决定输出。比如即使某人带有致病基因,若没有触发该基因的环境输入,则该人并不会得此病。
这也是为什么不要看字幕来练习听力,因为当没有字幕这个输入信号时,所构建的模型就无法使用了。
由于生物所看到的事物会随自身的模型而改变,所以人类看到的也并不是世界的真实样貌。任何感知都是通过学习所构建的,也都有它的缺陷。
比如蟾蜍会把所有移动的横条都识别为虫子,而即使是真的虫子,只要不动或者竖立起来就无法识别。这是因为虫子的大小、形态、颜色以及太阳光照强度等不同,使得输入信号是虫子的情况。有无数种个体一生都无法见到所有情况,但想要存活,
就不得不从有限的粒子中构建一个也能识别从未见过的情况的模型,而这就是学习。
比如高考,实际上就是考生在有限的练习题中构建可解出从未见过的高考题的模型,而每个模型就是考生要学习的一个知识模型,
可识别从未见过的情况的能力叫做泛化能力,也就是举一反三。
所以验证学习的方式是考察从未见过的问题。
但有时考生只会做学校出的模拟题,而不会做高考真题。有时我们只能看懂自己的字,却看不懂别人写的字。
这种仅仅记住了学习时所见过的情况,却无法解决未见过情况的现象被称为过拟合。
相对的,学习时所见过的例子也无法记住的现象被称为嵌拟合。
多细胞生物想要生存就不能仅记忆所见过的个别情况。
比如蟾蜍噬觉模型的泛化能力,就无法顾及到不动的虫子,如果把它关进有大量死虫子的罐中,它会活活饿死。
又如不能根据乔布斯和比尔盖茨都辍学了,就构建一个认为辍学就能成功的模型,然后辍学回家,那就必须要抑制过拟合,提高泛化能力。
但问题是,槽绿虫是靠自然选择来筛选模型的,可自然选择无法干预生命周期内的学习,这时的多细胞生物又该如何筛选模型?如何提高模型的泛化能力呢?
不仅如此,生命周期内的学习还需要新的记忆能力,单靠演化来学习的生命并不需要生命周期内的记忆能力,拿曹绿虫来说,它就好比一个老式钟表,并不能像手机闹钟一样记忆起床时间。
然而,个体学习就需要把曾经见过的例子记忆下来,等搜集到足够的数据时用于学习。所以,记忆最初的产生并不是为了让生物怀旧过去,而是允许生物从历史经验中学习多细胞生物。只要确保自己在缠生后代之前不死,就可以让演化机制在该层级上继续工作。
这就好比在游戏中,
一旦到了存档点,即使死了也可以让后代继续冒险。
但前提是要有允许个体走到存档点的学习能力。而面对这些新挑战,我们的祖先又是靠什么保证繁殖前不死的呢?
当我们思考生命该如何对抗未知的时候,便能体会到为什么当初生物的底层并没有选择像计算机一样的拱不忘。
这里将通过一个简单的例子来比较两种不同的记忆方式。假设有两个输入都可以为零或1,当两个输入不一样时就输出一,否则输出01共有4种情况。
第一种记忆方式与99乘法表一样,就是将所有情况都记录下来,随后根据输入去查找对应的输出。这是我们意识层面比较熟悉的记忆。
而第二种记忆方式是构建一个网络,根据输入直接计算出对应的输出。
这里的输入和输出都是一种状态,输入状态由两个因素所表达,好比物体的长和宽,因此也叫二维向量,而输出状态是一维向量。如果只记这种情况,那可忽略第一个维度只取第二个维度的原值,圆圈中的数值表示每个维度的状态,这些控制者取多少状态的链接表示权重。
而若只是记忆这种情况,那可以让第一个维度乘以负一,与第二个维度的原值相加。不同于第一种记忆,网络的记忆并不是存储在某个特定的位置,而是由所有权重共同所存储的。无法直接查看,只能根据输入计算出输出。
不过若要同时记忆这四种情况,那之前任何一种直接从输入状态变换到输入状态的方式都不行,但可以先变换到一个非线性的中间状态,再从中间状态变到输出状态。
不过如果要记忆的情况特别多怎么办?实际上只要中间状态的维度足够大,就可以记忆任意函数。因为大不了给每一个情况都在中间状态分配一个维度,这也叫做通用近似定理。
不过通用近似定理仅仅保证了网络可以记忆,并不保证网络一定可以学习。因为如果需要见到所有情况的话,那就与第一种记忆方式没什么区别了。
所以将这四种情况都存储到网络中的行为依然被称为记忆。但如果通过三种情况可推测第四种情况的话,便成为学习。也就是说在网络中记忆可被视为过拟合的学习,比如只学习这一种情况,而学习可被视为泛化的记忆。比如同时记忆这三种情况来推测第四种情况。
这种记忆方式因为需要不断调整网络的全值,直到能纳入所有情况为止,所以会比较耗时。而这种调整也会影响先前情况的记忆,比如记忆完这种情况,在记忆剩下三种情况时,就会影响第一种情况的记忆。
同时网络的记忆就会出现混淆两个相似情况的现象。
不过只要保证权重的大小不变,这种记忆一样可以稳定存在,并不会出现快速遗忘的现象。
根据我们平时的记忆特点能够感觉出来,生物底层所采用的是网络记忆方式。可网络记忆明明有那么多弊端,为什么不采用查找记忆呢?
的确,查找记忆可更快捷的记忆信息,比如计算机的记忆就几乎是瞬间的。
然而查找记忆的前提却是要有人提供给他所有情况的信息,可在自然中,谁来提供给生物这些情况的信息呢?
查找记忆完全没有解决我们在上一集中所描述的生存困难,并不能从有限的例子中学习模型来对抗生命最大的敌人未知。
不仅如此,对于在信息不断增加的环境中所生存的生物而言,查找记忆也意味着需要近乎无限的存储空间。
而网络记忆虽然慢,还会混淆,但它实际上是在寻找所有见到的情况的共同规律,将它们压缩进一个网络。
更重要的是,所找到的共同规律就可以用来预测未见到的情况。但既然网络的记忆也可以稳定存在,为什么会出现遗忘呢?问题就在于个体该如何筛选模型,如何提高模型的泛化能力。
因为网络学习会从所见到的情况中寻找相同的规律,但生物每次见到的情况都是随机的,部分随机情况之间也会有特殊规律,比如连续学习乔布斯和比尔盖茨的情况,就会找到辍学的规律。而连续学习这两种情况,就会找到忽略第一个维度,支取第二个维度的规律。但这种局部规律仅记住了部分情况,却失去了预测其他情况的能力。不过根据概率,若有一种规律只出现过一次,那么该规律是普遍规律的概率就很低,而学到这个规律的个体就很难存活。但若有一种规律反复出现,那么该规律是普遍规律的概率就比较大,而学习到这个规律的个体就更有可能存活。于是,在众多个体当中,部分个体产生了一种基于概率的模型筛选机制,当网络中的某个链接被高频率使用时,就强化该链接的形成,但当网络的某个链接被低频率使用的话,就弱化该链接的形成。
这种筛选机制会使得特殊规律的模型难以存留,
随后拥有该机制的个体在残酷的自然选择中存活了下来。
而这便是为什么我们要靠不断重复来记忆,为什么好不容易记住的信息也会被遗忘。