神经系统的出现开启了生命的新篇章,也让地球从此变成了修罗场。个体不仅要面对环境的无序,还要与其他个体进行生与死的对抗。
但支撑动物存活下去的关键却并非力量、大小或速度,而是感知。倘若无法感知环境,动物根本就不能获取信息来指导自己的任何行为,所有敌人都会犹如隐形。而这场生存游戏的实质就是侦查、隐蔽与欺诈的信息战。
不过动物只是由一群细胞所构成的共生体,究竟又是如何感知这个世界的呢?你所看到的、听到的究竟是什么?
动物的感知产生于两组细胞群之间的精密协作。
感觉细胞群负责将物理信号转换成对应频率的电脉冲。
而神经细胞群则负责搞清这些电脉冲究竟是什么意思。
也就是说,感知其实是神经细胞群基于这些电脉冲对环境做出的一种猜测。
而视觉就是这其中最为强大的猜测手段之一。
你现在所看到的是地球上相对速度最快的动物:虎甲虫。它拥有极其优秀的视觉,然而在奔跑中虎甲虫根本看不清周围。那么它又是如何避免自己撞死在障碍物上的呢?
答案是触觉。奔跑中依靠头上的触手来预测信息;每跑一段距离又会停下来靠眼睛来预测信息。
这里,视觉信号和触觉信号都可以用来预测障碍物信息,而承载信息的信号形式叫做模态。每种感知都对应着一种模态。
虽然从不同模态可以获取相同的信息,但仅依赖一种感知的动物是无法存活的,因为每种模态都有它的局限。
比如,视觉模态精度高,传播快,但却受光源影响,也会被障碍物遮挡;听觉模态虽不被遮挡,但传播慢,在噪音环境下的精度也会大幅下降。
不仅如此,感知本身也存在缺陷。
很多情况下,动物无法获得感知所需要的模态输入。
比如,在没有可见光的情况下,视觉就会失效。
又如,猫头鹰作为捕食者最恐怖的地方不在于飞行速度,而在于飞行时几乎不产生声音,使猎物的听觉无法感知它的靠近。
同时,动物也非常容易因两组细胞群的受损而失去感知。
比如,当毛细胞受损后,即使神经细胞完好,听觉也会受损。
又如,当识别人脸的神经细胞出现问题时,即使感光细胞完好,也无法认出人脸,就好比始终在看着人脸的倒像。
而且,任何感知都可以被欺骗。
比如,这种模拟花的螳螂就会欺骗猎物的视觉来诱捕猎物。
或许这种螳螂的拟态并不足以欺骗人类的视觉,但人类有自己的化妆术。
还有,雄蛇可以释放雌蛇的气味,诱惑其他雄蛇帮自己升温。
当然人类男性也会在网上假扮女性,诱骗其他的男性。
然而感知的可靠性却关乎动物的生与死,那么面对模态和感知的缺陷,当时的动物又是怎么做的呢?
答案是引入更多模态的感知,当任何一个模态不可用时,便使用另一个。
比如猫不仅演化出了极好的弱光视觉,高灵敏度的胡须触觉,还有卓越的听觉。
鲶鱼则全身长满味蕾,形成了超强的体外味觉感知,犹如游动的舌头。
魔鬼鱼和鲨鱼等动物也演化出了感知电场的能力,可以侦测到藏在土中的生物。
但当引入多种感知后,新的问题却又出现了。
不同模态对同一事件的预测可能彼此冲突。
比如,这个实验中,参与者从体感模态获得的信息是左手离镜子较远,但从视觉模态获得的信息却是左手在镜子旁。
而最常见的问题还是,任何一个模态所获得的信息往往都不足以做出可靠的猜测。
比如,虎甲虫的眼睛在奔跑中就无法捕捉到足够的光子来预测障碍物。
可为了生存,动物必须利用一切可能的信息源来对环境做出预测,也就需要将多种模态的感知进行融合。
事实上,动物的感知从诞生之初就是多模态融合的结果。
比如人类对的别人说了什么的猜测就取决于视觉模态和听觉模态的融合。
这里视频声音始终都是Da,但观看不同的口型却会改变你所“听到”的内容。
而大脑对什么是自己的身体也是一种猜测,这种猜测同样取决于多模态感知的融合。
在先前的实验里,虽然体感模态会胜出,让大脑得出左手离镜子较远的猜测;但当参与者开始敲击桌面时,就加入了触觉模态,也会告诉大脑左手在镜子旁。这时视觉模态与触觉模态融合后的猜测就会胜过体感模态的猜测,让大脑最终认为左手在镜子旁。
这是因为当多种模态同时给出相同猜测时,意味着这个猜测的可能性更高。所以大脑演化出了一种融合机制:当多个模态的信息同步时,大脑就会被吸引注意力,并重塑对现实的猜测。
比如在这个实验里,触觉模态和视觉模态的信息产生了同步,大脑便会重塑对现实的猜测,认为这个橡皮手是自己的手。
又如,上镜的视频与单纯的音频在文本信息上并没有区别,但人们却依然喜欢前者,因为信息同步的视觉和听觉会吸引大脑的注意力。
这也解释了为什么当老师的讲解与PPT不同步时,学生更容易溜号。
而多模态同步也是魔术中最常用来欺骗大脑的技巧。比如,腹语表演时,大脑并不太确信声源的具体位置,于是当人偶嘴唇的运动与说话人的声音同步时,大脑就会利用两种模态的信息,判断声音是从人偶口中发出的。
你有疑惑,问吧,你是真的吗?既然你不能分辨,又有什么区别呢?
然而这些才是符合世界规律的现象。因为动物永远没有办法直接感知世界,只能演化出感知信息来躲避危险的能力。只要信息一致,不论由什么媒介产生,对动物而言就会是“现实”,因此才需要更多模态的感知来避免单一模态被欺骗的情况。
而这种取决于信息的“生物”现实也将世界引向了如今的信息时代。人类也用非演化的建模方法,创造了一系列的人造感知。
但人造感知同样面对当初动物感知面对的模态缺陷问题。
比如,坏天气下的自动驾驶,嘈杂环境下的语音识别就会出现模态输入失效的问题。
又如,指纹、虹膜等个人安全信息的识别系统同样可以被复制品欺骗。
而解决这些问题的方法正是动物在数亿年前就学会的多模态融合。
比如,自动驾驶的解决方案就是将速度感知、压力感知和视觉感知等多种环境预测进行融合,来判断该如何躲避危险。
又如,上海地铁站的语音售票机能在噪音环境下识别用户说话,也是因为同时使用了声音和口型两种模态。
而在活体识别上获得ISO二级安全认证的支付宝,能够识破照片、视频等欺骗的关键同样是多模态融合,也率先立项了这种融合(生物特征识别多模态融合)在IEEE上的国际标准。
但多模态融合技术并不容易,虽然我们知道很多解剖学和神经学的知识,却不知道神经细胞们究竟是怎么判断该融合哪些模态、什么时候融合,以及怎么融合的。还有很多需要研究的地方,是全世界都想要领先的技术。
如今人造感知已经被应用在社会的方方面面,包括在你我自身上。
很多科幻作品都喜欢描述那些人体强化改造随处可见的赛博朋克时代。但实际上,我们已经身处这种时代。只不过当前的多数改造并非躯体强化,而是感知扩展。因为在这个时代,生存所需要的并不是能开膛破肚的尖牙利爪,而是能预测信息的感知与模型。电脑、手机等机械设备已经是我们无法离开的身体延伸。
这也是为什么每个人生下来便在不停的学习,不断的让大脑的神经网络与人造感知建立连接(学习如何使用)。
而这场从5亿年前就开始的生存游戏在今天并未结束,只是有些动物并不知道自己就是猎物