我为什么想到观测过程理论?主要还是因为人类在图像及语音识别方面的困境,需要有新的理论出现。在新理论的指导下,图像识别和语音识别才有可能取得突破性的进展。
现在随着计算机技术的不断发展,通过摄像头录取一个图像并不困难,通过话筒录取一段声音也并不困难。困难的是识别。
一张张三的照片,只要是认识张三的人,一眼就能够看出来,这是张三的照片。但是计算机在实现这方面就有困难。
一开始,人们想到的当然是匹配,就是说,每一张照片都是一个二维的灰度函数,当然,我这里假设是黑白照片,但是人对黑白照片就已经有很强的识别力。因此,就将某人的照片存放在数据库中,而后来再拍摄到的照片,就存放在数据库中的照片进行比对,如果两个二维函数很接近,就判决这张照片是属于这个人的。
这里的困难在于,图像函数在横向是有扭曲的,这种扭曲导致了虽然人的肉眼看上去两张照片是同一个人,但是,用简单的匹配,误差却特别大。
那么,人脑是怎样匹配的呢?
因此就有种种猜想。
其中,一种被现代科学家们普遍接受的理论,就是特征说。意思是,为什么一个人看到张三的照片,就能够认出是张三呢?是因为他记住了张三的特征,如张三是三角眼,是尖下巴,是圆脸,是薄嘴唇,等等。于是科学家们就努力去寻找类图像的特征集,然后建立一个特征库,根据特征库来进行识别。
采用这种办法也取得一定的成效,程序也编写得极为复杂。但是,始终远远比不上人脑的识别。
而观测过程理论提出的是另一个假说,就是认为人脑识别图像并不是象上面那样提取特征的,人脑远没有那么复杂。人脑仍然是用一种相当死板的办法来识别图像,对图像进行匹配或者比对的。人脑对于声音的识别,也是基于一种相对死板的办法来进行的,也不是在听了许多“学习样本”(这个词相当蠢)后,才建立起特征的。下面我为这种学术观点进行辩护。
例如,当小学老师,哪怕是一个老头,在黑板上第一次给学生写下“天”字,然后说:“跟我念。天!”于是学生们就一起念“天!”,哪怕学生是外国小朋友,这一辈子第一次听到中文的“天”的发音,但是听到一次就足够了,无须听几百遍以搞什么“学习”,而且虽然老头用老态龙钟的声音发出“天”的音,学生们却立即能够用稚嫩的童声模仿着发出“天”的音,虽然二者在频率上相差甚远,也是如此。
当一个特工人员,需要寻找一个人,你只要给他一张黑白照片,只看上一次,他就足以记住这个人了,根本无须“学习”许多样本。
因此,《观测过程理论》在第9章就在人类首次提出一种能够抗横向扭曲的简单匹配算法,叫“卷积相乘算法”。采用卷积相乘算法的技术,用在语音和图像识别上,将导致特别简单的匹配运算,就可以相当程度上解决问题。
而这个模式识别问题相当重要在于,这将使机器人在人类社会中广泛使用而打下基础。例如,当一个人吩咐一个机器人去某商店买一件什么东西给自己拿回来,这个机器人首先就需要有很强的图像识别能力。
此外,现在因为科学家们对于图像和语音识别方面的束手无策,导致他们胡乱提出一些理论来骗取经费,这些理论基本上是错误的,效果不大的。比较典型的理论,就是“小波分析理论”。任何一个人只要看过小波分析的基本理论,就知道它是根本无目标的一种理论,它究竟要干什么?要分析,分析什么?怎样分析?然后就声称说要正交变换,无非就是把段函数变来变去,有何用处吗?基本没有。尤其是,这个理论是学习美国的,是美国科学家们束手无策才提出的胡弄美国人民的理论,但是国内的人需要崇洋迷外,因此美国人喊什么他们就跟着喊什么。
那么,有人问那你为什么不把这个试验做出来呢?我当然有时间也会做,但是,我手下无人,也没有科学研究经费,还压上九节课要我讲,当然现在没有很多的功夫拿出来做。而写《观测过程理论》一书出来,基本思想里面都有,懂编程的人立即就可以编程,原理极为简单。但是,一大堆崇洋迷外的人不理睬,我有什么办法?
当然,到我退休的时候我会继续找时间做一做的。这件事情的成功,在我看来是必然的,无非就是个时间问题。有可能最后还是美国人先发现我的观测过程理论,然后国内的拍美国人的马屁的这些教授才会想到哦?原来美国人也重视,于是他们才重视。国内的人就是这样。其实,观测过程理论里也有特别优秀的雷达理论,但是我也相信,一定是国外先做出来,国内的人才拍马屁似地跟上。