首页分享计算机视觉＋自然语言处理＝强AI？

计算机视觉＋自然语言处理＝强AI？

来源：花匠小妙招时间：2024-12-01 08:47

所谓强AI是指和人一样能够用一种通用算法实现不同功能的AI。

现在任何有点常识的人一听到强AI，就会皱起眉头：那还是现在技术瓶颈以外的能力。但我一直在思考这个通向强AI的那把金钥匙究竟在哪里？最近突然觉得也许强AI需要的技术已经成熟，只是我们不知道怎么把现有的技术结合在一起。

计算机视觉是指通过处理视频信息，提取出摄像头周围的各种场景信息，比如什么位置有一个什么物体，有多大，我们把这些场景信息叫做地图，这个过程叫建图。因为利用这些场景信息，可以反过来计算出摄像头在场景中的位置，这个过程叫做定位。并且对于场景中的物体，还会识别他们大概是什么东西。其实这正是是人的视觉系统负责的任务：当我来到一个新的环境中时，我们环顾四周，然后来回走动一下，大概能知道周围有些什么物体，有多大，有多远，有些什么属性。然后我们就可以自如的在新环境中穿梭而不会到处碰撞。

目前计算机视觉的水平大概是：对于地图和定位的精度可以达到人的水平，并且可以分割出不同的物体。然后再结合现有识别算法，可以知道每个物体的名字。如果我们还有一套名字和属性的数据库，我们就能知道每个物体大概有些什么特点和功能。但这里的瓶颈是如果想要万能的识别任何物体，需要极其大量的人工物体标注和训练，且不说现在的算法能否支持如此大量的数据。计算机视觉方面的强AI瓶颈正式在这里。

那么这里出现了两个问题：

1，强AI是否真的需要万能的识别世界上所有的物体。

我们认为即使是才出生的婴儿的智力也是能够达到强AI的要求。但是婴儿能够识别的物体非常有限，基本就是屋里那几样东西。所以当我们把使用机器人的场景限定一下，比如只在室内，只是可移动的物体。这样需要标注和训练的量就打打减少了。其实一个成年人能够识别出无以计数的物体，是通过几十年的标注和训练过程才达到的。

2，能否找到一种激励机制，让人自发的去标注物体并训练AI。

有这样一个数据，全人类花在玩魔兽世界的时间累计起来达到了593万年，对于人类来说593万年前人类的祖先刚刚学会直立行走。所以劳动力这个资源，只要有合适的激励，几乎是无限的。其实我们把全人类用在教婴儿理解世界的时间加起来应该远远大于万魔兽世界的时间。

再来说下自然语言处理。自然语言处理是把人类使用的语言翻译成计算机使用的语言。比如使用自然语言处理分析一段文字后，可以提取出这段话涉及到多少个物件，他们的关系是什么等等信息。这些信息可以使用计算机擅长的方式存储和使用。

目前自然语言处理已经能够翻译几乎所有逻辑关系的文字。但其瓶颈在于如果要把很所有从文字中提取出来的物体和现实中的物体对应起来需要大量的标注和训练，并且算法不一定支持。

同样我也提出两个问题：

1，对于抽象的非物体的词语怎么让机器去理解。

抽象的非物体的词是不能被简单的标记的，比如愤怒，失望，成就等等。这些词是建立在人类大量的具体词和价值观的基础上形成的。关于价值观的AI解释又会是一大篇文章。这里只是探究最简单的强AI，所以就不展开说AI中的价值观了。我的观点是：即使是不需要这些抽象词，也能实现强AI。比如我们可以教会婴儿从一堆物体里面拿出我们要求的东西，而不需要借助任何抽象的表达。

2，能否找到一种激励机制，让人自发的去建立现实中的物体和自然语言处理得到的物体的关系

这个问题的答案和上面的第二个问题一样。下面我用场景描述的方法来说明。

假如我们有一个机器人，这个机器人具备这样几个功能：

1，视觉：建图，定位和分割物体

2，人的手势识别：可以判断人的手所指的方向

3，自然语言处理：能够分析最简单的逻辑，比如这是什么，那是什么，把什么东西拿到哪里去。

我们把这个机器人放到一个陌生的房间里面，就好像第一次把小婴儿带回家。我们让机器人自己在屋里到处闲逛，慢慢的它就能知道什么地方有几个物体，并且随时知道自己在房间中的位置。然后我们指着一个板凳对着机器人说：这是小板凳。通过手势识别和自然语言处理，我们指向的这个物体被标记为小板凳并被训练了一次。然后我们指着旁边一个大一点的凳子说：这是大板凳，然后第二个物体被标注为大板凳了。我们还可以用多种方式来训练机器人：我们可以说到小板凳旁边去。通过自然语言处理识别出“去”这个次的含义，并且去这个动作已经是预先写入到机器人的程序中，就像人类的某些行为并不是后天学习的，而是被预先写在DNA里面一样。如果之前学习小板凳成功了，机器人就能自己跑到小板凳旁边。反之我们给一个失望的手势，机器人识别出来后，又可以进行一次标记和学习。

通过这样的方式我们可以教会所有房子里机器人需要了解的物体的标记以及位置。机器人不需要了解更多的物体，除非我们需要他完成新的功能。其实整个过程和我们教小婴儿的方式一模一样，而实现这一切需要的技术我们现在都实现了。

如果我们给机器人装上一个可以拾取物体的设备，比如一个钳子或者吸盘。然后在机器人的预程序中写入拿过来这个表达对应的行为。那么我们还可以对着机器人说把小板凳拿过来。于是机器人就能移动到小板凳旁，再把小板凳拿过来。同理我们可以教会机器人拿任何房子里的东西。

同理，还有很多事情可以教会机器人。比如把黄色的鞋子放到门边，把脏衣服扔到桶里。之后当我们回家随手把鞋子一脱，衣服一扔，机器人都能自动帮我们收拾好。

慢慢的这个机器人就像是自己的小婴儿一样慢慢成长，难道我们不愿意花费一些时间在教育这个因为自己而独一无二的“小婴儿”吗？这正是我说的那种训练强AI的激励机制。

最后的结论是，也许强AI会在家庭小型机器人的应用中最先实现。

发表于: 2018-05-122018-05-12 07:31:20原文链接：http://kuaibao.qq.com/s/20180512G127AE00?refer=cp_1026腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。如有侵权，请联系 cloudcommunity@tencent.com 删除。

ai视觉识别系统使用强类型语言还有多远？图片拾取文字图片里面的文字怎么提取图片里面的文字怎么提取出来

相关快讯

计算机视觉和自然语言处理的结合对人工智能所产生的影响

2023-08-15

关于自然语言处理，你了解多少？

2024-07-18

人工智能研究热点问题：计算机视觉和自然语言处理

2020-05-26

自然语言处理，破译人类对话计算机的秘密！

2019-01-30

自然语言处理，破译人类对话计算机的秘密

2019-01-24

人工智能难点之——自然语言处理

2018-01-27

工业视觉与计算机视觉的区别一篇就够

2019-01-17

迁移学习：如何在自然语言处理和计算机视觉中应用？

2018-01-27

AI自然语言处理领域常用的16个术语

2019-12-02

人工智能（7）-自然语言处理

2018-03-22

人工智能—自然语言处理方案概述

2019-09-06

什么是GPT：全面了解自然语言处理的未来

2023-07-07

AI写作涉及到的自然语言处理（NLP）技术

2023-06-10

自然语言处理技术的应用很多（一）

2022-11-14

马广建：自然语言处理与人工智能

2021-01-25

多模态信息融合下的自然语言处理简介

2021-02-15

华创派｜梅卡曼德Mech-GPT多模态大模型：让机器人能够通过自然语言交互，并综合视觉和语言指令进行推理

2024-07-30

一文看懂自然语言处理｜NLP

2020-10-26

ViLT:基于transformer模型的计算机视觉与自然语言处理多模态模型

2024-05-15

自然语言处理相关技术与任务简介

2018-12-05

计算机视觉＋自然语言处理＝强AI？