暗物智能CEO林倞:五层认知架构,重塑多模态人机互动工业化

发布时间:2020-08-26 17:14:05   来源:曙光健康网    
字号:

用手机扫描二维码在手机上继续观看

手机查看

2020 年 8 月 7 日,第五届全球人工智能与机械人峰会(CCF-GAIR 2020)在深圳正式开幕。

CCF-GAIR 2020 峰会由中国盘算机学会(CCF)主办,雷锋网、香港中文大学(深圳)团结承办,鹏城实验室、深圳市人工智能与机械人研究院协办。

作为中国最具影响力和前瞻性的前沿科技运动之一,CCF-GAIR 大会已经渡过了四次精彩而又辉煌的历程。在大会第二天的「视觉智能•都会物联」专场上,暗物智能团结首创人&CEO林倞博士,分享了暗物智能在人工智能前沿技术与工业化方面的思考与实践。

林倞指出,现在许多乐成的人工智能应用大部门还是依赖于大数据盘算泛式,需要针对种种庞大的场景收集多样化的数据,使得其成本一直居高不下;另一方面,这些算法对噪声比力敏感。因此,林倞认为,即便对于被广泛研究和应用的感知层的智能,尤其是盘算机视觉,现在系统另有很大的局限性,一是成本问题,二是稳定性、鲁棒性并没有到达或真正逾越人的水平。

其次,林倞认为,视觉跟语言的大部门明白是依靠想象和推测的,并不是依靠大数据的感知,因而AI系统自下而上的感知智能和自上而下的认知智能不行支解,必须统一在一个盘算历程中。

最后,大量实验讲明,现在AI的智力水平不足12个月大的婴儿,无法推测他人意图,缺乏可解释性。这引出林倞的第三个看法,认知人工智能必须要明白人的意图,懂因果,可解释。

基于这些情况,林倞先容提出的五层认知架构,通过统一的人工智能操作系统和具有场景界说、任务形貌能力的编程语言,实现高自然度人机交互。进一步的,林倞先容该架构在教育行业的应用实践以及在游戏、金融等相关行业的拓展。

以下是林倞现场演讲的全部内容,雷锋网作了不改变原意的编辑与整理:

林倞:很是谢谢CCF-GAIR平台,我在2017年就作为嘉宾到场过论坛的分享,三年之后再来又见到许多老朋侪。这次我主要从人工智能技术生长的角度来谈谈工业化的新机缘,特别是现在备受关注的认知推理技术;另一方面,我也着重先容跨模态AI能力在工业中的实践落地。

图1. 人工智能生长现状

首先,现在的人工智能生长到什么阶段了呢?凭据阿里巴巴达摩院2020年的科技趋势陈诉,人工智能在“听、说、看”等感知智能领域已经到达或逾越了人类水准,但在需要外部知识、逻辑推理或者领域迁移等认知智能领域还处于低级阶段。对于这个趋势的判断我认为是对的,可是从技术及工业应用的角度来看,其实并没有这么乐观。

图2. 大数据-小任务的研究范式

以盘算机视觉为例,现在大部门乐成的AI/CV应用是依赖于大数据统计的研究范式。前沿的自监视/无监视以及神经网络搜索等算法,本质上还是依赖于大规模标注/未标注的数据,拟合数以亿计的参数,学习网络的结构以及其模型参数(参考于图2)。另外,为了使得学习获得的模型能够泛化到差别场景,需要为每一类物体,搜集大量的例子(涵盖种种形状、摄像头视角、材质、颜色、花纹、光照条件、遮挡等)并举行人工标注,每当遇到新样例或者新物体泛起的时候,则一直重复这个历程,这也导致人工智能的应用成本居高不下。现有许多公司宣称在一些任务上指标到达惊人的99%,或者说已经到达甚至凌驾人类,基本都是通过这种方式实现的。

图3.行人重识别随机噪声滋扰系统

图4.滋扰前后行人再识别系统召回图像示例

我们再看另一个例子,我们今年揭晓在CVPR上的事情,在行人再识别(Person Re-ID)问题中验证AI模型的鲁棒性 (如图3)。我们在训练好的行人再识此外模型中随机地增加滋扰信号并视察其对性能的影响。我们发现,现在宣称到达或者逾越人类的行人再识别算法,其精度从宣称的99%降到1.4%,降幅凌驾90%。如图4所示,我们可视化部门滋扰前后的检索图像,绿色框是在加入滋扰之前现在行人再识别系统给出的最相似图像,其相似度是很是高的,可是在加入滋扰之后,则召回的都是在外观特征上差异很是大的图像。

上述例子说明,纵然是对于感知层的任务,例如盘算机视觉,现在的AI/CV 算法的应用依旧存在较大的局限性。其一是成本很是高,其二是算法的稳定性和鲁棒性远没有到达人类的水平。

我们再看一个比力有趣的例子。1944年Heider-Simmel提出了一个著名的著名的视觉认知实验:给定一个抽象的动图,把三个几何体带入举行想象,大的三角形表现男子,小三角形表现女人,小圆点代表小孩,我们需要从动图中思考,他们在那里?发生了什么?凭据这些几何体简朴的运动,人类可以从中感受到富厚的人物、性格、意图等社会属性。这说明人类基于自身认知,可以凭据简朴的视觉信息推理出背后更富厚的逻辑和因果信息。

另一方面,通过脑科学研究发现,人的大脑皮层感知区和认知推理区域是不行支解的,其中,或许有1%的区域处置惩罚客观的视觉感知,而有10倍于此的区域凭据视觉感知的信息举行自顶而下的推理。由此可见,人类对视觉和语言的明白,大部门是依赖于想象和推测,而不是依靠于大数据感知。因此,我认为,感知智能和认知智能不行支解,必须统一在一个盘算历程中。人脑是这样,未来的AI系统也是如此。

图5. 基于知识图的精致化物体识别和视觉问答推理

基于上述视察和讨论,现在产学各界提出一个新的研究思路:在深度表达学习的基础上,引入知识图谱以及基于图的推理,就能进一步实现认知智能。现有的许多白皮书以及工业陈诉都认同这个研究思路,我们团队基于这个研究思路也做了很是多实验,例如,我们团队把知识图推理和深度表达学习联合在一起,实现精致化的物体识别和大规模物体检测,论文划分揭晓于IJCAI 2018和NIPS 2018;也通过构建知识规则库,促进视觉问答推理任务。只管这些方法接纳了更靠近人类的认知模式,也取得不错的效果,这类系统还是距离我们理想中的认知AI有较大的差距。

早期神经和心理学实验讲明,12个月大的婴儿就能够明白怙恃或者亲人的意图,也能通过手指的方式去表达意图。而这种能力是现在的AI系统所欠缺的:既无法明白人类或者服务工具的意图,也无法解释识别或者决议背后的目的和逻辑。所以如何实现高自然度的人机协同与互动一直是困扰我们的难题,在工业应用中落地起来也很不容易。

美国国防高级研究计划局(Defense Advanced Research Projects Agency,DARPA)公布XAI计划(如图6),计划指出,现在人工智能研究是通过大数据的学习来实现,当我们获得AI的效果后,对于为什么会有这样的效果、什么时候会更好、什么时候会失败、我们能不能信赖AI等一系列问题,用户并不知晓。也就是说,现在的人工智能系统,远没有到达可解释和可信赖的阶段。针对这些问题,我们团队已经开展了较长时间的研究了,其实DARPA展示未来的“Explainable Model”(图6下半部门)就是DMAI首创人朱松纯教授的研究结果。该模型不仅可以预测任务的效果,还可以进一步知道获得该效果的原因、知道在什么情况下模型可以乐成预测以及什么情况下会错误预测等,相关的事情揭晓在去年的《科学》子刊上。这也引出了第三个看法,认知人工智能必须要明白人的意图,懂因果,可解释。

图6. 可解释可信赖的人工智能系统

图7. 暗物智能科技公司团队成员

这里顺便先容一下我们团队,由朱松纯教授领衔建立的暗物智能科技DMAI, 2017年底在美国洛杉矶建立,2018年搬迁至广州,现在在中国广州和美国洛杉矶都有研发中心。公司致力于推进“小数据、大任务”的研究范式,探索人工智能在认知层面的新突破,实现真正的高自然度的人机交互和协同。

图8. DMAI陪同机械人原型系统

图8是我们公司研发的第一个陪同机械人原型系统,这个样机于2017年底研发出第一个版本,可以通过富厚的方式跟人交互,能看到、能听懂、能回复、甚至能知道盘算数学背后的因果逻辑,而且跟用户举行多种方式的交互。现在这个产物已经通过多种形式和渠道在中国和美国市场逐步落地应用了。

图9. DMAI五层认知架构

在这样的人机交互协作的背后,就是DMAI提出的五层认知架构,如图9所示。最底层是IoT物联网层,包罗传感器和控制部件,主要实现音视频信息获取以及交互指令输出和执行;往上第二层是感知层,包罗基于机械学习的音视频多模态分析,可以分析包罗人脸人体属性/行为、手势行动、物体种别、语音转录信息等;第三层是进一步的推理调理层,包罗场景和任务界说、任务调理和计划、以及逻辑推理等相关算法;第四层是知识和意图建模层,为第三层的逻辑推理和任务调理提供分外的知识支撑;第五层则是更高的人类知识和社会价值层。基于这个架构,我们打造了相应的人工智能操作系统及编程语言,而且延展出在差别的应用场景中的产物息争决方案。

图10. DMAI新一代人工智能操作系统

首先,从操作系统角度来说,底层的Windows、Linux、Android,他们治理的是盘算机的资源,包罗软件和硬件,提供的是盘算机的图形化服务。而对于人工智能操作系统来说,其主要的目的是针对特定领域任务,实现差别类型的AI能力的自动化调理,例如集成调理视觉、语音、文字以及相关运动控制等AI能力(资源),在特定的应用场景下实现多模态的人机协作与交互,好比虚拟西席、小我私家助理方面的应用中都有许多这类场景。

图11. DMAI形貌知识、任务、价值体系的AI编程语言

除了调理系统自己以外,怎么去界说一个领域的任务以及实现一个任务的流程,是另外一个难题。为此,我们做了另外一件事情,设计一个形貌知识、任务、价值体系的AI编程语言DMPL。现在的人工智能系统一直在强调算法、算力、以及数据,我们认为更重要的是场景以及面向场景的任务,如果抛开场景和任务谈AI算法,是不切实际的。如果我需要形貌一个场景或者任务,可以通过DMPL编程语言以及我们的开发平台,把场景和任务相关的模型、场景、价值以及流程界说且形貌出来,最后部署集成到人工智能操作系统,通过调理操作系统的调理和智能分析算法运行。

综上所述,为推进高自然度人机协作为导向的人工智能,实现小数据、大任务的研究范式,我们研发和设计了两个基础平台:第一个是具有调理能力的综合人工智能能力的平台;第二个是能界说场景、形貌任务的编程语言。我们平台可以支持多平台的部署方式,盘算能力可以凭据实际需要放在云上或者端上,实现云端融合的盘算,以支撑差别的应用。

在平台研发和设计历程中,我们也一直在探索怎么把认知人工智能及多模态人工交互技术应用于详细的工业实践中。针对这个问题,我们公司选择的赛道是教育,特别是自适应、个性化的陪同型教育。通过广泛的调研和分析,我们对教育行业有以下几点的总结:

第一,教育对真正的强交互人工智能提出了很大的挑战,教育行业的焦点是能够像老师一样教育和领导学生,资助老师提高教学效率和协助提高学生的学习兴趣和效能,这需要依托于高自然度强交互的AI能力。对此,我们研发学龄前儿童个性化、自适应的陪同式学习,该产物已经在美国落地了,就是陪小孩学习英语和数学的桌面机械人;

第二,教育对高度智能化认知推理智能提出了很大挑战,针对中小学生的自动化讲题、领导和修正可以更大水平降低老师和家长的事情肩负,对提升学生学习努力性也有很大资助。对此,我们研发集讲题、附到和修正为一体的学习服务平台,通过构建中小学知识体系,并基于该知识体系研发类脑推理系统,实现全自动、尺度化、自适应地题目修正和解说;

第三,现在的线上教育行业生长很是快,如何针对多模态音视频信息,有效分析老师和学生教学情况,形成对教情学情的分析,对规范化和促进线上教学,至关重要。为此,我们研发AI互动在线教育平台,该平台融合多模态AI技术,打造全方位、跨平台的AI可视化教学分析系统。

接下来我们详细论述,如何把我们的人工智能操作系统和编程语言应用到上述教育行业几个垂直化的工业实践:

我们第一款产物是谙心学伴,如图12,这是一款家庭陪同教育终端,这款产物现在在美国亚马逊卖了数万套,是美国排名第一的电子类教育产物,该产物用到富厚的多模态分析算法,包罗人脸识别、人脸心情/属性分析、道具/卡片识别、以及语音识别等,其中和焦点模块和软件也通过与企业互助的形式逐步在海内市场展开销售。我们在产物开发和体验历程中看到,人工智能操作系统并不是针对单点AI算法很是高的识别率,例如,对道具的识别做到99.0%或99.5%实际上没有太显着的区别,关键是以任务为导向,智能化地调理各个AI算法,把用户体验做到极致。为了切实推进产物化落地,我们也投入了许多成本做非焦点AI能力的产物,包罗原创生产许多动画内容,以及设计许多认知启发、思维引导的体验。这是我们的第一个例子,通过人机交互的方式改善幼儿语言学、启蒙学的教学。

图12. DMAI谙心学伴,家庭陪同教育终端

我们公司第二款产物是针对中小学教育市场,集解题、讲题、领导、修正为一体的学习服务平台。为此,我们首先对中小学教育知识体系举行结构化建模,其次,我们研究教学历程的明白和形貌,并设计类脑运算的系统,做到在不依赖于题库的情况下自动化推理其解题历程。围绕教学任务,我们还研究中英文和公式的识别和结构化剖析、语音识别明白以及针对高自然度语音合成等智能算法。其次,该平台还支持智能讲题,通过动画提示、语音/文字引导等多种方式,协助学生梳理其剖析思路和逻辑。最后,该平台在一些易错点和难点上实现个性化解说和附到,即凭据学生的掌握情况,自适应选择解题和讲题历程,实现自适应教学。基于强交互AI的自动化剖析和讲题,可以降低老师和家长的事情肩负,以及弥补优质师资缺失的问题,是AI进入教育工业的焦点价值。

图13. DMAI集解题、讲题、领导、修正为一体的学习服务平台

我们看到许多讲AI的应用,虽然有许多刷脸、支付、宁静类的,但并没有解决太多的问题,几十年来没有这些工具也没什么,不能刷脸可以用指纹,可以用密码。可是AI真正能体现价值,能替代人部门智能的能力,或者说延展人的能力,这才是最有价值的,我们以为关注智慧都会,应该关注它的主体,关注每一小我私家,所以我们公司一直希望提升人类的福祉,以智慧生活为导向。

因此,我们公司除了在教育行业落地以外,我们也基于认知AI的能力形成综合的AI解决方案,并在金融、游戏和电竞等偏向做了延展。今年,我们跟一家主板上市企业吉比特做了一个案例:游戏NPC智脑平台。该平台以人工智能操作系统和编程语言为基础,详细场景任务界说和智能算法调理的能力,使得“智脑”NPC具有越发拟人化的思考、交互、和行动能力。详细地,NPC以生存目的为驱动,会因价值观而异,能自主思考和行动,自主选择演化门路,能够明白人类语言并与玩家举行自动化交互。这是我们今年做的开端实验,我以为未来以认知推理和多模态分析为基础的人工智能技术,会应用在许多领域的应用场景。雷锋网雷锋网雷锋网

图14. 基于强认知AI的能力输出和行业拓展

图说天下

分享到微信朋友圈

×

打开微信,点击底部的“发现”,

使用“扫一扫”即可将网页分享至朋友圈。

时尚女人
育儿知识
生活百科
减肥方法