2019-12-07 23:16

深思考杨志明:多模态语义理解能推动人工智能

2019年11月26日-27日,36氪在北京国际会议中心举办了“2019WISE新经济之王大会”,大会下设13大会场,邀请超百位新经济社群的代表,共同关注新技术、新场景对传统产业的颠覆与融合,连接初创公司、互联网巨头、投资机构、地方政府、传统企业等市场参与主体,聚焦那些脚踏实地、以梦为马的未来产业之王的成长和成熟。

目前,AI在语音识别、图像识别领域已经比较成熟,开始了大规模落地。人工智能的发展也正从认知走向理解。

深思考专注语义理解15年的时间,目前在多模态语义理解方面取得了一些进展,在智慧营销、智能终端落地了相关技术。对于多模态语义理解的AI落地,他们又有怎样的见解和经验分享?

我给大家分享一下我们深思考人工智能在多模态深度语义理解这个领域我们的一些进展,以及对多模态深度语义理解落地的一些经验。

首先介绍一下我们深思考人工智能,我们只专做一件事情就是多模态的深度语义理解。人工智能的最后一块,就是语义理解,目前包括语音识别、图像识别已经比较成熟,已经开始大规模落地。目前大家垢病最多的是,有的时候跟智能音箱进行交互的时候,聊两句就聊不下去了,就聊死了,或者说它根本不懂你的意思。所以大家觉得这个不是人工智能,是人工智障,效果很不好。包括车载助手,手机助手也是,有的时候你稍微话术说复杂一点,它就没法理解你的意思。

另外,有的时候我们人与人在交互的时候,我们的交互也是多模态的,比如我们用微信跟大家交流的时候,跟对方可能发一个语音,可能发一个文字,也可能发一个图像,也可能发一个视频,其实人与人之间交互的时候,是很容易准确理解对方的含义的,但机器要理解多模态的信息则变得非常困难。深思考专注语义理解已经15年的时间,目前我们在多模态语义理解方面取得了一些进展。

目前人工智能发展到这个阶段,大家都知道我们人首先是听到、看到、触摸到,然后去认知和理解,人工智能的发展其实也是一样。

第一就是我们觉得从原来的计算智能到感知智能,也就是我们目前比较普遍的所谓视觉、听觉、触觉等等,先感知到。其实人工智能的落地还有一个非常重要的一部分,就是我们的认知智能,就是我们要在声音、文本、图像,尤其非结构化的信息上进行认知计算,什么叫非结构化信息?就是那些杂乱无章,未经人工整理成结构化的信息,如一篇作文、一个网页、一个视频、一个音频,其实都是非结构化的口袋娱乐。我们如何实现对这些非结构化信息的理解,这就是认知智能需要做的工作,这也是人工智能最后一块高地,只有解决这个,才能实现人工智能大规模落地。

我可以说一下,为什么我们来做这个多模态的语义理解和人机交互?非常显而易见,我们人去理解信息,刚刚说了,很多场景本身就是多模态的,我们看一个视频的时候,我们不会把眼睛闭起来去看这个视频,也不会把耳朵塞起来看这个视频,我们人与人之间进行交流的时候,可能有情感、有表情、有语言、有握手。人机交互的时候也是如此,从来不是单模态的。

人工智能落地也是这样?比如汽车的数字座舱场景,原来只是语音识别和语音指令,其实这个场景中包含了车外场景图像、车内的手势、车内的表情、车内的语音等等,这就是一个多模态的场景。

医疗也是,我们俗称望闻问切,就是医生去诊断的时候不光是看到,还要听到,闻到,观察患者多模态的信息,最终实现精准诊断。

我们很多2C的网站或者平台,他们有很多虚拟偶像,90后很喜欢这种虚拟偶像,虚拟偶像原本的交互只是简单的触摸、点击等,其实受众和虚拟偶像去交互的时候,也是希望跟这个虚拟偶像有语音的互动,视觉的互动,声音的互动,文本的互动等等。包括我们的手机现在也是个多模态的,包括现在落地的广告。比如说我们一个网页里面,它包含文本,包含视频,包含图像,我们怎么去理解这个网页?然后点击这个网页的受众他的画像是什么?包括智慧营销等等。

其实我觉得正因为从单模态过渡到多模态,其实才更加适合AI的大规模落地,因为人工智能目前落地可能大家都知道,是一个普遍的难题。怎么去解决这个大规模落地问题?其实有几个,第一个就是场景问题,我觉得多模态的这个场景一定会比单模态更加适合我们人工智能的落地。

第二个就是人工智能落地技术上的难题,我们现实中接触的所谓的大数据,大量都是非结构化的,刚刚我说了语音也是非结构化的,视频也是非结构化的,文本也是非结构化的,我们看到的海量网页,都是非结构化的信息,图像也是。比如我们手机上拍追光娱乐了很多的照片,这个照片本身的含义是什么?它描述的是一个什么物体?等等,这些信息没有人给我们整理出来,当然这也是一个难点。

我觉得非结构化信息的理解,我们叫暗数据理解,也是人工智能的技术的刚需和至高点。我们深思考人工智能是通过多模态数据的机器阅读理解。原来像一段视频,一段文本,都是人去理解的。

我介绍一下什么是机器阅读理解?比如我们看一本书,原来我们人去看一本书的时候,看完这个书后,我再去询问书中的知识,他能够根据理解反馈回来准确的答案。这时人是已经有这种极高的技能去理解一本书,这种大量的非结构化的信息。那么机器如何去进行理解呢?机器阅读一本书以后,能够对书中的知识点准确的理解出来,然后将答案准确的反馈回来,这也是语义理解中的难点和痛点。

目前深思考在机器阅读理解这一块已经取得了大规模的突破,也就是说,我们已经实现了,我们最新的产品则基于我们原创的机器阅读理解模型。我们有些友商在做智能客服、人机交互的时候,都是基于事先整理好的知识库、问答对或者知识图谱。深思考另辟蹊径,成功运用机器阅读理解技术。也就是说,我们原来做一个智能客服的时候,需要大量的时间及人力去整理知识图谱,而我们深思考直接用机器阅读理解,然后大规模的去理解和阅读非结构化的信息,比如产品说明书、网页等等。然后你对这里面的知识点,可以用任意话术去提问,它都可以准确的回复。这样就使得我们整个项目的效率得到了极大的提高,并能够规模化迁移,从而极大地提高产品研发的效率。

我们的机器阅读理解技术,可以实现人工智能,包括大规模的机器理解时,不再单独依赖知识图谱。我们有些客户在实施智能客服,人机交互时遇到过一些问题,比如在智能家居领域,我要做一个营养大健康知识问答,我要把所需要的知识整理出来,因为目标很庞大,结果半年一年甚至于两年走下来,也没有整理成结构化的数据,所以很多时候时间一长,这个项目也就搁置了。更多时候我们现实中的大数据都是非结构化的,技术上实现对大规模非结构化文本进行机器阅读理解的话,就可以实现我们人机交互,AI技术迅速的领域迁移和大规模的落地。

我们深思考在落地的过程中,针对一些场景,已经开始大规模落地了。比如我们在跟知名的车企品牌合作,将我们的技术落地到数字座舱里面去了,原来的座舱大多是语音指令式的,比如给开个空调。但是如果我说“我有点热”,原来的语音助手就没法跟你做交互。如果它具备深度语义理解的话,它可以说“主人,我能帮你把空调或者是天窗开开吗?”,你只需说“空调就可以了”,它就会给你调到喜欢的温度,这个交互就很顺利的进行下去。不像传统的语音指令,你需要背那个语音指令表,但我们人是不希望背语音指令表的,我们希望机器能理解我们,这是我们认为在人机交互和语义理解一个重大的区别。

我们目前已经落地的智慧营销、智能终端都接入了多模态机器阅读理解大脑。我们已经实现了在家庭场景下的健康营养AI咨询,比如可以询问和孕妇相关的很多问题以及其他的一些健康常识,像需要补充什么营养,有些什么注意事项等等。我们的AI去大规模学习相关的文章以后,就可以对这些问题去做一个权威的回复。在智慧医疗领域,我们用多模态的视觉理解去做了细胞学的筛查,现在已经大规模落地医院的实际场景,协助医生去解决他们的一些大规模癌前筛查的问题。

我们不光对话,而且这个对话比较简洁,不需要跟它一轮轮的对话。很多时候我们人习惯说“你帮我办吧”,人们期望机器能理解到我们的需求并帮我们办到。所以前面我们深思考的三代机器人的人机交互是能够有上下文,多轮的,然后有情感的等等。自由对话,我们做的非常好,但是我们的四代机器人首先有两个特点:

随着社会发展,我们对营养健康越来越关注,我们在汽车场景下可以跟家庭联动,机器人可以在车上给你推荐营养健康的饮食建议等等。如果你接受这个建议,那机器人就可以联动家里的设备去制作了。

这样就像刚才我们说到的,“说到“、”做到“————交互完了以后,机器人直接在后台帮你办到这件事。

另外,我们在智慧营销也有大规模落地,优势就在于我们的机器人是多模态的,它能接受你线上的语音、图像和文本。大家现实中可以看到,在我们的生活中有这样一种现象,当你看到一款很炫酷的汽车广告后,心里想回去就买下它,但等回去之后可能就再没有这个激情去买这辆汽车了。我们的创意已经用在很多汽车品牌上,用户看到这个广告以后可以直接去点击,之后会有一个AI和用户去交流,这相当于有一个AI在24小时给客户提供服务。服务的时候,可以使用语音、文本、图像等等,去跟它做交互。而且它反向会理解你的关注点,比如说价格、油耗、车的用途等等,而且我们的AI会引导客户到线下来。在线下我们也有一套多模态的AI交互方案,通过视觉,声音,姿态、表情,动作等等,去判断用户的意图,然后画出用户的画像,最后帮助销售顾问提升顾客的转化率。

原来我们对线上线下的用户了解很少,一旦用户没有留下电话,这个用户就消失掉了。而我们的方案呢?

第一、增加了流量入口第二、增加了与希望用户的触点第三、更加了解这个用户所以最后的转化率得到大幅提高。

另外在智慧医疗领域,我们已经实现了病理细胞学大规模的筛查,大家可能很奇怪,为什么语义理解还有视觉,其实刚刚我说的就是多模态,多模态的视觉语义理解和视觉有一定相关,但是不是完全等同的。举一个例子,我们在反暴力的时候,总觉得我把凶器识别出来就可以了,比如把一把刀识别出来,但其实用刀的时候也可能是在餐桌上吃饭的场景。我再举个例子,比如有一个画面,一个小狗在一棵树下面,传统的识别是一只小狗和一棵树,用图像的识别理解就是一只小狗在炎炎夏日在树下乘凉。

这是我们在央视的平台上去做的一个测试,目前我们的AI在这个实际场景下能够真正的帮助到医生,而不再只是一个概念,真正能够帮助医生大规模实现筛查。这个用在大规模筛查的时候,AI就非常有必要。

另外我们在智能家居这一块,也联合了业界的巨头,去接入各个品牌的智能家居设备,这相当于我们在家庭场景下有一个多模态的AI大脑,它去理解家庭每个成员的健康状况,提供健康咨询。

就是说使得用户在家庭场景下,让AI更加了解用户,包括用户的个性化、健康状况等等。营养健康场景下最重要的东西就是健康和营养,我们针对的不止是某一个电视机、电饭煲或者音箱,这些外在的硬件只是一个载体,我们的AI相当于一个家庭的中央大脑,它落地载体是电视和音箱,它能够真正在家庭场景下为家庭成员提供健康营养方面AI的服务。

最后一块,我们深思考在语义理解这一块还打造了一个AI的技术中台,也就是说我们用这个中台去生成一些AI,大家知道我们原来去建立一些智能客服、对话机器人很麻烦,我们其实是自己有一个对话机器人,它相当于一个“母亲”,然后很快的生成其他场景下的对话机器人。我们相比于友商,比如意图识别,很多友商是意图匹配,我们是在线训练,我们不用让算法工程师设计一个模型,而是直接在场景下,用户直接可以训练一个很好的AI模型出来。

我主要介绍了深思考的多模态语义理解技术,尤其机器阅读理解,如2019年我们拿了全世界中国领域的冠军,相比业界最权威的友商,我们指标高了20.8%。

最后一句话,人工智能落地的时候,最后一块皇冠就是语义理解,通过多模态语义理解,真正能够使得人工智能大规模的适应各种场景,然后快速的落地。我认为未来一个愿景就是随着物联网的发展、互联网的发展,我们能够做到端侧的理解,语义方面的理解,最后达到万物智能。