DH3G游戏资讯网

阿里巴巴达摩院陈海青:数字人和企业应用结合带来新体验、新场景、新流量

发表于:2024-04-25 作者:创始人
编辑最后更新 2024年04月25日,3 月 22 日,在钉钉生态大会"混合办公"分论坛上,阿里巴巴达摩院创新业务中心陈海青分享以《数字人在企业应用的探索和实践》为主题的演讲,讲述近十年智能人机交互变化发展的历程。陈海青指出,过去十年人机

3 月 22 日,在钉钉生态大会"混合办公"分论坛上,阿里巴巴达摩院创新业务中心陈海青分享以《数字人在企业应用的探索和实践》为主题的演讲,讲述近十年智能人机交互变化发展的历程。

陈海青指出,过去十年人机交互发展的整个链路都围绕 NLP 自然语言处理,语音识别技术和 TTS 技术能力的混合发展两个技术。

在思考下一代人机交互形式和体验的过程中,他认为,下一代人机交互实践将会从语音交互变成基于数字人更加复杂的多模态交互能力,而数字人围绕着多模态的技术和场景,还可以成为在音视频场景下核心的交互能力和载体。并且在此基础上,可以演变出在过去两年时间探索的多模态场景交互里面所产生的在企业应用当中的服务和探索。

而对于数字人和企业应用的结合,陈海清分享三个核心关键词:新体验、新场景、新流量,并通四个案例来进行详细说明。

陈海青表示,随着未来科技的进步与发展,无论在混合办公场景,还是企业应用场景,数字人跟企业的结合将会探索出更多可能性和有趣的应用方案。

----------------

以下是演讲实录:

大家下午好,我是来自阿里巴巴达摩院创新业务中心的海青,今天的分享很有意思,是关注在 XR 领域的数字人在企业当中的应用和探索实践。

其实提到数字人这个概念,回溯到我做了十年的领域 -- 交互,我们可以看一下,智能交互领域在过去十年当中发生了什么样变化。

第一个部分,我在阿里待了十年时间,其实从事的都是交互和交互本身的发展历程。从智能客服,智能助理,本质上它可以从纯文本的交互和场景当中变成我们整个交互形式和交互形态,我们把它称之为文本单模态的交互形态和能力。这里面我列举的例子,无论是阿里巴巴客服,还是智能助理,以及从售后的问题逐步切换到今天对于阿里巴巴商家和场景上面,对于售前甚至售中问题的解决,这是我们称之为单模态的文本交互和能力。

但随着 2018 年我们看到音视频领域的发展,包括今天在整个钉钉音视频会议的场景发展当中,音视频的混合模态整个场景当中发生了巨大变化,而交互又是一个从单模态往混合模态交互的场景,这里面是我们在 2018 年、2019 年专门针对语音和文本交互所解决的 case 和问题,大家可以看一下这个 demo。

(视频)其实大家可以看到在混合语音和文本多模态交互场景当中,我们产生了多维态的信息 Feature 和能力之间更加复杂的问题,就像人和人打电话的时候,我们通常有"嗯嗯""啊啊"的转折承接,因此所产生的技术问题,衍生了在过去十年当中我们讲到的智能人机交互发展的整个链路,它包含从自然人通过语音识别技术,到我们称之为自然语言理解,到对话系统的建设,以及到自然语言生成板块,以及到最后 TTS 文本输出。而在这条链路过去十年发展当中,都是围绕两个技术:一个是 NLP 的自然语言处理技术,以及语音识别技术和 TTS 技术能力的混合发展。

随着时代交互媒介核心的变化,我们下一代的人机交互形式和体验是什么?以及怎么样跟我们 toB 场景包括在混合办公场景产生更深的连接?在整个企业的办公当中,我们开始去思考:第一,我们的媒介开始产生了变化。其实我们看到整个交互当中从文本到了语音 + 文本,以及到现在我们开始看到整个信息交互媒介当中,从视频、短视频、长视频场景当中媒介产生了大量变化,也就是交互的媒介信息发生了变化,这里面增加了更多维的有用的,感知和认知相关的信息;第二,随着技术发展,我们从单模态的自然语言处理技术到语音技术,以及到现在我们结合机器视觉技术,包括 3D 图像视觉的一些技术和能力,产生了多模态的能力。因此,我们认为下一代的人机交互实践将会从语音交互变成基于数字人更加复杂的多模态的交互能力,而数字人围绕着多模态的技术和场景,还可以成为在音视频场景下核心的交互能力和载体。并且在此基础上,可以演变出在过去两年时间探索的多模态场景交互里面所产生的在企业应用当中的服务和探索。

在这里,我们通过数字人,结合我们的企业应用,我认为今天三个核心的关键词:第一,新体验。数字人本质上是模拟人,但是在数字人更多的 AI 场景当中,它能在很多场景超越人,比如对人的个性化理解等场景;第二,我们会产生更多新的场景,比如今天讲到的场景公益,可以通过数字人的手语公益项目,来帮助 2700 万听障人士更好地理解多模态的社会信息和服务,把原来不可能的场景变成新的场景,以及通过当下数字人的 IP 能量和东西,能够回归到新的流量。比如这里举到的 IP 明星的打造,比如刚刚过去的冬奥会,我们跟冬奥会项目组在整个场景上构建数字人"冬冬",通过拟人化明星 IP 的方式,我们可以带来更多新的流量、新的玩法,以及覆盖更多的渠道,这里面包含核心的渠道,包含今天在直播的渠道,包括在影视渠道,包含在其他短视频等等核心渠道。因此,数字人在今天跟企业应用的结合,我认为可以产生新体验、新场景和新流量。在接下来的时间,我会用 4 个典型的案例给大家做一个举例,第一块是跟钉钉合作的企业混合办公,刚才林锋也做了核心介绍;第二,我们跟 OPPO 在去年打造的 OPPO 数字人项目当中的整个助理场景;第三,我们跟冬奥会项目合作的数字人核心场景;最后,场景智能办公的手语,面向 2700 万残障认识,我们构建了整个场景和能力。

第一块,我们可以看到在钉钉与企业办公当中,刚才林锋老师已经介绍了一个场景,就是在 AR 设备端的眼镜端。我们在钉钉会议交互场景中,最核心的就是人和人之间的交互。除了语音本身的交互,还有眼神、肢体语言。就像我们今天坐在一个办公室沟通,不仅仅只有语音的沟通,还有更多情感沟通。而钉钉音视频场景当中,我们可以通过数字人的方式,在保护隐私的前提下,去把像眼神、神态、嘴形的一些多模态的交互信息提供给交互场景,使得交互场景的能力效率变得更高。在这里面基于的是表情检测、姿态估计的达摩院的核心技术和能力。这里面包含单路摄像头的表情检测和姿态估计在音视频场景的应用,以及我们跟不同 AR、VR 设备在第一视角人称下,怎么通过嘴形和语音驱动的技术上有一些驱动。下面我们可以做整体技术的展示(视频)。这里面我们可以通过真人视频,把整个脸部变成 3D Mesh,映射到不同的数字人,包括超写实的数字人、脸形数字人的能力。在这个场景下可以做大量和混合办公场景有关的很多有意思的应用。而且今天讲的数字人不仅仅是真人,也可以是萌宠和粉丝 IP,去带来更多个性化和更有趣的交互和场景。

第二块,数字人和数字助理,甚至跟数字客服的关系。刚才我们讲到在智能服务和人机交互的发展历程当中,其实我们可以看到数字人从文本到了语音交互,到了更多模态的数字人交互,本质上来讲我们可以提供更多模态的 Feature 和能力。我们之前在很多调研报告当中看到基于数字人和人的交互,是能够提升整个交互体验,甚至是最直接的客户满意率。因此在去年,我们跟 OPPO 打造了一款小布手机助手,基于达摩院和数字人的核心能力去构建整个场景,也集成到了目前 OPPO 手机助理语音当中。这个 case,我们讲到通过数字人构建天气预报的场景,通过数字人的方式来展现。所以通过数字人本身,我们可以把传统的语音交互升级成多模态的交互能力,并且可以不断构建自有品牌 IP 和能力,把原来静态的 IP 变成动态 IP,并且提供更多元化和多模态的交互能力。

再下一个案例是我们跟冬奥会打造的基于明星 IP 的场景,这个 IP 是冬奥会,我们讲到数字人不仅仅是刚才看到的一些素人,其实本质上来讲我们可以塑造人的性格,包括年纪、身高、性格、风格、特长等等。所以在冬奥会上,基于这样的体育赛事,我们构建了像冬冬这样的数字人场景,面向超写实的能力和场景,构造冬冬数字人。所以在赋予人不断的个性化和场景化体系当中,我们可以孵化更有灵魂和个性化交互的数字人场景。在这样的场景,我们可以赋能多渠道,包含直播、短视频、图形图像、品牌联合营销等企划 toB 场景当中,包括在混合办公场景当中,我们可以有人设化地完成在前台的各种业务和场景,并且通过数字人 IP,积累品牌在核心企业场景的粉丝及品牌积累,并且构建新的流量场景和流量域的部分。冬冬是我们今天跟冬奥会项目组一起构建的。我们看到在这样的数字人在拟人化形态当中,它有健美的外在,包含高精度超写实的模型,包含我们可以通过 AI 技术去赋能实时互动,在各种场景的互动,在央视直播间对明星运动员的采访,以及它可以说出一些有意思的段子灵魂。下面可以看一下冬冬在奥运会场景的一些案例。通过冬冬的方式不仅能够做货物的联系,也可以不断打造 IP 的衍射,包括带货能力。这个 case 是我们真实直播间场景所刷的评论,它可以带来大量流量,包括数字人冬冬可以实时跟用户互动,讲一些段子。所以基于本身 IP 化的打造,我们认为跟企业的协同合作无论在办公场景还是在企业营销场景等等,可以带来更多更有意思的探索。

最后讲到场景公益。大家知道在中国有 2700 万残障人士跟听觉和失聪有关系,其实他们在信息的获取,无论是音视频的场景、文字的场景都比较有限。而原来我们国家所做的基础建设都是基于手语老师,包括一些残联协会的人工方式去做。而今天通过数字人,我们更加能关注到中国庞大的 2700 万的残障人士,通过数字人手语双向翻译能力,构建对于残障认识的关注,以及更多信息的互通。这里面其实我个人有一个大胆的想法,我相信未来在钉钉整个混合办公场景,它基于音视频通道不仅仅面向正常人,甚至可以面向更广泛的残障人士。所以对于以数字人为基础的协同能力,未来可以作为混合办公的基础设施能力面向更多残障人士能够获取更多信息交流、交互的能力。而且,我也始终相信对于 AI 来说,对于科技来说,科技向善一定是我们整体的追求。

当然在今天,我所展示的场景只是九牛一毛,也是我们过去两年一点点探索,这也展示了我们过去跟各个企业和商家所探索的一些品牌和 IP。我相信未来科技的进步发展,无论在混合办公场景,还是企业应用场景,数字人跟企业的结合将会探索出更多可能性和有趣的应用方案,能够带来更美好的未来。

谢谢!

2022-05-06 01:24:36
0