谷歌、英特尔、微软都挂在嘴边的“环境计算”,是噱头还是新风口?
近日,谷歌设备与服务高级副总裁RickOsterloh以发布官方博客方式宣布:谷歌正式收购North。North是一家增强现实公司,其产品与谷歌眼镜类似。这不是一桩普通的AR收购,它与谷歌的一个重要计划“环境计算”提速有关。
近日,谷歌设备与服务高级副总裁Rick Osterloh以发布官方博客方式宣布:谷歌正式收购North。North是一家增强现实公司,其产品与谷歌眼镜类似。这不是一桩普通的AR收购,它与谷歌的一个重要计划“环境计算”提速有关。
也是在最近,英特尔高级院士、英特尔研究院院长Rich Uhlig在撰文解析英特尔的2030计划时,谈及“沉浸式临场感技术”如何通过阵列摄像头技术、计算声学和多模型信号语义理解来改善虚拟和远程工作体验,谈到了英特尔的环境计算。
6月16日,在2020国际计算机视觉与模式识别大会上,微软CEO萨提亚和微软前执行副总裁沈向洋的炉边对话中谈到了“4D理解”,并准备将它发展成“现实即服务”,利用实时的计算机视觉技术,对人、地、物等要素进行推理以确保安全,提供给医院或工厂车间等。还谈到了“全息瞬移”以及背后的神经网络文本、运营TTS、全息计算等。这些技术与环境计算有关。
当谷歌、英特尔、微软等不约而同地谈到环境计算时,意味着什么?环境计算究竟是厂商们打造的新“噱头”还是有可能改变我们认知的“新世界”?其中有哪些难点有待业界共同破解?创造新产业有哪些方法可寻?
厂商纷纷加码环境计算
在去年10月举办的2019谷歌制造大会上,Rick Osterloh公布了谷歌的新使命、新愿景:“让你的设备和服务与AI一起协作,在你需要的任何时候过来帮助你,在你不需要的时候自动隐身。”其后,Osterloh撰写博客解释了谷歌推出的“环境计算”概念——在你的一天中,设备会消失在背景中,人工智能和软件则将一起工作来帮助你。在谷歌宣布了这一大概念之后,谷歌就将其诸多的服务纳入了其设备中。
在谷歌的概念里有几个关键:其一,人是中心而非以设备为中心。其二,它是设备+服务+AI的大集成,是一个大系统。其三,具有不可见性,召之即来、挥之即去。环境计算是众多的技术组合在一起,创建一个可以满足个人需求的环境。从本质上看,环境计算是物联网与人工智能等互联概念的演变。
环境与计算的融合,计算的维度将发生改变。比如客厅中的语音驱动扬声器和智能恒温器,虚拟坐席和聊天机器人都是环境计算的组成部分。当你走进客厅,房间传感器感应到你的身影,扬声器会自动朗读当天的新闻。在商务会议室,人工智能技术则自动收集对话信息并做笔记,自动调节摄像头与麦克风,提高画面质量,减少环境噪音,以便我们将更多注意力集中于对话与交流,而忽略环境影响。
当然,环境计算的概念并非谷歌首创。早在上世纪80年代末90年代初,尚在施乐帕克研究中心担任首席技术专家的Mark Weiser就创造了环境计算这个词条,并与施乐帕克研究中心的董事和首席科学家John Seely Brown撰写了大量论文来描述这个概念,主要关注计算环境中出现的界面和交互问题。之后有很多研究和学术项目都是围绕这个课题进行的。众多的前人研究为这一概念的落地做了大量积累和铺垫,到这个时间点,巨头们让它的产业化脚步越来越快。就像触摸式操作系统并非苹果发明,但是苹果将其用在iPad、iPhone上,开启了移动计算的黄金十年一样。
在今年花1.8亿美元收购North之前,谷歌已将诸多的服务纳入了其设备中,比如在Pixel手机上,加入了“Soli”运动雷达感应技术,用户无需接触,手势即可操作手机;比如改良其入耳式耳塞PixelBuds,搭载的“自适应声音”技术可根据用户所在的环境自动调节音量;又比如对Nest智能家居部门进行了大量更新等。
事实上,不同的巨头对于环境与计算融于一体有不同的定义和理解。微软中国有限公司首席技术官韦青在接受《中国电子报》记者采访时表示,真正的环境计算是让你感受不到任何设备、任何计算,它通过眼、耳、鼻、舌、身五官来感知信息、交互信息,或许到更高阶段时,信息的呈现不是通过设备而是通过光。当然,它的发展不是一蹴而就,而是不断迭代的。
就在7月9日,微软协作工具Teams宣布上线Together模式,这个模式能够将视频会议中的人物从背景中抠出来,然后放到虚拟的大礼堂背景中。目前Teams最多支持49人同时在线,整体效果就像是坐在一起听课。Together Mode的初衷是帮助远程工作者,尤其是被迫待在家中的孩子减轻和克服长期社交隔离的落差和心理压力。
“环境计算是英特尔的中长期研究计划,也就是3~5年时间的研究计划。目前美国的团队已经做了一段时间,现在已经开始进行现场实验了。主要特色是用环境里部署的多种传感器来感知人的活动和与物体的交互,然后进行语意理解,再通过与环境融合的投影方式跟参与者互动。”英特尔中国研究院院长宋继强对《中国电子报》记者透露。
环境计算多久会成熟?
就在谷歌去年宣布环境计算计划之时,很多人包括媒体以及科技知名博主们都对其新计划的落地、商业模式以及用户接受度等提出了质疑。而事实上这样的计划并不是一下子铺开的,它是一个远景。如韦青所言,会“迭代式”往前推进,迭代会成为未来世界创新发展很重要的特征。
所以,关于环境计算,巨头们一方面会在原有的产品线中不断注入新的能力、新的体验,另一方面不断创造和丰富新的维度,它是长期中期短期结合的计划,并不是一个孤注一掷的商业冒险。
衍生与迭代会成为巨头们将长期中期短期相结合的行走方式。一个例子来自微软,在21世纪初微软开始用计算机视觉研究骨架追踪和人体感知的基础科学;在2010年它推出了第一个商业产品Kinec;,在此基础上,微软剑桥研究院做出了能够完全重构3D环境,让人与环境融为一体的 Kinect Fusion、 HoloDesk;再然后是在2015年,微软推出了HoloLens;2019年推出了HoloLens 2。
我们完全没有必要为巨头们的商业落地和商业模式操心。就像这次微软在Teams中上线的Together模式,它是在微软原有的产品Teams中加以改进,增加了多人协同的真实感和交互感。就像谷歌在其Pixel手机上,是将“Soli”运动雷达感应技术加入一样。谷歌和微软走的是两条不一样的路线,微软聚焦“生产力”维度,所以它的环境计算场景会最先选择像办公、开会等体验的改建,像医院病人起身跌倒等行为异常的检测,以及预防工厂环境下重物跌倒等场景的应用。而谷歌更关注消费与娱乐的人群,你在家、在路上、在娱乐等更维度所需要的服务,以及与智能家居和环境的互动等。
有人认为,环境计算市场究竟多久能够从量变到质变的一个信号通常是看苹果,但这次苹果似乎没有大张旗鼓地谈论环境计算,这与其一向只喜欢“苹果成熟时”才向市场宣战的习惯有关。不过,近日苹果申请的一项专利显示,除了眼镜和耳机,苹果还在为其VR(虚拟现实)战略研发一款专用手套。专利中提到,该手套支持检测各种手势动作,适用于笔记本电脑、平板电脑和智能手机等多个场景,还可应用到全息投影模组、联动PC和打印机等设备的场景,让用户在虚拟中体验真实的触感。如果这个市场的发展是渐进式的,各个巨头都已经往前走了,届时苹果还是那个市场成熟的风向标吗?也未必。
环境计算中的关键痛点
巨头企业总是比其他人更早感受到窘境和焦虑,就像这次因为疫情的发生,“线上化”成为常态。当越来越多的人待在“线上”比“线下”的时间长很多时,如何减少线上办公、线上开会、线上沉浸的焦虑感、不真实感,创造新的舒适和安全和体验的环境计算,就成了巨头企业们思考的新维度。
“现在大家都在讲,世界不会再回到疫情以前的状态,会产生很大的变化。具体有什么变化?在我看来,过去大量通过‘人-人’(人和人接触)的方式来完成的事情,以后很多会被‘人-信息-人’(人和人不直接接触)的方式取代。”中国工程院院士潘云鹤认为,“当大量的会议远程化之后,从我个人的使用体验来看,大部分远程会议系统都有待完善。”
最突出的问题在于网络会议难以进行充分和及时的讨论,线下开会那种“你一言,我一语”的互动很难有效实现。这意味着中间的调度器不够灵活,不能远程、及时,并善解人意地开关、切换话筒和镜头。潘云鹤这样谈及其中的挑战,并认为问题就是动力,企业应该瞄准这个其中的商机,研究更智能的产品,占领各个山头。
问题就是动力,寻着现实问题进行研发也是科技巨头的解题方法。英特尔研究院院长Rich Uhlig透露,目前其研究院研究创新的沉浸式临场感技术,用于支持仿真交互,应对许多人因长时间虚拟工作而出现的“虚拟疲劳”综合症。这些技术在现有直播解决方案中集成了多摄像头流,并整合实现仿真交互,可用于视频通话及在线直播内容。他们经过人类学研究发现,人们使用注视、手势、姿势、体态、话语、行动及其他提示来实现对某一领域和所指之物的共同关注,从而建立起有效的互动。他们正在探索如何通过阵列摄像头技术、计算声学和多模型信号语义理解实现沉浸式互动,从而减少全虚拟环境中的摩擦和认知负荷。
在环境计算推进过程中哪些难点是巨头们关注的?宋继强认为:“环境计算的挑战在于,一是从多模态的感知到形成个性化的对用户理解。二是怎样把交互内容跟沉浸式技术形式很好地结合起来。”
从多模态感知到形成个性化对用户的理解,韦青认为其中的难点是建模。他表示:“当我们利用传感器收集了大量的数据,我们如何将这些数据进行建模,形成我们对事物的认知,而这其中很关键的挑战在于,目前我们的建模能力还很弱、还不够高效、不够全面,还是单点的。而图计算是破解这一难点重要突破方向。”
图计算(Graph)最近很热,包括在刚刚举行的世界人工智能大会上,它也是热门的技术。Rich Uhlig在此前接受《中国电子报》记者采访时表示,图计算也将是非常重要的一种新型计算方式。计算主要是发现数据之间的内在关系,尤其是大规模的数据之间的内在关系。今天,现有的计算系统运行图计算所涉及的数据库效率非常低。因为这些关系型数据本身就非常稀疏,在内存访问模式上具有不稳定性,所以贝叶斯算法无法应用。图计算可以有效提升稀疏数据的处理效率。
寻找更多更有效解决这个世界难题的技术,创造更多让我们更舒适的技术。在接受采访时,韦青多次强调不要设限。他认为:“我们需要从更大的维度看待挑战,看待技术的发展,当技术和产业走到今天这样的一个节点,我们看待世界、研究世界的方法,以及创新的方法已经和原来不一样。从还原论到系统论,从单一到复杂,从瀑布式到敏捷式开发,从产品有版本到无版本,这代表什么?代表这个世界变化的认知能力与改造能力和过去不一样。”
从设备到AI到服务,我们如何“不设限”地进行创新,又如何围绕人、围绕场景进行最佳的组合,有着巨大的空间以及巨大的商业机会,等待产业更大维度携手创新。