微软公司CEO眼中那些未来可期的计算机视觉研究与应用

1.jpeg

编者按:6月16日,CVPR2020大会以全球连线的形式如期开幕。在大会的首场主题演讲中,微软公司CEO萨提亚·纳德拉与微软公司前执行副总裁沈向洋进行了一场精彩的炉边对谈,分享了对计算机视觉、人工智能研究与应用前景

编者按:6月16日,CVPR 2020 大会以全球连线的形式如期开幕。在大会的首场主题演讲中,微软公司 CEO 萨提亚·纳德拉与微软公司前执行副总裁沈向洋进行了一场精彩的炉边对谈,分享了对计算机视觉、人工智能研究与应用前景的思考与展望。本文为大家整理了完整的文字实录。

沈向洋:大家早上好。欢迎参加 CVPR 2020 大会,欢迎来到西雅图,非常感谢大家从世界各地连线参加这次会议。我是 Harry Shum (沈向洋),很高兴担任本次 CVPR 大会首个主题演讲的主持人。感谢大家观看我和微软公司 CEO 萨提亚·纳德拉的炉边对话。你好,萨提亚,非常荣幸邀请你参加 CVPR 2020。我认识你有将近20年,而且有幸在你麾下工作多年。面对今天的观众,能不能请你首先和大家分享一下,你是如何在印度长大,来美国学习计算机科学,在1992年加入微软,并最终成为微软的 CEO 的经历。

萨提亚:首先,非常感谢 Harry,很高兴受邀作为演讲嘉宾参加 CVPR。我们正在经历一个前所未有的时期,能有这样的机会和大家相聚在一起,探讨计算机视觉等技术领域的重大突破、以及科技创新能为世界带来的积极贡献,让我感到特别兴奋,很高兴能与大家共聚一堂!Harry 要我谈谈我的个人经历,我在印度海得拉巴长大,在那里度过了很多年,那时的我从未想到会有此时此景。20世纪70年代中期的海得拉巴和今天完全不同,那时有两样来自美国的东西,最终改变了我的一生。第一是美国的技术,个人电脑,我很幸运在那个时候接触到了电脑,从此有了自己的梦想,第二是美国的移民政策,让我有机会来到美国求学。之前我从未去过孟买西部,结果却来到了美国的威斯康星,这在当时是个不可思议的选择。但由此开启的机遇,无论是上学还是进入微软工作,最终成就了我的人生和我今天的样子。因此,我对过去所经历的一切始终心怀感激。今天我非常确信,机遇能带来巨大的影响,它让我这样一个印度孩子活出了不一样的人生。我认为这是一种殊荣,我们应该思考,对于我们这些有此殊荣的人来说,我们在创造技术和技术平台的过程中,该如何推动它普遍造福于每一个人。这样的想法,是推动我前进的根本动力。这也是微软使命 “予力全球每一人、每一组织,成就不凡”的根基。它鞭策我每天努力工作,激励我们全力以赴地做出最好的成果。

沈向洋:非常好,感谢萨提亚。你的故事非常鼓舞人心。CVPR 是计算机视觉的盛会,现在让我们直奔主题。微软从很早以前便投身于计算机视觉领域,就在几天前我的好朋友、CVPR 2020 大会的主席 Gerard Medioni 教授还提醒我说,微软研究院支持 CVPR 大会已经有差不多30年了。你能否与我们分享一下,微软为何如此热衷于计算机视觉?你在计算机视觉领域最关注的焦点有哪些?

萨提亚:当然可以。Harry,你本人就是微软这个历程的关键推动者。从21世纪初开始,我们在计算机视觉领域就开始了包括骨架追踪、人体感知等基础性的研究。在2010年,我们将这些技术转化成了第一个商业产品,Kinect,我认为这是一个突破性的产品,而且它也的确成为了当年最畅销的消费产品。在此基础上,微软剑桥研究院做出了能够完全重构 3D 环境的 Kinect Fusion,随后又有了 HoloDesk。我始终记得第一次看到演示的场景,它让人与 3D 环境完全融为一体,让你可以在桌面上摆弄一个 3D 物体。2015年,我们完成了产品化的 HoloLens,2019年,又推出了第二代的 HoloLens,HoloLens 2,它提供了两倍的视野、两倍的舒适度,并且还带来了很多精彩应用。

除此之外,让我感到特别兴奋的,还是看到计算机视觉技术在云和边缘设备上的创新应用。我们在2016年,在物体识别领域达到了接近人类的水平。2018年发布的 Azure Kinect 提供了板载边缘计算的能力,从此我们把 Azure 认知服务带到了 Azure Kinect 上。有了这些完善的工具链,我们就可以围绕计算机视觉,做出更有创意的研究和应用。事实上,已经有很多 ISV 和第三方开发者将 Azure Kinect 应用到从生产制造到医疗卫生的不同场景。在美国的医院里,每年平均会发生大约100万起跌倒事故。一家名为 Ocuvera 的 ISV 开发出了视频监控解决方案,利用 Azure Kinect 来分析病人的动作特征,当无人照料的患者试图起身离开床的时候,系统就会向护士和护工发出警告,从而提前避免跌倒事故的发生,其准确率已经达到了96%。

位于俄亥俄州的美国全国儿童医院,在使用 Kinect 对婴儿行为不协调的情况进行早期筛查,发现脑瘫等疾病的征兆。他们使用计算机视觉模型搭建了原型,来判断婴儿动作的健康程度,让护理人员能够尽早采取干预治疗手段。对于此类疾病,尽早治疗极其重要。医疗设备公司 Evolve 用 Kinect 来改善中风后遗症患者物理康复治疗的效率,他们的方案将传统的身体训练与互动游戏相结合,并且针对每一位患者的个人情况进行了定制。

当我们在 CVPR 大会上讨论计算机视觉的未来时,有三个突破方向让我尤其感兴趣,我希望能推动它们的发展,给现实世界带来积极的影响。第一个方向,我称之为“4D理解(4D Understanding)”,之前我也和 Harry 聊过,可以把它发展成“现实即服务(Reality-as-a-Service)”。比如说,在医院或者工厂车间这样特别关注安全和质量的地方,如果我们想要利用实时的计算机视觉技术,对人、地、物这些要素进行推理以确保安全,这将是一个非常了不起的突破。我们已经在一些案例中看到了实际部署的情况,请让我用一段视频,来动态展示一下效果。

视频内容翻译:我们正在开发一项名为“4D Understanding”的技术,它整合了来自多个 Azure Kinect 的数据,通过计算机视觉模型进行实时的空间分析。系统能够跟踪物品、人、互动行为及群组活动。云端的视频和动作理解模型,会发现这个人正在用不安全的方式举起大罐子,他用的是背部而不是腿来发力。在物品识别窗口,一个人正在组装零件。红色和绿色的圆圈显示的是手部跟踪。Azure 认知服务的计算机视觉 API 针对物品进行了训练,能够检测出这些对象。另外有一些模型则用来分析组装的动作。这能让我们发现被遗漏的步骤。在这里,系统检测到有一根电缆没有被组装进去,因此组件被判断为未完成。通过整合多项计算机视觉技术,我们的系统可以实时提供用来指导决策的洞察。

萨提亚:在远程协作无处不在的今天,另一个让我感兴趣的领域,是“背景替换(Background Matting)”。即使人在家中坐,我们也可以把你搬到舞台上去。事实上,在最近举办的微软 Build 开发者大会上,我们就把演讲者在家中的影像拍摄下来,天衣无缝地投射到一个虚拟舞台上,完全不需要使用绿幕。我想这也是计算机视觉的一项突破,下面的视频,将展示我们和华盛顿大学合作的成果。

视频内容翻译:利用计算机视觉模型和 Azure Kinect 的景深数据能制作出虚拟背景。为了保障大家的健康,今年的微软 Build 年度开发者大会以虚拟形式召开。演讲者出现在虚拟的舞台上,你可以看到他们本人其实是在一个普通的房间里,并没有使用绿幕。我们让演讲者利用连接到笔记本电脑的 Azure Kinect 给自己录像。Kinect 可以记录 RGB 色值和景深数据,将其放入以华盛顿大学的研究为基础开发的人工智能模型,就能生成动态的透明蒙版,然后我们就可以用虚拟舞台替换掉背景。与目前市面上的其它技术相比,背景的质量非常不错。我们希望能够制作出逼真的虚拟背景,从而创造出更加身临其境的体验。背景替换的相关代码,已在 GitHub 上开源。

萨提亚:第三个突破,是我们在将近一年前所展示的”全息瞬移(Holoportation)”。这段视频演示了我们的同事 Julia White 在台上用英语演讲,而她的全息影像同时在讲日语,这其中综合运用了神经网络文本到语音 TTS(Text-to-Speech)、全息计算等技术。像这样自由地超越时间、空间和语言的局限,在我看来是一项了不起的突破,我希望这样的技术能够得到加速发展。

首先,Julia 启动了 HoloLens 2。这时她的掌心里出现了一个微型版本的自己

紧接着,一段炫酷的特效后,真人比例 1:1 大小的全息影像版 Julia 出现在了大家面前

“复刻版”Julia 的表情神态和语音语调与“本尊”如出一辙,更让人震撼的是,她居然用流利的日语做起了演讲(要知道,Julia 本人并不会日语)

沈向洋:非常精彩,萨提亚,这也唤起了我最宝贵的回忆。我想起了很多年前,我们在微软刚刚成立计算机视觉研究小组时的情景,我们有 Rick Szeliski、Matthew Turk 还有很多了不起的人物。你也提到微软研究院在全球有很多分院,比如英国的剑桥研究院、中国的亚洲研究院,还有印度研究院等等。很多来自微软研究院的视觉技术,已经成功地融入到了微软的产品中。最让我兴奋的,就像你所说的,是科学研究和产品之间的密切联系和转化,比如你说的 Kinect、HoloLens 还有很多项目,像是 Julia White 的这个全息瞬移的视频。我想计算机视觉的发展前景,一定是不可限量的。

萨提亚:绝对如此。

沈向洋:接下来,让我们从计算机视觉转到人工智能,AI。微软投身人工智能研究也有很长时间了,特别是在比尔·盖茨先生1991年创建微软研究院之后。我还记得微软研究院最初成立的三个研究小组就是自然语言处理、语音和视觉,这些都是 AI 的基础。最近,你也在反复强调,云计算和人工智能将是微软未来成长的关键。上个月在 Build 大会上宣布的 AI 超级计算机也非常激动人心。那么,微软对于人工智能接下来的发展的看法是什么?

萨提亚:确实像你说的,微软研究院最初的三个研究小组就是语音、视觉和语言。到了2020年,我们仍然在关注这三个领域,但有了更大的雄心壮志,也取得了更大的成功,我对此充满了期待。

在我看来,过去几年中最值得关注的一个事情,是大规模计算,能够计算更多参数的模型将带来更令人惊奇的结果,特别是在语言方面。你知道,从循环神经网络(RNN)到 Transformer 模型,最后得到的结果都是巨大无比的。当你还在微软领导科研团队时,我们发布了带有170亿个参数的“图灵模型”。现在,我们又和 Open AI 合作,把这个数字提高到了1700亿,这是非常激动人心的进步。而我们还更进一步,特别为此打造了超级计算机。在处理这种级别的超大模型时,我们要面对种种挑战,甚至需要克服“摩尔定律”的局限,因此我们必须要重新发明整个系统,让超大规模机器学习成为可能。很高兴我们最终在 Azure 上建成了 AI 超级计算机,我们和 Open AI 正在上面训练这些模型。同时我们正在把这些模型平台化,让其他人也可以在这些模型的基础上,进行一些微调,来满足他们自己的使用需求。让我更加兴奋的是,我们还可以举一反三,将这些从文本、语音、图像中学习到的 AI 训练的方法推而广之,来对知识形成更好的表达。因此,我想,在接下来的几年中,我们将看到来自系统层、建模技巧、训练技巧,当然还有应用层面的更多突破。比如说在医疗保健领域,如果我们希望能在精准给药方面有所进步,则需要在临床报告、医疗影像等方面的创新,并且把这些创新汇聚起来推动真正的突破。

沈向洋:的确非常值得期待。关于你提到的170亿个参数的图灵模型,还有1750亿个参数的 GPT-3 大规模模型,我还想补充几句。我们知道,在微软内部,很多研究小组不但在利用 Azure 训练自己的模型,甚至实现了小样本学习、单样本学习,乃至零样本学习。这其中蕴藏的机遇真的是非常惊人。萨提亚,今天我们的主题演讲是通过虚拟的方式在线进行的,因为我们正在经历一个特殊时期。既然计算机视觉、人工智能有这么多令人兴奋的前景,我想请你分享你对于 AI 视觉技术最真实的想法:现在我们该如何利用这些技术帮助大家,过好自己的生活、做好自己的工作——不仅是在当前面对疫情的时候,更重要的,还是在疫情过后的世界里。能否和我们分享一些案例,告诉我们微软在做什么,微软在如何帮助人们,特别是帮助那些在一线工作的人。

萨提亚:的确如此,Harry,我想这场疫情将人们对数字技术的迫切需求推到了前台,我们在思考技术该如何在全社会的规模上,帮助人们去应对、恢复、以及重构今后工作和生活的方式。我想,这三个阶段其实是同时进行的,而包括计算机视觉在内的数字技术,将在其中发挥重要作用。事实上,我们刚才看到的那段视频,展现了工厂车间里的远程感知、远程监控,以“现实即服务”的方式来确保安全,用数字孪生来保障安全运行,这对于制造业来说,都是非常重要的趋势。我们在制造业看到的另一个应用,是对生产线进行及时、快速的调整,比如说迅速转产制造呼吸机。在这个过程中需要专家的远程指导,来帮助工人重组生产线,HoloLens 结合 Dynamics 的 Remote Guides 应用,在这个过程中发挥了重要的作用。这是在制造业上。

在医疗卫生领域,在英国的医院里,我们看到了 HoloLens 和 Microsoft Teams 结合的应用。医生在照料受新冠病毒感染的患者时,不但穿着全套个人防护装备,还佩戴着 HoloLens。HoloLens 能够拍摄到医生看到的视野,并将其通过 Microsoft Teams 传送出来,让隔离区外的其他医生也能看到患者,并远程给出治疗建议。安全和协作以一种全新的方式,在抗击疫情的第一线发挥着作用。在医护教学方面,凯斯西储大学医学院让学生在家使用 HoloLens 远程参与解剖课的教学,确保能够以逼真的体验继续教学课程。这是很了不起的突破。

总之,我认为无论是在制造业、医疗领域,还是教育方面,我们将看到一大批突破层出不穷地涌现出来,而计算机视觉,无疑将是这个“远程无处不在”的世界的关键技术。

沈向洋:确实如此。我觉得你说的非常好。现在,数字化转型正以某种方式加速推进。我想疫情迫使我们必须要想得更长远些。我还想问问你,对于未来的工作方式,以及疫情过后的世界有什么想法。你认为人们将越来越多地依靠远程技术工作吗?我记得你之前也说过,从今以后人们用完全虚拟的方式做一切事情是不可思议的?而现在有些公司已经宣布将长期坚持远程工作。

萨提亚:我觉得从核心层面来看,我们总是希望企业内部的每一项功能都可以实现远程化。远程销售、远程运营、远程支持,真正大规模的远程工作。我觉得这一点是毋庸置疑的。这将是企业维持业务连续性和弹性的基础。我想接下来我们要学习的,是如何帮助不同行业中,不同功能部门的不同的角色,更好地提高远程工作的效率。我相信,在某些行业中的某些角色是完全适合远程工作的。事实上,在微软,在疫情爆发之前,我们有很多职位就已经是100%远程工作的,而且他们的工作都很高效。当然,也有某些职位需要人们有时候聚在一起相互协作。

我想说的是,我认为我们不是要用一种教条取代另一种教条,对我们来说,更重要的是通过实践发现,我们在远程工作中收获的好处有哪些,并且要有目的地对其加以利用和放大。这样,当我们走出疫情的影响时,我们就可以更好地发挥这种灵活性来帮助他人,不仅是用来工作,更是为人们谋福利和满足人们的需要。比如说,现在我们在西雅图地区的很多员工都在家工作,但我们发现,有些人希望在疫情结束后回到公司上班,因为他们希望有专门的工作场所和更好的网络连接——因为一些结构上的问题,即使是在西雅图这样的大城市,Wi-Fi 和宽带也会存在局限性。所以,我希望我们能够理性地认识到世界不同地方的人们所面对的现实各不相同,要找到实现灵活性的最佳方式,重新认识远程工作的优势,并且真正为更多人提供助力。

沈向洋:很高兴听到你的想法,萨提亚。我的感悟是,无论我们面对怎样的挑战,比如当前的疫情,我们总能通过创新找到出路。尽管需要付出巨大的努力,但我们终将走出困境。萨提亚,让我们回到微软公司的话题上来。过去六年多,你做了大量的工作领导微软实现了成功的转型。你在社区建设上尤其投入了大量的精力,并且做出了很多大胆的尝试,比如收购面向商业人才的 LinkedIn 和面向开发者的 GitHub。事实上,CVPR 是一个汇聚了计算机视觉研究者和从业者的大社区,这两年,每年 CVPR 大会的参与者已经达到了接近1万人的规模。我们中的很多人都想从你和你的经历中得到一些建议和启示,来促进整个社区的成长。你认为,我们这个计算机视觉社区,应该如何相互帮助、共同工作、共同成长,并更好地贡献社会呢?

萨提亚:当然,Harry。我们说予力全球每一人、每一组织,成就不凡,其中的关键就是利用数字技术,帮助人们以及人们所建立的机构和社区共同创造、共同繁荣。这是微软使命的中心思想,也是微软商业模式的核心所在。只有我们所服务的整个世界变得更好,我们才能变得更好。无论是帮助小企业更具生产力,帮助覆盖全球的大型国际公司更具竞争力,还是帮助公共服务部门提高效率,帮助教育、医疗得到发展,帮助大型社区共同繁荣。对我们来说,这是核心所在。你刚才提到的那些收购,包括开发者社区 GitHub、面向商业人才的 LinkedIn,还有 Minecraft 等游戏玩家社区,我们很荣幸能够服务这些社区,同时这些社区也让我们的根基更为扎实。

在计算机视觉领域也是同样的道理。计算机视觉研究者相互团结,创造科技突破的传统由来已久,微软研究院与学术界合作,共同推进产品创新的先例也是不胜枚举。来自苏黎世联邦理工学院(ETH)的 Marc Pollefeys 就是最好的例证。他和微软合作,推动了很多产品的创新,但同时他也在 ETH 创办了世界级的研究中心。这样的跨界合作正是社区建设的核心。这不仅限于计算机视觉,也适用于人工智能的更广大领域,并延伸到整个数字技术的范畴之中。在微软,我们希望能够促进生态系统平台的思考,帮助社区团结在一起,更重要的,是促进不同社区之间的相互合作,通过合作放大社区的力量。

沈向洋:说得好,萨提亚,你带给我们很多启示。社区的一个重要属性就是国际化。就像 GitHub 是国际化的,LinkedIn 是国际化的,游戏社区是国际化的,计算机视觉的 CVPR 社区也不例外。那么,作为一家跨国公司的领导者,面对很多你熟悉的学科社区,你觉得他们该如何更好地推进国际合作呢?

萨提亚:好的,Harry,接下来我们来聊一聊国际合作。无论是 CVPR 这样的科研社区,还是微软这样的跨国公司,我想我们必须要理智思考的一件事是我们的工作,无论是相互合作还是独自完成,如何才能真正帮到每一个国家的每一个社区。所谓全球化,如果不能让当地从中获益,就无从谈起。事实上,从上一轮的全球化来看,我们看到它让很多人受益,但也有很多人被撇在了后面。因此我现在想说,微软应该在某种程度上有所作为,这就是为什么我无论去到世界任何地方,都会注意观察,并且表达微软希望积极参与和帮助地区和国家发展的愿望。我希望我们的星星之火,可以为促进小企业、大企业、公共服务部门、医疗、教育的发展,帮助改善当地资源供给、就业情况,提高技术水平,做出些许贡献。作为一个全球社区,无论是科研社区还是跨国公司,我们必须在推动全球合作的同时,积极参与和对本地发展作出贡献。如果我们能在这方面有更多的想法,在这个方向上贡献出更大的力量,我们就越能保持发展的活力。

沈向洋:非常好的观点,萨提亚。事实上,在 CVPR 社区以及其他的大规模计算社区,比如 ICCV,我们的想法也都是这样。这也是为什么 CVPR 大会几乎在每一座拥有大学或者研究院的美国城镇都举办过。ICCV 大会是在不同的大洲轮流举办,就像你说的,只有当地社区都得到繁荣发展,才能真正成为一个全球性的组织。非常好。那么,萨提亚,我们现在还有一点时间,我这里有几个提前从观众那里收到的问题。第一个问题是个很适时的问题,我知道你也在这上面思考了很多。关于人工智能,关于有道德地运用人工智能,关于负责任的人工智能,我们意识到你和微软花了大量精力来阐述这个问题,还在这方面做了很多艰难的决定。你能否分享一些在这方面心得和教训?

萨提亚:当然了,Harry。我们一直在理智地思考,如何制定一套设计规则,确保在创造 AI 时,能够将核心的道德思考烙印到工程开发的流程中去。在我们看来,确定 AI 安全和有道德地使用 AI 的设计原则,就像在编程时确定运行环境一样重要。在这个设计原则中,我们首先建立了一套具体的工程学原则,从公平、可靠,到安全、隐私等。这样,我们保证符合道德成为设计流程的一部分,我们将其作为首要的设计要求而不是一个抽象的概念。

在计算机视觉领域,我们一直在实践这样的要求。比如基于我们的 Face API 的面部识别。首当其冲的挑战就是我们该如何确保消除偏见。感谢 NIST 推出了可靠的评分标准,现在可以对不同种族人群的面部识别效果进行比较,从而确保我们的模型中不存在偏见,由此创造出的透明度标准也很有帮助。很快,我们将为客户提供帮助指南,告诉他们该如何根据自己的数据,去度量 Face API 的性能表现、设置正确的阈值,并对错误匹配进行平衡。这是一个例子。

在另一边,是对运行环境和有道德地使用 AI 的思考。我们必须意识到,有时候,即使在设计过程中完全心怀善意,如果没有在运行环境中植入能够保护隐私和民主自由的措施,最终也可能在无意间得到坏的结果。过去两年,我们一直专注于开发和执行严格的原则来管理我们的面部识别技术,自2018年以后,我们也在呼吁政府制定相应的严格保护法规。我们公开了我们在相关项目中采用的定义原则。我们还拒绝了很多不符合原则的项目。我们没有把面部识别技术卖给美国警局部门;我们也承诺,在美国出台符合人权的严格的全国性法律之前,不会将这项技术卖给美国警局部门。我们在积极呼吁制定严格的全国性法律,否则,我们将看到负责任的企业离开这个市场,让另一些人乘虚而入。

面向未来,如微软这样的公司需要在打造负责任的人工智能的实践中做出最好的努力,以将其烙印到工程流程中,同时在技术被使用时确保它既符合我们坚持的原则,也满足全球各地法律法规的相关要求。

沈向洋:这的确是规范 AI 的有效途径。从设计原则和运行环境两方面,让人们必须认真思考 AI 设计的重要道德问题和责任。毫无疑问,计算机视觉也是其中一个重要的部分。那么,萨提亚,最后一个问题是,作为全球第一号公司的 CEO,你每天都在思考重大的机遇,以及如何帮助更多的人们。那么,能否告诉我们,你觉得今天最适合应用云计算、人工智能,以及计算机视觉的行业有哪些?

萨提亚:非常好的问题,Harry,因为从某种意义上看,这是我和微软的同事们思考最多的问题——下一步,我们怎样才能让数字技术产生更加深远的影响呢?想想看,过去10到15年的发展很显眼,但我想说有些应用场景其实要窄得多。消费级互联网方面的突破有很多,但如果你去看生产力以及生产力推动经济增长的曲线,观察它对小企业、大企业,对经济中的不同方面,对世界的不同地区带来的影响,就会发现,我们的增长率甚至还不如20世纪90年代到21世纪初由 PC 兴起带来的增长。如果你去看 Robert Gordon 对美国生产力的评价,就会看到,他明确指出在1870到1940年代之间有着惊人的进步。他还指出信息技术特别是个人电脑,带来了20世纪90年代到21世纪初的生产力增长。但从那之后,我们就没有实现生产力的明显增长。原因何在?其中可能有统计学和计量方法上的偏差。但我想说的是,我希望在下一个阶段,在人工智能、云计算,以及计算机视觉这样的技术的助力之下,我们能看到更多行业的普遍增长。

我对此满怀期待。比如说医疗健康领域。美国 GDP 的19%来自医疗健康领域。那么,我们是不是有可能在精准给药方面获得突破呢?我们可以利用临床数据、分子图像,在如何治疗病人以及管理诊疗方面真正取得突破。在这个一切皆可远程的世界里,自主性——无论是从内而外的还是自外向内的,例如我们在“现实即服务”的视频中看到的就是从内而外的经济形态,人在运动,物也在运动,有人在观察,并帮助确保这些人和物安全地运行,或者这些物体自动化地在现实世界里运行。能在现实世界中自主运动的物体将彻底改变交通运输,还有很多场合下的运行安全。零售业、商业,都将因此发生显著的改变。现在大家都在说线下、线上的全渠道,事实上新冠疫情的影响推动了诸如无接触购物、线上下单到店自取等解决方案的快速发展。我想这将是零售业的一个重大分水岭。而能确保食物安全的精准农业,也将是另一个大的领域。

还有一个让我兴奋的领域,与计算机视觉尤其相关,那就是无障碍设计。全球有10亿人因为身体不便无法参与到社会经济中来。如今我们所掌握的技术,像是机器阅读理解,可以帮助阅读障碍的人们读书;像微软开发的Seeing AI这样的工具,借助最新的计算机视觉突破,为视觉障碍人士讲述这个世界的模样;还有 EyeGaze 项目,能够通过追踪渐冻症(ALS)患者目光的运动,帮助他们打字并与他人沟通。我由衷希望,我们在人工智能领域能够取得真正的突破,带来更新、更强大的无障碍技术,帮助世界各地的这十几亿人,参与到社会活动和经济生活中来。

所以,这些都是让我兴奋的领域。

沈向洋:的确都是非常非常令人期待的领域。在我听来,你的核心思想还是聚焦于生产力,服务于全球每个地方、每个人的生产力。

萨提亚:是的,没错。

沈向洋:萨提亚,我的最后一个问题,我要替在场的观众提问:微软是否会聘用更多计算机视觉方向的人才?

萨提亚:我们永远都想要更多计算机视觉的人才,而且我们真心希望能够与今天汇聚在这里的计算机视觉社区进行合作。再次感谢你,Harry,为我提供了这个机会。这是一个非常重要的社区,尽管面对重重阻力,但我很高兴看到大家仍然能汇聚一堂共同探讨技术的进步。有一点你说的很对,最重要的不仅仅是我们的技术和技术突破本身,这次大会之所以能够鼓舞大家,其关键在于,这项技术将如何引领经济以更加包容、平等的方式发展,并真正帮助地球上的每一个人更好地实现他们的梦想。我想这才是我们每个人内心深处的声音,真高兴今天能有这个机会和大家一起畅所欲言。

沈向洋:非常感谢,萨提亚,非常精彩的演讲。感谢你抽出时间参加大会,也感谢在线收看的各位观众,相信我们的计算机视觉将迎来美好的未来。谢谢大家!

产品图.jpg

赞 (0)
上一篇 2024年12月23日 23:42
下一篇 2024年12月23日 23:42