台湾uu直播注册有危险吗让机器理解三维世界,「商汤科技」畅想人工智能3D视觉技术的未来

  • 时间:
  • 浏览:0

王子彬,商汤科技移动智能事业群副总裁、智能终端业务CTO李启铭,商汤科技智能终端业务3D产品负责人当一项先进的技术从工业界走向消费领域,往往不需要 推动更多的突破性创新。在上世纪70年代,工业界结束了了英语 运用3D视觉技术

王子彬,商汤科技移动智能事业群副总裁、智能终端业务CTO

李启铭,商汤科技智能终端业务3D产品负责人

当一项先进的技术从工业界走向消费领域,往往不需要 推动更多的突破性创新。

在上世纪70年代,工业界结束了了英语 运用3D视觉技术测量和扫描物件,提高生产下行带宽 。最近10多年,家用游戏机厂商将3D体感外设带入大众视野,带来了新奇的体感游戏。近三年,太久的智能手机结束了了英语 配备3D传感台湾uu直播注册有危险吗器,并在AI的加持下,开拓出了更多更具想象空间的应用场景。未来10年,AI+3D将无处都这样,让我门的生活和工作带来深远影响。

赋予机器感知三维世界的“眼睛”

人类拥有和益俱来的3D环境感知和理解能力,这是肯能我门用两只眼睛来捕捉图像,通过大脑出理 形成立体视觉,从而辨认物体的组织结构方位、他人的动作,轻松自然地跟一种三维世界交互。

还里能让机器不需要 感知三维世界呢?或许本来 人会想到给机器加进去去一颗摄像头。但普通RGB摄像头拍摄的现实世界的影像,仅能挂接场景中的色彩信息,无法挂接物体和摄像头之间的距离和方位。也本来 说,无论场景中的三维组织结构有多么富足,对机器来说全部一定会1个 多平面,1个 多二维世界。

3D视觉技术,本来 赋予机器感知三维世界的信息和能力,并让我门带来颠覆性的价值。试想一下,将汽车立体模型通过增强现实(AR)技术投射出来,客户可3300度观看,还能“开车门”,由此直观地提出意见,而全部一定会一张张翻看照片;肯能派无人机探索森林或洞穴,一边前行一边绘制付进 场景的三维地形,而全部一定会我门拿着一张平面地图亲自探险……

事实上,3D视觉技术目前肯能在工业界取得成功,但在消费领域,受限于3D感知硬件的成本和体积、计算能力台湾uu直播注册有危险吗等困扰,本来 场景并未激活。除了扫地机器人等个别终端外,我门的智能手机等移动设备,还居于二维世界里。但近几年,3D视觉技术终于结束了了英语 走向自己终端,机器认知世界的新大门正在打开。

3D感知硬件小型化,ToF渐成主流

实现3D视觉能力,3D感知硬件的加持至关重要。目前主流的3D感知硬件技术包括双目视觉、组织结构光、ToF(飞行时间)以及激光雷达。

双目视觉系统是通过双摄像头并肩进行成像,一点通过对比1个 多图像中每个像素点的相对位置差,来计算出该像素点在三维环境中的位置,相似于于人双眼的工作原理。

组织结构光和ToF则能在RGB的基础上直接提供带宽信息,属于RGB-D方案,在精度上比双目视觉更胜一筹。其中,组织结构光是通过投射多量光斑到物体上,一点根台湾uu直播注册有危险吗据光斑的形变量来判断其居于带宽;ToF则是向物体发射连续的光脉冲信号,并接收返回的信号,通过计算信号发射和返回的时间来计算带宽信息。相比之下,组织结构光在较短距离内拥有更高精度,而ToF支持的工作距离更长,适用于更加多元化的场景,且传感器模块少,体积小。

激光雷达的原理与ToF相似于,但其感知距离更远,范围更大,精度也更高。本来 自动驾驶汽车通过激光雷达来感知付进 环境,不过缺点是成本过于高昂,只适用于特定场景。

在最近的三年,我门观察到的1个 多显著趋势是ToF和组织结构光的小型化,使得它成功地应用到了手机当中。而ToF以其体积更小、适用场景更广等优势,逐渐受到更多厂商青睐,本来 最新的旗舰手机都将ToF作为一大卖点。据统计,2019年有约300000万台配备ToF的手机出货,业内预计2020年、2021年将分别达到1.5亿和5亿台,逐渐呈现出爆发态势,2020年全球智能手机3D感知硬件市场的规模也将到达99.25亿美元。

ToF在智能手机上的加速应用,能助 3D视觉技术的广泛普及化,成为接下来10年中非常重要的科技趋势。深入地触达消费市场,也激活了更多的应用创新肯能。

AI技术,突破3D视觉技术的难点

3D感知硬件不需要 提供距离、带宽等数据信息,但我门要的并全部一定会单纯的数据,本来 基于有有哪些数据,通过不同的表达和理解依据,实现不同的应用。比如对三维场景进行数字化建模,肯能绘制三维地图,从而让机器不需要 实时感知自己在居于空间中的位置,以便在运动时及时避开障碍物等。这需要根据带宽信息生成带宽图像,并与RGB图像,甚至是红外图像进行融合并完成多量计算。

一点,通过硬件感知的信息生成的带宽图像,往往居于因硬件性能限制而产生的瑕疵,相似于在细小或错综复杂交错的物体之间,跳出 带宽信息估计错误等现象。此外,精准度、鲁棒性、实时性、下行带宽 等全部一定会决定实际应用效果的关键。这都需要依靠额外的算法进行实时出理 予以弥补和增强。

在工业场景中,肯能应用相对单一,且3D感知硬件大多居于固定或平稳具体情况,本来 现象还里能通过编写特定算法加以出理 。但在移动终端上,不规则的抖动、晃动等具体情况带来的难以预估的挑战,传统算法难以突破。

2012年,AI在计算机视觉领域取得突破,给3D视觉技术发展也带来了全新思路。AI可通过对多量实际数据进行学习,自行总结其中的规律和组织结构。一种依据还里能在短时间内,完成传统算法需要多年不需要 突破的现象,有效弥补硬件能力的严重不足。

更为重要的是,AI不仅能感知场景中的三维组织结构,还能识别出场景中的三维物体是有哪些,在做有哪些。相似于检测人、物体,识别人的姿态,跟踪物体的运行轨迹……这就进一步敞开了机器认知世界的新大门。

在我门看来,3D硬件的小型化,是3D视觉技术应用场景拓展和创新的硬件基础,而AI技术则是真正的动力引擎。两者密不可分,还里能说,AI+3D视觉技术拐点已至。

AI+3D,紧密合作依据依据实现完美空间感知

目前,商汤科技肯能将AI技术广泛地应用于3D感知的各个领域,开发了基于ToF等3D感知硬件的技术与产品,包括人脸与人体3D重建、物体重建、3D全身关键点跟踪、3D Avatar驱动工具、AR测量、AR场景互动、AR导航、3D人脸认证、3D摄影等等,均体现了AI+3D的显著优势。

首先,AI+3D还里能进一步优化感知效果,提升用户体验。以动作捕捉为例,结合对带宽信息的高效出理 ,不需要 整体提升肢体关键点的稳定性、准台湾uu直播注册有危险吗确性以及运动的稳定性和自然度,精准呈现人在三维空间中的动作姿态变化;

第二,AI+3D还里能更加高效地应用和出理 带宽信息,理解环境中人物间的相互关系。相似于为AR带来逼真的虚实融合和互动效果,在智能手机上完成高精度3D模型建模,或是为自动驾驶提供车外的人、车、物的识别和距离感知。

第三,AI+3D还里能更加精准地分割图像中的主体和背景。一阵一阵是在主体和背景颜色比较相近的具体情况下,得益于对带宽信息的快速出理 ,在分割效果上比2D感知技术有很大的提升,可提供不同人物之间的语义信息,亦可结合3D相机系统带来更逼近单反的摄影效果;

第四,带宽信息与红外图像的结合,还里能让3D感知适用于更多的场景,使之不受环境光线明暗的影响。

在提供算法的并肩,商汤科技也与产业上下游合作依据依据伙伴紧密合作依据依据,提供软硬一体出理 方案,推动AI+3D的发展和益态构建,推动应用场景的革新。

基于上述优势,我门认为,AI+3D会从人机交互、互动娱乐、内容创作、身份验证、拍照、电商等层面激发多量的创新应用场景,甚至改变本来 传统行业的运作模式。

AI+3D,激活更多创新的应用场景

随着太久的智能手机配备3D感知硬件,AI算法的作用也越加凸显,不到两者的紧密合作依据依据,才不需要 将完美的影像体验带给最终用户,缺一不可。为此,商汤科技突然积极与合作依据依据伙伴携手共进,将AI+3D相关产品和技术充分应用于手机等智能终端当中。

比如,通过AI+3D进行“物品重建”。商汤科技的通用3D重建技术,让用户只需拿手机沿着物体3300度环绕扫描,就能将其扫描成数字模型,并用于3D打印、3D/AR相册预览、短视频直播内容生成,或植入到游戏、电商商品展示等场景。一阵一阵是后者,它可让顾客通过翻转依据查看物品外观,告别翻看照片的麻烦。

除物品重建,还还里能“人脸重建”。2018年,商汤科技助力合作依据依据伙伴推出了市面上第一款具备3D人脸重建功能的手机。用户不仅还里能体验比2D美颜更加精美的3D美颜功能,还可足都这样户轻松地进行虚拟试妆,甚至通过“3D微整形”来模拟整形效果。

AI+3D让手机就能成为体感设备。玩家可低成本地畅玩体感游戏,而内容创作者则借助商汤的Avatar技术打造自己的虚拟形象,相似于虚拟主播、虚拟讲解员肯能虚拟教师,通过表情、动作进行驱动,这会为互动娱乐、文旅乃至教育打造新的发展模式。

AI+3D也将在很大程度上推动移动AR朝向3D AR方向发展。基于RGBD SLAM可重建真实环境的3D组织结构,准确将虚拟元素植入到真实环境中,呈现真实的遮挡、碰撞、反弹等效果。

商汤还与浙江大学共建了“浙江大学-商汤三维视觉联合实验室”,在SLAM和三维重建等领域的前沿研究展开深入合作依据依据,并推出了高精定位与内容增强出理 方案,实现高精度的AR导航等功能。

有了3D AR,手机还能摇身一变成为更强大的AR测量尺,实现远超基于2D方案的测量精度,场景覆盖率到初始化耗时,还还里能自动检测并测量立体几何物体。

AI+3D也将让3D人脸识别成为更便捷、更安全的解锁或支付依据。商汤科技不仅在2018年助力合作依据依据伙伴推出了市面上首款基于组织结构光的3D人脸识别安卓手机,还于同年底推出了基于ToF的3D人脸识别方案。此外还推出了3D人脸识别智能门锁出理 方案,推动智能门锁行业的创新。

媲美单反的大景深效果突然是手机人像拍照所追求的方向,3D视觉技术还里能让人物等主体与背景的过渡效果更加自然、更加精准。而在电商行业,AI+3D还里能让AR试妆、AR试衣、AR家居更加逼真,满足多带宽充分预览,促成购买行为。

放眼汽车行业,AI+3D技术不需要 实现更加精准的车外人、车、物识别和距离感知,有力推动自动驾驶的发展。商汤科技也正以“摄像头为主、多传感器融合”的出理 方案,研发L4级自动驾驶出理 方案。而在泛工业领域,AI+3D还里能为机械臂赋予3D感知能力,准确判断物体居于的位置、尺寸、组织结构等,从而进行精准的抓取,或是进行自动化的品质检测。

《Prediction Machines》一书中曾提到:“当一种基础产品价格大幅下降的1个 多多,才是整个世界居于变化的基础”。3D视觉技术呈现出的也是1个 多多1个 多趋势。放眼未来,3D视觉技术还有更多创新空间。首先硬件成本的下降使其更加普及,支持的工作距离更远,而AI技术随着表达能力将不断增强,算法模型的小型化等趋势,可让带宽信息出理 更高效,3D效果更逼真、更稳定,性能放慢,并肩硬件资源占用率更低。一方面不断优化现有应用的体验,自己面进一步开拓更多应用肯能。

新的10年, AI+3D将成为变革行业发展的全新引擎。

转自:36氪

(本内容属于网络转载,文中涉及图片等内容如有侵权,请联系编辑删除)