近日,燧光(广东虚拟现实科技有限公司)明星研发团队X-Lab (aka. Ximmerse Research Lab) 的题为“DeepTag: A General Framework for Fiducial Marker Design and Detection”的研究成果被国际顶级学术期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(简称TPAMI)接收为长篇论文。
DeepTag 是业界第一个统一框架支持任意类型的人工码,跟踪识别的精度和准度都很出色,而且得益于人工码系统无源的特性,能够快速地附着于各式各样的应用场景中,赋予其6-DoF姿态跟踪的能力。这一研究成果,对赋能混合现实、IOT系统、物联网平台建设等具有重要价值。
TPAMI 是 IEEE 计算机协会主办的最顶级期刊之一,主要收录计算机视觉、图像理解、模式分析和识别、机器学习等领域的优秀研究成果。根据最新的JCR期刊影响因子排名, TPAMI以17.861的高影响因子, 位列计算机领域所有IEEE旗下期刊的首位,同时也是全球AI领域最顶级的期刊!
据了解,目前传统的视觉定位技术往往对环境的纹理有一定的要求,例如纹理必须足够丰富,否则定位就会很不准确。而人工标记码对使用环境无特定要求,即使环境内无任何纹理信息,也不会干扰其定位的精准度,而且只需要单张图片就可以精确恢复出人工标记码和拍摄相机之间的6维姿态信息(也就是经常提到的6-DoF信息,包含3维位置信息和3维旋转信息)。
由于人工标记码较高的鲁棒性,最早广泛应用于机器人定位/导航领域,最近几年随着VR/AR/MR及元宇宙概念的兴起,也得到越来越多的应用。虽然学术及工业界已经提出很多种人工码系统(见下图1示例),但现有的人工码系统或多或少均存在以下几个问题:
(1) 特征点及标签ID区分需要手工自定义。
(2) 需要特定设计很复杂的ID区分逻辑才能很好地检测和区分不同人工码。
(3) 受限于有限数量的特征点,基于人工码解算出的6-DoF姿态很难达到很高的精准度。
(4) 人工码系统相互彼此独立,单个人工码系统设计及检测算法无法扩展适配用于另一种人工码系统。
图1:现有人工码系统示例
基于上述研究背景,燧光提出 DeepTag(一种通用的人工码系统)(见图2示例),不但解决了现有人工码系统上述列举到的这些问题外,还具有以下特点:
(1) 打破人工码系统各自为战的局面,首次提出了一种通用的人工码设计及检测框架。
(2) 支持现有的各种人工码,不用重新设计即可使用该系统,而且精准度均有大幅度提升。图2中给出了DeepTag支持的通用人工码样式,所有现有的人工码系统均在此通用样式包含在内。
(3) 支持人工码设计样式自定义,以适配不同的应用场景。
图2:DeepTag所支持的通用人工码示例
得益于 DeepTag 通用的特征点定义和框架学习能力,DeepTag 在检测识别(见下图3示例)及定位精准度(详见下表1)上均大幅领先于现有人工码系统。
图3:DeepTag和现有人工码系统检测和识别的对比。上下排分别为现有人工码 和 DeepTag结果。可以看到,DeepTag能够准确识别到所有的人工码,而现有的人工码系统或丢失部分检测或完全失效。
表1:DeepTag和现有人工码系统在定位精准度上的对比。在所有项的对比中,DeepTag获得了最好的结果(黑色粗体加下划线突出显示),相比现有的人工码系统精准度均有50%~100%的提升。
燧光作为全球顶尖的混合现实行业解决方案专家,已将人工码系统广泛应用于旗下各种产品中,包括外部空间理解和定位、头显及外设的自定位、跨设备交互等方面。
燧光研究团队负责人在接受采访时表示,他们将继续探索视觉定位、物体识别、自然物体交互、多传感器融合、场景重建、交互设计等相关领域的前沿技术,并持续挖掘其在VR/AR/MR领域的应用前景。燧光也乐于并将持续和业界以及学术界分享其最新的成果, 致力用领先科技推动VR/AR/MR行业快速发展,为各领域赋能,提升效率,创造价值,在空间计算时代为人机交互开启更多可能性!
评论