基金投资企业商汤科技再创佳绩,用技术创新直击行业痛点
近日,计算机视觉领域顶级国际会议CVPR 2022(Computer Vision and Pattern Recognition,即国际计算机视觉与模式识别)在美国新奥尔良正式召开。基金投资企业、国际领先的人工智能软件公司商汤科技表现出色,再创佳绩。
据官方统计,今年CVPR有效论文投稿再创历史新高,竞争依旧十分激烈。
凭借对原创技术的不断投入以及SenseCore商汤AI大装置的支撑,商汤科技及联合实验室有71篇论文被录用,其中近1/4被录用为Oral口头报告,覆盖了3D视觉、自动驾驶等众多备受关注的AI研究与产业前沿领域和方向。
商汤科技还参与了多项CVPR竞赛,取得令人瞩目的成绩。在Embodied AI 2022(2022具身智能挑战赛)中,商汤联合中科院自动化所、上海人工智能实验室,斩获RxR-Habitat赛道冠军。
作为全球具身智能研究领域的权威性竞赛,该比赛要求用自然语言控制解决室内机器人的导航问题。团队的方法达到90%以上的效果提升,导航准确率从24.08%提升至45.82%,导航保真度从37.39%提升到55.43%。
同时,在旨在推动基于深度学习的视觉编码技术而举办的CLIC(Challenge on Learned Image Compression)竞赛中,商汤团队提供的方案成功获得图像编码赛道冠军,不仅在全部三个测试码点上取得了最优的主观评测分数,还拥有所有深度学习方案中最快的解码速度。
商汤一直以来鼓励研究团队关注产业需求和痛点,将研究工作与实际业务场景相结合。今年商汤入选的71篇论文,涵盖通用智能、自动驾驶、3D数字人、三维视觉等多个领域,既包括各领域基础研究突破,又直击行业应用痛点,部分研究更是兼具实用性与趣味性。比如,在《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》这篇论文中,研究人员提出了一种新的音乐到舞蹈框架Bailando,它可以驱动3D角色跟随音乐做出freestyle的舞蹈动作,而且不仅能保证动作的标准与美感,还能在时间上保持与不同音乐节奏的一致性。
当前,在AI、云计算等技术能力提升的背景下,数字人的应用范围日渐丰富,在社交、游戏、直播、虚拟偶像等领域逐渐融入我们的生活。商汤的这一研究无疑能让数字人更加智能、有个性,实现多样化的需求。
近年来,随着自动驾驶和激光雷达技术的发展,基于点云的目标跟踪也获得了更多的关注。针对点云数据特有的挑战和现有算法的缺陷,在论文《PTTR: Relational 3D Point Cloud Object Tracking with Transformer》中,商汤研究团队提出了一个新颖的点云跟踪框架PTTR,在多个数据集上显著提升了目标跟踪的准确性,为自动驾驶的安全运行打下了基础。
点云跟踪框架PTTR示意图
除论文外,在今年的CVPR上,商汤科技还联合北京航空航天大学刘祥龙教授团队,共同举办了面向复杂场景的鲁棒机器学习大赛——Robust Models towards Open-world Classification。
该比赛旨在加速开放世界场景下的鲁棒模型研究,推动新的以数据为中心的算法开发。大赛共吸引286只队伍、416位参赛者参加,获得了一致好评,推动了AI模型安全领域的研究探索与人才培养。
一直以来,商汤并没有把论文数量作为衡量公司技术发展水平的指标,而是通过为科研工作者提供高效科研的良好环境,鼓励和引导研究者从解决业界实际问题角度出发,做高水平、高质量的研究。
在科研环境方面,通过以SenseCore商汤AI大装置为核心的软硬件基础设施,为技术研发和落地提供重要基础支撑。研究人员能够快速实验并验证新的想法,加速创新与迭代。
在学术生态建设方面,2017年以来,商汤陆续与上海交通大学、南洋理工大学、浙江大学等十多所高校成立了联合研究院或实验室,并推动成立全球人工智能高校学术联盟,希望通过与学术界的紧密联系,促进各种学术成果的产生以及国际间的学术交流与合作。
此外,商汤持续巩固开源生态建设。基于视觉算法的开源项目OpenMMLab目前在GitHub已经拥有超过5万颗星,并成功向研究者和业界开源上千个模型。基于决策智能的OpenDILab去年在WAIC大会进行了发布,向学术和工业界开源。在大模型方向,商汤与上海人工智能实验室及高校联合发布了通用视觉技术体系"书生"INTERN,并开源了OpenGVLab,助力通用人工智能基础研究和生态构建。