MegTech 2022｜基础科研领域旷视聚焦的四大方向

商业猎云网 2022-07-15 16:03

7月15日，2022旷视技术开放日（MegTech 2022）在北京举行。在本次活动上，旷视联合创始人、CEO印奇进行了主题分享，阐述了旷视以AIoT为核心的企业战略以及涵盖从基础研究、算法生产到软硬一体化产品的AI落地全链路的“2+1”AIoT核心技术科研体系，即以“基础算法科研”和“规模算法量产”为两大核心的AI技术体系，和以“计算摄影学”为核心的“算法定义硬件”IoT技术体系。

同时，旷视研究院基础科研负责人张祥雨也在现场分享了旷视关于AI基础研究的最新趋势洞察和研究成果。“大”和“统一”成为视觉AI基础研究新趋势

自2012年AlexNet被提出以来，基于深度学习的神经网络成为AI视觉发展的核心原动力之一。神经网络根据用途、构建方式的不同，大致可以分为CNN、Transformer、基于自动化神经网络架构搜索的模型以及轻量化模型等，这些模型极大地推动了AI发展的历史进程。

旷视研究院基础科研负责人张祥雨在旷视技术开放日进行分享

旷视研究院基础科研负责人张祥雨认为：基础模型科研是AI创新突破的基石， “大”和“统一”已经成为当今视觉AI系统研究的新趋势。“大”并不意味好，要借助AI“大”模型持续拓展人工智能认知边界

旷视认为，“大”是以创新的算法充分发挥大数据、大算力的威力，拓展AI认知的边界。即利用大数据、大算力和大参数量，提高模型的表达能力，使得AI模型能够适用于多种任务、多种数据和多种应用场景。

张祥雨认为，“大”是提高AI系统性能的重要捷径之一。但是，但大并不意味好，片面地追求大参数量、大计算量和大数据量，并不一定能够实现更强大的模型，反而会产生更大的计算开销，令整体收益非常有限。

基于这一行业洞察，旷视将其关于“大”的研究进行了更加精细的划分。首先在大模型方面，旷视的研究不仅着眼于如何实现“大”，而是将会聚焦于如何充分发挥大模型背后的威力；其次在大算法方面，如果利用创新的算法将大模型的作用最大化，也将会是旷视未来重点关注的；最后在大应用方面，将重点解决大模型生成后如何进行合力的应用，提升AI模型性能。用“统一”AI系统的设计思路，促进AI的通用化、规模化应用

AI视觉的研究领域众多，包括CNNs、VL Models、 Transformers等基础模型研发，物体检测、分割等视觉基础应用，优化、自监督、半监督等AI算法演化等，每个研究路径，都会衍生出一系列算法。

近几年，不同研究路径所衍生出的算法逐渐在底层走向统一，旷视借助特定的优化算法，通过在训练过程中增加先验的方式，使得CNNs、VL Models、 Transformers都取得相似的性能，为旷视“统一”AI系统设计奠定了坚实的基础。

此外，围绕“统一”这一趋势，旷视在“基础模型架构”、“算法”和“认知”，进行了全面布局。旷视基础科研的“统一”，集中体现在统一各种基础模型架构，从纷繁的AI算法中提炼其本质特性，使其能支持各种任务、数据和平台，并最终构建统一的、高性能的视觉AI系统。基础模型科研需要坚持长期主义

围绕“大”和“统一”的研究趋势，旷视基础模型科研聚焦于通用图像大模型、视频理解大模型、计算摄影大模型和自动驾驶感知大模型四个方向，并取得了多项突出的科研成果。比如，在通用大模型方面，旷视提出了一种基于大Kernel的CNN和MLP设计范式。在自动驾驶感知大模型方面，旷视新提出的BEVDepth在权威的Benchmark NuSenses上，目前是Camera赛道上的第一名。此外，去年提出的一个非常简单、通用，且高效的目标检测框架YOLOX的GitHub Star已经超过6000个。

张祥雨强调，基础模型科研需要坚持长期主义，旷视将始终以原创、实用和本质作为基础科研的指导原则，致力于解决人工智能最本质的难题。

1、猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权。

2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网字样。

3、猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。