自从大模型火爆出圈,全球范围新一轮的科技革命正式拉开了序幕,人工智能成为中美两国竞争的焦点,中美人工智能企业也显现出了各自特色。美国已然形成了以微软和OpenAI为代表的“科技巨头+ AI 独角兽”超级 AI 联盟,拥有强大的技术实力以及巨量资本投入。中国在大模型方面跟进动作很快:据《中国人工智能大模型地图研究报告》统计,中国10亿以上参数规模的大模型已经发布了79个。
虽然中国AI公司一路狂飙,但是只有少数公司真正具备通用大模型的技术储备和资源积累。投资者和市场要在嘈杂当中,去寻找那些真正具备大模型算法、框架等基础性原创性技术突破能力的行家。
(资料图)
从根源上讲,这一次大模型规模爆发的起源仍是深度学习、大模型延续了深度学习的发展。人工智能史上的深度学习大周期依然强劲。2011年成立于北京中关村的旷视科技,是中国最早一批用深度学习方法开展人工智能基础研发和产业实践的人工智能独角兽。和当下涌现出的新一批大模型应用公司不同,旷视十年如一日攻坚人工智能核心技术,不断创新突破,力图缩小与美国科技的差距。
从清华走出来的旷视科技的创始团队,是一群被理想感召的年轻人。“成为受世界尊敬的中国AI公司!”这是旷视科技联合创始人、CEO印奇在多次采访中表达过的创业理想。2010年伴随着深度学习技术,旷视创始团队发现了计算机视觉技术和智能硬件具有潜在的巨大商业价值。
旷视科技用十年时间完成了高密度的AI人才汇集,组建了全球规模最大的计算机视觉研究院,并取得了一系列具有国际影响力的科研成果,在全球计算机视觉等关键领域取得了领先地位:自2014年,旷视拿下了FDDB、LFW、300-W三类图像类评测世界第一的好成绩后,旷视就开始了在国际各类顶级竞赛的屠榜之旅,曾经一举击败微软、谷歌、Meta等美国科技巨头,拿下计算机视觉顶级赛事MS COCO十余项挑战赛冠军,被誉为AI界的“中国乒乓球队”。
国际竞赛领先的水平体现了旷视研究院强大算法实力,而算法背后离不开基础科研的攻坚。在深度学习爆发早期,全球范围的算法研究员都缺少算法开发工具。2013年底,旷视研发团队提出了一个现在看来非常也先进的理念:打造一套能够打通数据、训练和业务的自动化算法研发系统,可以实现算法从研发到应用的自循环体系。
于是,2014年初,旷视研究院3名实习生从第一行代码写起,用半年时间开发了自研的深度学习框架MegEngine。也几乎是同一时间,谷歌开发了TensorFlow并于次年对外开源。
深度学习框架上承应用,下接芯片,其重要性不言而喻。“国外大厂都开源了,我们有必要做自己的框架吗?”当时旷视内部对此争议非常大。但是经过一系列的评测,大家发现TensorFlow的设计理念和旷视自研的框架出奇一致,然而效果并没有旷视自研的好,甚至比旷视自研框架要慢上10倍。这个结果让旷视更加坚定地走上了自研道路。与此同时,旷视跟随业务发展需要一并研发了数据管理系统MegData和深度学习云计算平台MegCompute,为训练出行业领先的高性能算法提供高质量数据养料和大规模计算集群的算力调度。
2019年,旷视将算法、数据和算力能力整合,发布了MegEngine、MegCompute和MegData构成的人工智能操作系统Brain++。这样一套自主研发的AI生产力底座平台和中间层工具,成为旷视多年以来基础研发和创新产品领跑行业的秘籍,也助力旷视研发出了ShuffleNet、DorefaNet等一系列具有国际影响力和产业影响力的原创算法模型。
2020年3月,为了让中国更多AI从业者用上先进、好用的开发工具,共同加速行业发展,旷视将自研自用了5年的深度学习框架开源,并为MegEngine取了中文名字——天元。这一举动让旷视成为了国内第一个将深度学习框架开源的AI独角兽,也是目前的唯一一个。
国家也对旷视在自研基础设施层面的投入和成果给予了高度的认可和信任。旷视在深度学习开源框架、数据集、图像感知技术等领域承担了国家科技部、工信部、北京市科委等国家级、省级部委多项重大科研项目,推动中国人工智能技术创新。例如,2019年8月,科技部宣布依托旷视Brain++建设“图像感知国家新一代人工智能开放创新平台”;2023年,科技部批准旷视科技与西交大合作建设人机混合增强智能全国重点实验室,该实验室定位为人机混合增强智能基础理论与核心技术研究,将着力围绕国家重大工程与智能产业应用,聚焦解决重大科技问题,打造国际领先的混合增强智能国家战略科技力量。
除了竞赛夺冠的高光时刻,旷视研究院在行业中始终是相对低调和务实的,鲜少看到旷视研究院的研究员活跃在行业活动中。和大厂中被束之高阁的研究员相比,旷视的开发人员更下沉贴近业务,注重科研的实用性。
国外一家跟踪AI研究的ZetaAlpha提供了一组有趣的数据,他们基于 2020年、2021年和 2022年每年被引用次数最多的100篇AI算法领域的论文进行了多维度的详细分析,并公布了科研转化率排名,其中旷视超过DeepMind、Meta、英特尔、谷歌等全球科技巨头,排名第二,仅次于美国AI独角兽OpenAI。但实际旷视被纳入统计范围的论文仅有两篇,只凭借两篇文章却获全球AI算法科研转化率第二的成绩,恰恰说明了旷视团队的科研成果质量之高,以及在产学界的受欢迎程度。
人类的科技历史始终是叠加发展的,大模型时代同样如此。对于生长在神经网络和深度学习树干之上的大模型树冠来说,算法、算力和数据依然是土壤、肥料和阳光雨露般的存在,无论对于深度学习时代的人工智能企业来说,还是对大模型时代的初创企业来说,基础科研是基本功,基本功如果不够扎实,靠花拳绣腿上不了更大的擂台。
毋庸置疑,旷视的算法能力已经在全球范围获得了公认。随着中美科技竞争加剧,旷视的潜能也让美国有所忌惮。2019年10月,美国将旷视科技等28家科技公司列入实体清单;2021年11月,美国财政部又无端将旷视科技列入非SDN中国军事综合体清单,限制美国投资者对上述公司投资;2022年10月7日,美国商务部再次以“威胁美国国家安全”为由宣布针对中国的出口管制新规,将旷视科技列为最严厉的“华为式”制裁清单,以至旷视成为中国受美国定向打压最多轮次的中国AI企业。
旷视在复杂严峻的内外环境下没有放弃底层技术的攻坚。除了三个围绕核心业务主线的研发团队,旷视研究院还有两个团队专门负责突破技术边界。旷视的Brain++为团队的基础科研和业务发展提供了有力的支撑。
今年,以ChatGPT为代表的人工智能大模型的出现引爆了低迷已久的人工智能市场,为通用人工智能的实现打开了新的想象空间。从表面上看,旷视在这一轮大模型落地竞速赛中尽显低调,但实际上,旷视团队在过去十年已经形成了更深远的布局。
尤其是在基础模型方面,旷视实力雄厚。早在2017年,旷视研究院就开始投入AI视觉大模型研发,提出的“MegDet”目标检测模型,首次实现了百卡级别的检测模型高效训练,并支持团队在COCO 2017目标检测竞赛中获得世界冠军。MegDet 中所提出的“sync bn”归一化方法已成为今天视觉大模型训练的必备算法,被知名框架如Facebook的PyTorch等所支持。
2020年之后,旷视开始攻坚大模型,形成了以通用视觉大模型、通用语言大模型、图像生成大模型、自动驾驶大模型的“四大核心大模型”研发战略,诞生了多项世界级的研发成果。例如在通用视觉大模型方面,旷视业内首创了“模型重参数化方法”(RepVGG),能够在不改变推理耗时的情况下大幅提升性能,助力多项大模型落地。值得注意的是,RepVGG如今已成为视觉大模型实用化部署的首选算法之一,获得了OpenAI联合创始人、特斯拉前总监 Andrej Karpathy在Twitter上公开肯定。
在系统层面,旷视于2021年6月将动态图显存优化技术引入了已经开源的深度学习框架天元MegEngine,使天元成为首个引入该技术的深度学习框架。该技术可以大幅降低显存占用问题,帮助开发者节省硬件成本,用有限的硬件资源训练出更大的模型。
而支撑着旷视技术不断突破的Brain++操作系统,自身也在不断进化。目前,Brain++平台集成了领先了数据管理能力和强大的算力管理能力。平台已积累200万亿token的数据集;可调度管理超万块GPU集群训练单一模型,大模型训练GPU 资源利用率可以到 80% 以上,可以高效支持大模型研发。
当下,能够同时处理文字、图像、视频的多模态大模型已成为大模型竞争的下一个战场,旷视凭借在AI视觉上的多年积累,早已开始相关技术探索,提出的图文交错数据的预训练方法已展现出很强的通用性。
在印奇看来,多模态大模型是通向AGI(通用人工智能)的必由之路,大模型将让AI技术走上融合统一之路。不过旷视志不在此,他认为旷视和国际巨头竞争的终极战场在AIoT,从长期角度来看,旷视将专注在“大模型+机器人”大方向并坚定投入,致力于将大模型与硬件载体结合。
当下,中美在大模型核心技术和产业链布局上存在差距,但是中国也有独特的长板,那就是巨大的市场空间和一批敢打敢拼的创业者,所以在新一波浪潮下,中国形成“百模大战”的局面是必然结果。然而,在短期的繁荣之后,我们还是会回到更本质的问题:中国人工智能企业靠什么才能赢得更长期的发展?或许旷视给了我们答案,那就是要把每一步路走扎实,不断修炼内功,创造真正价值。
现在送您60元福利红包,直接提现不套路~~~快来参与活动吧!