环球今热点：智源研究院黄铁军：视觉大模型处于“爆发前夜”

“与语言大模型相比，视觉大模型还处于‘爆发前夜’，需要一个‘杀手级’应用出现。”近日，在2023北京智源大会（以下简称“大会”）期间，智源研究院院长黄铁军在接受记者采访时如是说。

【资料图】

当前，大模型相关新研究、新产品竞相涌现。《中国人工智能大模型地图研究报告》（以下简称《报告》）显示，据不完全统计，截至目前，参数在10亿规模以上的大模型全国已发布79个。

在黄铁军看来，大模型需要具备三个条件：一是规模要大，参数甚至能达到百亿规模以上；二是涌现性，能够产生预料之外的新能力；三是通用性，不限于专门问题或领域，能够处理多种不同的任务。

早在2020年10月，智源研究院就开始对超大规模预训练模型“悟道”项目进行路径探索。随后在2021年3月，作为中国首个超大规模预训练模型，“悟道1.0”发布；同年6月，智源研究院又再次发布“悟道2.0”。

经过一段时间的技术积淀，全面开源的“悟道3.0”在大会上面世。此次发布的一系列成果包括“悟道·天鹰”语言大模型系列、天秤开源大模型评测体系与开放平台、“悟道·视界”视觉大模型系列，以及一系列多模态模型成果。

以悟道·天鹰为例，黄铁军介绍，作为首个具备中英双语知识，支持商用许可协议、国内数据合规需求的开源语言大模型，其在中英文高质量语料基础上从“0”开始训练，通过数据质量的控制、多种训练的优化方法，实现在更小的数据集、更短的训练时间获得更优的性能。

回忆起“悟道”的迭代历程，黄铁军曾表示，“人工智能的发展已经从‘大炼模型’逐步迈向了‘炼大模型’的阶段，业界通过设计先进的算法整合尽可能多的数据，汇聚大量算力，并集约化地训练大模型供大量企业使用，已是必然趋势。”

显然，智源研究院对大模型的预判已照进现实。《报告》显示，当前我国大模型正呈现蓬勃发展态势。一批通用类大模型正快速发展，应用行业正从办公、生活、娱乐等方向，向医疗、工业、教育等领域加速拓展。

黄铁军告诉记者，之所以这么多大模型迎来爆发，是因为出现了新的学习方法，其中最重要的方法便是自监督学习。据悉，自监督学习的优势是可以在无标签的数据上完成训练，监督学习则需要有标签数据，而数据的标注也离不开人力成本。

“小数据是训练不出来一个大模型的，但基于自监督学习，数据不再受限于成本、人力等因素。只要数据有结果，模型就能通过自监督学习从中智能地提炼出隐藏的规律，然后去解决相应的问题。”黄铁军说。

按类别来看，黄铁军认为，与已在全世界掀起浪潮的语言大模型相比，视觉大模型仍处于“爆发前夜”，依然有很多问题有待解决。当有一种“杀手级”应用出现，便能激发出视觉大模型背后的能力，以及大家对视觉大模型的热情。

值得关注的是，已迈上“快车道”的大模型依然存在发展掣肘。黄铁军坦言，“现在大模型的‘大’远远没有达到天花板和包罗万象的程度。仅从语言这一大类来说，可能也得三年左右的时间才能做到包罗万象。未来三年大模型的规模还会增大，能力还会更强，这应该是基本趋势。”

对此，黄铁军也建议，业界应该在大模型研究领域形成合力，扩容生态。“我觉得重复性发力，发力得越多反而可能会发散资源。咱们总说集中力量办大事，在大模型方面业界能否各自发挥各自优势，在自己最擅长的环节做到最强，然后将最强的这些环节连接在一起，有机形成一个生态，这才是我们应该努力的方向。”

在开源生态方面，智源研究院也作出一系列努力。比如，今年年初发布的FlagOpen大模型技术开源体系，为大模型发展夯实了底层技术栈。基于FlagOpen，智源研究院希望打造出全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，与业界共建共享大模型时代的“新Linux”开源开放生态。

而在数据集方面，智源已开源首个大规模、可商用的中文指令数据集COIG。据介绍，COIG一期已开放总计19.1万条指令数据，COIG二期正在建设最大规模、持续更新的中文多任务指令数据集。其整合了1800多个海量开源数据集，人工改写了3.9亿条指令数据，并提供了完善的数据筛选、版本控制工具。

谈到大模型对人们生活的影响，黄铁军表示，一方面，作为技术工具，人工智能替代了很多原本只有人才能完成的任务，为企业带来效率的提升和成本的降低。另一方面，有些职业因此会面临冲击，比如一些重复性的工作可以通过AI以更低成本实现，不过新机会也会出现，受到冲击的这些人可以找到更能发挥自己能力的新工作。

“我认为这就是技术发展的一个常态，一方面会带来‘蜜月期’，另外一方面也会有些阵痛，但是相信人机结合会在未来一二十年有很好的发展。”黄铁军说。

关键词：