业界动态
大模型知识密度才是更重要本质,刘知远,技术,智能
2024-07-09 10:39:02
大模型知识密度才是更重要本质,刘知远,技术,智能

大模型越大越好吗?商业(ye)化落地,究竟是(shi)做(zuo)B端容易还是(shi)C端?7月5日,清华大学(xue)计(ji)算机系长聘副(fu)教授,面壁智能联合创始人(ren)、首席科学(xue)家刘知远现(xian)身上(shang)海,在WAIC2024的一场分论(lun)坛作了主题分享。会(hui)后,围(wei)绕(rao)大模型领域的热点话题,南都(dou)记(ji)者对话了刘知远。

刘知远说,当前大模型技(ji)术还在快速迭代中(zhong)。技(ji)术较量的阶段可能持续两到(dao)三年甚至更长时间,再往后还会(hui)夹杂商业(ye)模式、产品运营设计(ji)等多方面的比(bi)拼,为此也有必要探索属于AGI和大模型的商业(ye)模式,才能支撑其向(xiang)前发展。

模型越大越好吗?

知识密度、制(zhi)程才是(shi)本质

从ChatGPT到(dao)Sora,频频打出“王炸”的OpenAI验证了规模法则(Scaling Law,也称尺度定(ding)律),即(ji)随着模型规模的增加,其性能也会(hui)相应提高。但是(shi),在这一法则驱策下,持续无限(xian)制(zhi)地把模型越训越大,就一定(ding)好吗?

7月5日,在2024年世界人(ren)工智能大会(hui)(WAIC 2024)的一场加速大模型应用落地的分论(lun)坛上(shang),刘知远认为相比(bi)而言,大模型的知识密度、制(zhi)程才是(shi)更为重(zhong)要的本质。

何为知识密度?刘知远举例(li)说道,同样测(ce)试100道题,有人(ren)需要吃十顿(dun)饭(fan)才有力气做(zuo)完,有人(ren)只需一碗饭(fan)即(ji)可高效完成,很显然后者的知识密度更高。他还用了一个公式总结(jie),知识密度=模型能力/推理算力消耗。简单来说,一个知识密度越高的模型意(yi)味着它的能力越强,每一次计(ji)算所需要的参数(shu)规模越小。

为找到(dao)更高知识密度、更高效的模型,面壁智能选择“卷”端侧大模型。但如何在端侧算力、内存、能耗有限(xian)的条(tiao)件下,把知识浓缩到(dao)更小的参数(shu)规模里,是(shi)刘知远遇到(dao)的一个更大挑战。对此,训练大模型前,他选择先在“模型沙盒”中(zhong)进行(xing)成千上(shang)百次的演练,然后将寻找到(dao)的最优(you)数(shu)据和超参配置,外推至大模型。

据刘知远介绍,大模型时代将拥有自己的“摩尔定(ding)律”——按照他们的观察,模型知识密度呈现(xian)出每8个月提升一倍的规律。要让这一规律持续下去,则需要在数(shu)据、模型框架以及算法方面,不断探索科学(xue)化的方法,从而提升模型制(zhi)程。

刘知远表示,大模型数(shu)据驱动的技(ji)术方向(xiang)大致已经(jing)确定(ding),但是(shi)模型的架构、算法、数(shu)据相关的技(ji)术方案仍然在高速迭代。接下来,更重(zhong)要的是(shi)持续改进模型制(zhi)程、持续高速迭代相关技(ji)术方案。“模型制(zhi)程的提升,会(hui)带来模型知识密度的持续增强,二者交汇将会(hui)揭示端侧智能的巨大潜力。”

据面壁智能介绍,相比(bi)OpenAI于2020年发布的1750亿参数(shu)的GPT-3,2024年初,面壁发布具备GPT-3同等性能但参数(shu)仅为24亿的MiniCPM-2.4B,把知识密度提高了大概86倍。今年WAIC大会(hui)上(shang),面壁智能还正式官宣,开(kai)源业(ye)内首个端侧大模型工具集“MobileCPM”,帮助开(kai)发者一键集成大模型到(dao)APP。

刘知远认为,未来的大模型是(shi)端云协同的模式。出于隐私保(bao)护、算力等考虑,把模型放在离用户更近的地方,具有重(zhong)要的价值和意(yi)义。据他透露,面壁智能将在半年或一年内把GPT3.5水(shui)平的模型能力放到(dao)端侧运行(xing),争取未来两年内在端侧实现(xian)GPT4.0能力。

市场机遇在B端还是(shi)C端?

先要有过硬技(ji)术

自2022年底ChatGPT横空出世后,国内外掀起了一波大模型热潮,百模大战一年多后,国产大模型追赶到(dao)了什么水(shui)平?

刘知远表示,从全球范围(wei)看,OpenAI推出的大模型仍处于世界一级水(shui)平,但中(zhong)国大模型展现(xian)出了超强的追赶能力。大概在去年下半年,很多国内一线大模型公司完成了GPT3.5的建设,现(xian)在则达到(dao)了接近GPT4.0的水(shui)平。

“单看已发布的模型能力,基(ji)本上(shang)会(hui)认为中(zhong)美大模型存在一年左(zuo)右的代差。”但刘知远强调,更应该关注的是(shi)国外尚未公布的模型——比(bi)如美国一些科技(ji)公司完全具有持续不断推出模型的能力,而国内的大模型公司基(ji)本上(shang)还是(shi)带着目标(biao)在追赶,整体大的创新(xin)性仍不足。

大模型价值在于落地应用,但其市场机遇在B端还是(shi)C端,业(ye)内有不同的看法。有观点认为B端落地快、商业(ye)价值更大,但包括零一万物CEO李开(kai)复在内的人(ren)则坚持认为,走C端模式更有机会(hui)。与此同时,也有越来越多人(ren)在讨论(lun):AI是(shi)一门烧钱的生意(yi),投入越多但回报存疑,市场耐心开(kai)始不足了。

对于这样的讨论(lun),刘知远认为还为时尚早。OpenAI推出的ChatGPT拉开(kai)了通用人(ren)工智能的序幕,它的意(yi)义类似于2000年左(zuo)右的互联网浪潮。“在这样早期的阶段,就去讨论(lun)C端好做(zuo)还是(shi)B端等特别具体的小问题,有点虚无缥缈,或者说似乎不那么重(zhong)要。”

刘知远告诉南都(dou)记(ji)者,应该把大模型看得更“大”一点,它是(shi)相当于互联网甚至芯片级别的一个大浪潮,将带来深远影响。

他认为,当前大模型还处在一个初级阶段,初步验证了从数(shu)据到(dao)知识的一个学(xue)习和提取的通用方法,能够(gou)帮助各个行(xing)业(ye)更好地管理专业(ye)领域的知识,并且进行(xing)自动化应用。

而这项技(ji)术还远远没有“收敛”,仍在快速迭代之中(zhong)。一家公司若从未专门做(zuo)过大模型方向(xiang)的积累和研究,那在后续的竞(jing)争中(zhong)将难以保(bao)持模型制(zhi)程的领先。

“如果一个花费几千万元训练出来的模型,跟别的公司相比(bi)有代差——在模型效果、所需算力和能耗上(shang)都(dou)没有竞(jing)争力,那一定(ding)会(hui)被市场淘汰。总之,你得先有更强的技(ji)术能力,才能赶上(shang)这波大模型的发展浪潮。”刘知远说。

在刘知远看来,未来5到(dao)10年内,大模型之争更取决于相应技(ji)术上(shang)的迭代。尽管如此,在技(ji)术发展过程中(zhong)也应去探索属于AGI、属于大模型的商业(ye)模式。因为越往后,大模型的较量将夹杂更多商业(ye)模式、产品运营设计(ji)等综合方面的比(bi)拼,而行(xing)业(ye)也会(hui)经(jing)历(li)一轮又一轮的洗牌。

大模型未来怎么走?

应深入垂直(zhi)专业(ye)领域

在面壁智能首席科学(xue)家之外,刘知远还有一个身份是(shi)老师(shi)。

他在清华大学(xue)开(kai)设的课程中(zhong),有一门课叫《迈向(xiang)通用人(ren)工智能》。为了回答(da)同学(xue)们关于这门课的问题,他开(kai)发了一款“AI教师(shi)”的工具来辅助回答(da)。在获得几百位学(xue)生的积极反馈后,刘知远计(ji)划把这一应用推广——为每位2024级入学(xue)的新(xin)生配备一个成长助手,用AI帮助学(xue)生处理可能遇到(dao)的各种课业(ye)难题。

“现(xian)在大模型所体现(xian)出来的通用知识管理能力,我认为今年下半年,应该会(hui)在很多领域开(kai)始看到(dao)不同创新(xin)应用。光是(shi)在清华做(zuo)的这种AI+教育的创新(xin),我就觉得非常(chang)有意(yi)思(si)。”刘知远对南都(dou)记(ji)者表示。

其实不仅在教育领域,大模型在司法领域也有创新(xin)应用。今年6月28日,深圳中(zhong)院上(shang)线运行(xing)面壁智能参与研发的系统,这一系统覆(fu)盖法院立案、阅(yue)卷、庭审、文书制(zhi)作等审判业(ye)务的85项流程,还能针(zhen)对一些典型纠纷,预判调解难点,智能推送法律知识和典型案例(li)。

“为什么法律领域的大模型落地速度快?”刘知远认为,一个原因在于借助AI技(ji)术可以帮助法官提质增效,从大量重(zhong)复性的劳动中(zhong)解放出来。面对案多人(ren)少的突出矛盾,法院拥抱AI的积极性非常(chang)高。

另(ling)一个重(zhong)要原因,则是(shi)信(xin)息(xi)化程度高——包括金融、互联网领域也一样,“它们的数(shu)据是(shi)天然的,所以大模型用起来很顺。”在刘知远看来,“现(xian)在限(xian)制(zhi)大模型广泛应用的瓶(ping)颈不在于技(ji)术,而在于相关的信(xin)息(xi)化、数(shu)据化的准备上(shang)。”

谈及大模型发展趋势,刘知远认为大模型将持续深入各个专业(ye)垂直(zhi)领域。此外,数(shu)据质量决定(ding)了模型的上(shang)限(xian)——即(ji)便手握大量的数(shu)据,但无法从中(zhong)提取出高质量的内容,那么所训练出的模型也将受限(xian)。因此刘知远认为,将来还会(hui)出现(xian)专门的数(shu)据治理团队,助力各个领域更好地挖掘数(shu)据价值。

采写:南都(dou)记(ji)者 李玲(ling) 见习记(ji)者 杨柳 发自上(shang)海

发布于:广东省(sheng)
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7