大模型知识密度才是更重要本质,刘知远,技术,智能20240709-业界动态-qdyuchuan.com

大模型知识密度才是更重要本质,刘知远,技术,智能

2024-07-09 10:39:02

大模型知识密度才是更重要本质,刘知远,技术,智能

大模型越大越好吗?商业(ye)化落地，究竟是(shi)做(zuo)B端容易还是(shi)C端?7月5日，清华大学(xue)计(ji)算机系长聘副(fu)教授，面壁智能联合创始人(ren)、首席科学(xue)家刘知远现(xian)身上(shang)海，在WAIC2024的一场分论(lun)坛作了主题分享。会(hui)后，围(wei)绕(rao)大模型领域的热点话题，南都(dou)记(ji)者对话了刘知远。

刘知远说，当前大模型技(ji)术还在快速迭代中(zhong)。技(ji)术较量的阶段可能持续两到(dao)三年甚至更长时间，再往后还会(hui)夹杂商业(ye)模式、产品运营设计(ji)等多方面的比(bi)拼，为此也有必要探索属于AGI和大模型的商业(ye)模式，才能支撑其向(xiang)前发展。

模型越大越好吗?

知识密度、制(zhi)程才是(shi)本质

从ChatGPT到(dao)Sora，频频打出“王炸”的OpenAI验证了规模法则(Scaling　Law，也称尺度定(ding)律)，即(ji)随着模型规模的增加，其性能也会(hui)相应提高。但是(shi)，在这一法则驱策下，持续无限(xian)制(zhi)地把模型越训越大，就一定(ding)好吗?

7月5日，在2024年世界人(ren)工智能大会(hui)(WAIC　2024)的一场加速大模型应用落地的分论(lun)坛上(shang)，刘知远认为相比(bi)而言，大模型的知识密度、制(zhi)程才是(shi)更为重(zhong)要的本质。

何为知识密度?刘知远举例(li)说道，同样测(ce)试100道题，有人(ren)需要吃十顿(dun)饭(fan)才有力气做(zuo)完，有人(ren)只需一碗饭(fan)即(ji)可高效完成，很显然后者的知识密度更高。他还用了一个公式总结(jie)，知识密度=模型能力/推理算力消耗。简单来说，一个知识密度越高的模型意(yi)味着它的能力越强，每一次计(ji)算所需要的参数(shu)规模越小。

为找到(dao)更高知识密度、更高效的模型，面壁智能选择“卷”端侧大模型。但如何在端侧算力、内存、能耗有限(xian)的条(tiao)件下，把知识浓缩到(dao)更小的参数(shu)规模里，是(shi)刘知远遇到(dao)的一个更大挑战。对此，训练大模型前，他选择先在“模型沙盒”中(zhong)进行(xing)成千上(shang)百次的演练，然后将寻找到(dao)的最优(you)数(shu)据和超参配置，外推至大模型。

据刘知远介绍，大模型时代将拥有自己的“摩尔定(ding)律”——按照他们的观察，模型知识密度呈现(xian)出每8个月提升一倍的规律。要让这一规律持续下去，则需要在数(shu)据、模型框架以及算法方面，不断探索科学(xue)化的方法，从而提升模型制(zhi)程。

刘知远表示，大模型数(shu)据驱动的技(ji)术方向(xiang)大致已经(jing)确定(ding)，但是(shi)模型的架构、算法、数(shu)据相关的技(ji)术方案仍然在高速迭代。接下来，更重(zhong)要的是(shi)持续改进模型制(zhi)程、持续高速迭代相关技(ji)术方案。“模型制(zhi)程的提升，会(hui)带来模型知识密度的持续增强，二者交汇将会(hui)揭示端侧智能的巨大潜力。”

据面壁智能介绍，相比(bi)OpenAI于2020年发布的1750亿参数(shu)的GPT-3，2024年初，面壁发布具备GPT-3同等性能但参数(shu)仅为24亿的MiniCPM-2.4B，把知识密度提高了大概86倍。今年WAIC大会(hui)上(shang)，面壁智能还正式官宣，开(kai)源业(ye)内首个端侧大模型工具集“MobileCPM”，帮助开(kai)发者一键集成大模型到(dao)APP。

刘知远认为，未来的大模型是(shi)端云协同的模式。出于隐私保(bao)护、算力等考虑，把模型放在离用户更近的地方，具有重(zhong)要的价值和意(yi)义。据他透露，面壁智能将在半年或一年内把GPT3.5水(shui)平的模型能力放到(dao)端侧运行(xing)，争取未来两年内在端侧实现(xian)GPT4.0能力。

市场机遇在B端还是(shi)C端?

先要有过硬技(ji)术

自2022年底ChatGPT横空出世后，国内外掀起了一波大模型热潮，百模大战一年多后，国产大模型追赶到(dao)了什么水(shui)平?

刘知远表示，从全球范围(wei)看，OpenAI推出的大模型仍处于世界一级水(shui)平，但中(zhong)国大模型展现(xian)出了超强的追赶能力。大概在去年下半年，很多国内一线大模型公司完成了GPT3.5的建设，现(xian)在则达到(dao)了接近GPT4.0的水(shui)平。

“单看已发布的模型能力，基(ji)本上(shang)会(hui)认为中(zhong)美大模型存在一年左(zuo)右的代差。”但刘知远强调，更应该关注的是(shi)国外尚未公布的模型——比(bi)如美国一些科技(ji)公司完全具有持续不断推出模型的能力，而国内的大模型公司基(ji)本上(shang)还是(shi)带着目标(biao)在追赶，整体大的创新(xin)性仍不足。

大模型价值在于落地应用，但其市场机遇在B端还是(shi)C端，业(ye)内有不同的看法。有观点认为B端落地快、商业(ye)价值更大，但包括零一万物CEO李开(kai)复在内的人(ren)则坚持认为，走C端模式更有机会(hui)。与此同时，也有越来越多人(ren)在讨论(lun):AI是(shi)一门烧钱的生意(yi)，投入越多但回报存疑，市场耐心开(kai)始不足了。

对于这样的讨论(lun)，刘知远认为还为时尚早。OpenAI推出的ChatGPT拉开(kai)了通用人(ren)工智能的序幕，它的意(yi)义类似于2000年左(zuo)右的互联网浪潮。“在这样早期的阶段，就去讨论(lun)C端好做(zuo)还是(shi)B端等特别具体的小问题，有点虚无缥缈，或者说似乎不那么重(zhong)要。”

刘知远告诉南都(dou)记(ji)者，应该把大模型看得更“大”一点，它是(shi)相当于互联网甚至芯片级别的一个大浪潮，将带来深远影响。

他认为，当前大模型还处在一个初级阶段，初步验证了从数(shu)据到(dao)知识的一个学(xue)习和提取的通用方法，能够(gou)帮助各个行(xing)业(ye)更好地管理专业(ye)领域的知识，并且进行(xing)自动化应用。

而这项技(ji)术还远远没有“收敛”，仍在快速迭代之中(zhong)。一家公司若从未专门做(zuo)过大模型方向(xiang)的积累和研究，那在后续的竞(jing)争中(zhong)将难以保(bao)持模型制(zhi)程的领先。

“如果一个花费几千万元训练出来的模型，跟别的公司相比(bi)有代差——在模型效果、所需算力和能耗上(shang)都(dou)没有竞(jing)争力，那一定(ding)会(hui)被市场淘汰。总之，你得先有更强的技(ji)术能力，才能赶上(shang)这波大模型的发展浪潮。”刘知远说。

在刘知远看来，未来5到(dao)10年内，大模型之争更取决于相应技(ji)术上(shang)的迭代。尽管如此，在技(ji)术发展过程中(zhong)也应去探索属于AGI、属于大模型的商业(ye)模式。因为越往后，大模型的较量将夹杂更多商业(ye)模式、产品运营设计(ji)等综合方面的比(bi)拼，而行(xing)业(ye)也会(hui)经(jing)历(li)一轮又一轮的洗牌。

大模型未来怎么走?

应深入垂直(zhi)专业(ye)领域

在面壁智能首席科学(xue)家之外，刘知远还有一个身份是(shi)老师(shi)。

他在清华大学(xue)开(kai)设的课程中(zhong)，有一门课叫《迈向(xiang)通用人(ren)工智能》。为了回答(da)同学(xue)们关于这门课的问题，他开(kai)发了一款“AI教师(shi)”的工具来辅助回答(da)。在获得几百位学(xue)生的积极反馈后，刘知远计(ji)划把这一应用推广——为每位2024级入学(xue)的新(xin)生配备一个成长助手，用AI帮助学(xue)生处理可能遇到(dao)的各种课业(ye)难题。

“现(xian)在大模型所体现(xian)出来的通用知识管理能力，我认为今年下半年，应该会(hui)在很多领域开(kai)始看到(dao)不同创新(xin)应用。光是(shi)在清华做(zuo)的这种AI+教育的创新(xin)，我就觉得非常(chang)有意(yi)思(si)。”刘知远对南都(dou)记(ji)者表示。

其实不仅在教育领域，大模型在司法领域也有创新(xin)应用。今年6月28日，深圳中(zhong)院上(shang)线运行(xing)面壁智能参与研发的系统，这一系统覆(fu)盖法院立案、阅(yue)卷、庭审、文书制(zhi)作等审判业(ye)务的85项流程，还能针(zhen)对一些典型纠纷，预判调解难点，智能推送法律知识和典型案例(li)。

“为什么法律领域的大模型落地速度快?”刘知远认为，一个原因在于借助AI技(ji)术可以帮助法官提质增效，从大量重(zhong)复性的劳动中(zhong)解放出来。面对案多人(ren)少的突出矛盾，法院拥抱AI的积极性非常(chang)高。

另(ling)一个重(zhong)要原因，则是(shi)信(xin)息(xi)化程度高——包括金融、互联网领域也一样，“它们的数(shu)据是(shi)天然的，所以大模型用起来很顺。”在刘知远看来，“现(xian)在限(xian)制(zhi)大模型广泛应用的瓶(ping)颈不在于技(ji)术，而在于相关的信(xin)息(xi)化、数(shu)据化的准备上(shang)。”

谈及大模型发展趋势，刘知远认为大模型将持续深入各个专业(ye)垂直(zhi)领域。此外，数(shu)据质量决定(ding)了模型的上(shang)限(xian)——即(ji)便手握大量的数(shu)据，但无法从中(zhong)提取出高质量的内容，那么所训练出的模型也将受限(xian)。因此刘知远认为，将来还会(hui)出现(xian)专门的数(shu)据治理团队，助力各个领域更好地挖掘数(shu)据价值。

采写:南都(dou)记(ji)者李玲(ling) 见习记(ji)者杨柳发自上(shang)海

发布于：广东省(sheng)

版权号:18172771662813

以上就是本篇文章的全部内容了，欢迎阅览！
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页移动站 , 查看更多