业界动态
面壁智能首席科学家刘知远:大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平
2024-07-09 01:24:45
面壁智能首席科学家刘知远:大模型的“摩尔定律”是模型知识密度持续增强,未来,能力,水平

·从2023年下半年开始(shi),很多国内一线大模型公司(si)水平已经达到了(le)GPT3.5,现(xian)在则达到了(le)接近GPT4.0的水平,但更(geng)应该关注的是国外(wai)尚未公布(bu)的模型。

·未来高效大模型第一性原理的关键词(ci)便是知识(shi)密度。模型的知识(shi)密度增强将呈现(xian)出每8个月(yue)提升一倍的规律。

“OpenAI推出的ChatGPT拉开了(le)通用人工智能的序幕,影响力堪比2000年左右兴起(qi)的互联网。未来5-10年里(li),大模型及通用人工智能技术将给整个产业和人类社会带(dai)来无限想(xiang)象空间”。

7月(yue)5日上午,清(qing)华大学长聘副教授,北京(jing)面壁(bi)智能科技有限责任公司(si)(简称面壁(bi)智能)联合创始(shi)人、首(shou)席科学家刘知远在WAIC2024分论坛上做了(le)一场(chang)题为《大模型时代的“摩尔定律”》主题分享。

2022年,身(shen)为清(qing)华大学计算机(ji)系自然语言处理实(shi)验室的副教授刘知远带(dai)头成立面壁(bi)智能,成为国内最早研(yan)发大模型的团队(dui)之一。

清(qing)华大学长聘副教授,北京(jing)面壁(bi)智能科技有限责任公司(si)联合创始(shi)人、首(shou)席科学家刘知远

今(jin)年6月(yue),斯坦福学生AI团队(dui)训练出的开源(yuan)多模态模型,被传(chuan)“套壳(ke)”了(le)面壁(bi)智能的MiniCPM-Llama3-V2.5后,这家清(qing)华系大模型创业公司(si)受到了(le)社会关注。

当前中国大模型水平到底怎么样?大模型商(shang)业化落地会面临哪(na)些问题?澎湃科技(www.thepaper.cn)在刘知远演讲结束(shu)后对他进行了(le)专访。

中美(mei)大模型存在一年代差

在刘知远的观察中,从全球(qiu)范围看,OpenAI推出的大模型仍处于世界(jie)一级水平,但中国大模型追赶能力超强。从2023年下半年开始(shi),很多国内一线大模型公司(si)水平已经达到了(le)GPT3.5,现(xian)在则达到了(le)接近GPT4.0的水平。

“单(dan)看已发布(bu)的模型能力,基本(ben)上会认为中美(mei)大模型存在一年左右的代差。”但刘知远强调,关注模型更(geng)应该关注的是国外(wai)尚未公布(bu)的模型——比如美(mei)国一些科技公司(si)完全具有持续不断推出模型的能力。

刘知远对中国大模型技术水平的发展(zhan)保持积(ji)极乐观的态度,“我(wo)认为国内AI大模型水平已经形成了(le)有高原但无高峰”的状态。据他透露(lu),面壁(bi)智能将在半年或(huo)一年内把GPT3.5水平的模型能力放到端侧(ce)运行,争取未来两年内在端侧(ce)实(shi)现(xian)GPT4.0能力。

但他也向澎湃科技感慨,尽(jin)管(guan)国内大模型企业用近一年半的时间追赶美(mei)国,但国内的大模型公司(si)整体情况基本(ben)上还是“太卷”,大家太注重短期利益,整体大的创新性仍不足,“很难做出特别前沿的产品。”

在刘知远看来,未来大模型发展(zhan)主要会有三个战场(chang):一是大模型会往更(geng)科学化的方向发展(zhan),高校会有一套推进大模型实(shi)力增强的技术路线;二是未来大模型一定会跟计算系统结合,比如会有智能操(cao)作系统、智能数据库等,各类计算系统负责各行各业;其三,未来广(guang)泛应用会在企业端、产业界(jie)。

回看过去,刘知远判(pan)断,“我(wo)们经历了(le)符(fu)号(hao)智能、专用智能,今(jin)天(tian)还是大模型的序幕,从OpenAI提出ChatGPT的第一个版本(ben)开始(shi),到现(xian)在不过五六年时间。目前,我(wo)们正在加(jia)速迈向更(geng)加(jia)通用的人工智能,而大模型技术就是非常重要的技术基础。”

未来大模型的竞争是知识(shi)密度的竞争

产业界(jie)似乎默认,OpenAI训练出的Sora和GPT,都是典型的“大力出奇迹”的效果,在大模型领域,当前依然是典型的暴力美(mei)学模式,大算力是造就大选手的基础门槛(kan)。

刘知远在WAIC2024“模型即服(fu)务(Mass) 加(jia)速大模型应用落地”论坛上演讲

对此,刘知远也分享了(le)他的研(yan)究思路。他认为,大模型时代会拥有自己的“摩尔定律”,即模型知识(shi)密度的持续增强,“如果说芯片(pian)制程会带(dai)来终端算力持续增强,模型制程也将带(dai)来模型知识(shi)密度的持续增长。”知识(shi)密度即每一次的计算所需要参与的参数以及对应能力所需要消耗的算力,刘知远进一步解释(shi)说,“一个知识(shi)密度越强的模型意(yi)味着能力越强,每一次计算所需要的参数规模越小。”据刘知远观察,模型的知识(shi)密度增强将呈现(xian)出每8个月(yue)提升一倍的规律。

刘知远认为,未来高效大模型第一性原理的关键词(ci)便是知识(shi)密度。如果大模型数据驱动技术方向大致确定,那么模型的架(jia)构、算法、数据等技术方案却仍在高速迭代,持续改进模型制程、极致提升知识(shi)密度成为行业努力的方向。在这个逻辑之下,就可以打破“大模型算力越大,参数越大,准确率就会越高”的刻板印象。

WAIC2024显现(xian)的三大趋势(shi)

谈及此次世界(jie)人工智能大会,刘知远表示,可以看出三大发展(zhan)趋势(shi):

其一,具身(shen)智能是未来的趋势(shi)之一。他认为,当前产业界(jie)正快速地往具身(shen)方向靠近,尤其人形机(ji)器人的核心功(gong)能对应的是具身(shen)智能,模型需要具备越来越强大的多模态能力。不过人形机(ji)器人虽然很火,但他认为人形机(ji)器人最终是否能够(gou)实(shi)现(xian)商(shang)业化落地依然是行业难题。面向未来,在他看来,人形机(ji)器人的发展(zhan)大概率会经过过渡阶(jie)段,期间会出现(xian)各种不同形态的机(ji)器人,可以把大模型变得更(geng)加(jia)智能,这样机(ji)器人会拥有更(geng)强大的大脑。

其二,未来AI将赋能各个专业垂直(zhi)领域中,比如教育(yu)行业、司(si)法领域等。“为什么法律领域的大模型落地速度快?”刘知远认为,一个原因在于借助AI技术可以帮助法官提质增效,从大量重复(fu)性的劳动中解放出来。面对案多人少的突出矛盾,法院拥抱AI的积(ji)极性非常高。另(ling)一个重要原因是信(xin)息化程度高。“它们的数据是天(tian)然的,所以大模型用起(qi)来很顺。”在刘知远看来,“现(xian)在限制大模型广(guang)泛应用的瓶颈不在于技术,而在于相关的信(xin)息化、数据化的准备上。”

其三,对于大模型的探索不应仅停留在云上运用,端上运用大模型的意(yi)义或(huo)价值更(geng)大。他认为,未来的大模型是端云协同的模式。出于隐私保护、算力等考虑,把模型放在离用户更(geng)近的地方,具有重要的价值和意(yi)义。

发布(bu)于:上海市
版权号:18172771662813
 
    以上就是本篇文章的全部内容了,欢迎阅览 !
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 移动站 , 查看更多   
sitemapsitemap1sitemap2sitemap3sitemap4sitemap5sitemap6sitemap7