如何判断一个新事物是不是彻底火了,除了要去CBD的咖啡店听听人们在聊什么,有时候大佬之间的“口水仗”也是很好的证明。至少大模型是这样。
新晋创业者王小川与百度的隔空互怼,折射出大模型赛道里热闹的景象。据中新经纬不完全统计,截至目前中国已有超过40家公司、机构发布了大模型产品或公布了大模型计划。玩家纷纷涌入,这些大模型含金量究竟如何?是否会上演“一地鸡毛”的终局?
资本躁动
(资料图)
除了搜狗创始人王小川,选择在大模型赛道再创业的还有已退休的美团联合创始人王慧文、创新工场董事长李开复等名人。面对大模型这一“烧钱”赛道,他们下场后的第一件事也便有了答案。
近日,王小川和前搜狗COO茹立云创办的百川智能表示,已获得5000万美元启动资金,来自王小川与其业内好友的个人支持,面向机构的融资会在近期启动。
据媒体报道,王小川透露,目前的资金足够训练出一个好的千亿模型,“至少到今年年底是够用的”。不过紧接着王小川又说,这还远远不够。他认为,产品从0到1,5000万美元够用,但若要持续做到最好,成本估计应该在3亿至20亿美元之间。
2月,王慧文在离开美团两年后通过社交平台发布了“英雄帖”,个人出资5000万美元设立北京光年之外科技有限公司,称要打造中国的OpenAI。王慧文还表示,下轮融资已经有顶级VC(风险投资)认购2.3亿美金。
不过,创业者和企业也明白,除了大笔资金,大模型研发的关键还在于人才。谁能在人才方面拔得头筹,谁就能在大模型的洪流中抢占先机。
王慧文在“英雄帖”中表示要拿出75%的股份邀请顶级研发人才;李开复则亲自筹组Project Al 2.0,发朋友圈招揽全球范围内的人才。
此外,大模型相关的人才招聘需求也激增。招聘平台数据显示,2023年1-2月份发布的AIGC岗位数量同比增长35%。在热招岗位中,图像识别、算法研究员、深度学习等岗位的年薪均已达百万元。
在BOSS直聘上,北京市奇点智源科技有限公司(下称奇点智源)给AIGC方向的NLP(自然语言处理)算法研究员岗位开出143万元年薪。昆仑万维4月10日的公告显示,该公司就ChatGPT、图像视频生成等AIGC技术与奇点智源进行全面技术合作,但后续能否顺利实现商业化存在较大的不确定性。
一位常年为企业招聘AI人才的猎头告诉中新经纬,他现在帮多家北京、杭州的公司招聘大模型相关工程师,年薪多在50万元至80万元之间,优秀的可以突破100万元,“算比较高的”。
不少上市公司也因为涉足大模型而股价大涨。数据显示,截至4月24日收盘,三六零、昆仑万维、云从科技今年以来股价涨幅达153.52%、287.23%、155.58%。
昆仑万维宣布联合奇点智源共同研发国产大语言模型“天工”3.5后,次日股价最高涨近16%,两个交易日累计最大涨幅超22%。
三六零股价也终于摆脱了长期的低迷状态,今年股价最高时达20.85元/股,现在市值也来到了1185亿元。不过截至24日收盘,该公司股价4月累计下跌4.99%。
云从科技股价今年累计最大涨幅一度达284.98%,股价曾达61.8元/股的历史高点,但近期股价已回调超三成。不过,云从科技对大模型产品依旧寄予厚望。3月31日,云从科技披露了定增募资计划,拟募资36.35亿元用于“行业精灵”大模型研发项目。
不是所有模型都叫大模型
大模型赛道里数量更多的是公司、机构的身影。这里面既有百度、腾讯、阿里这样的大型互联网公司,也有科大讯飞、商汤科技这样的AI公司,还有中科院自动化研究所、上海人工智能实验室这样的科研机构。
不少AI创业公司,也趁这波浪潮单方面宣布进军大模型赛道。
什么样的模型才能称之为“大”?如此多的大模型,含金量究竟如何?
国家人工智能标准化总体组副组长、北京航空航天大学人工智能研究院教授吴文峻对中新经纬表示,一般认为参数规模在百亿以上的是大模型。“有研究表明,百亿规模以上的大模型,就可能会出现所谓的‘涌现’现象,具备一定的自主学习、自我优化和自我进化能力,相较于百亿以下规模的模型在逻辑推理、做数学题等方面有明显提升。”吴文峻说。
中国新一代人工智能发展战略研究院首席经济学家、南开大学经济研究所所长刘刚接受中新经纬采访时表示,大模型的判定标准主要在于它是否能在不同的专业领域使用,以及参数规模的大小。“我认为亿级参数规模是大模型的入门门槛,现在国际上一些大模型参数规模可达到百亿甚至千亿。”
大模型发展的背后除了百亿级的参数规模、海量数据外,还需要庞大的智能算力支撑。而智能算力的水平又与算力芯片、算力规模息息相关。这些都决定了大模型的研发不是容易的事,并非通过召开一场发布会或展示几页PPT就能实现。
尽管目前大模型的应用有很大局限,具备对文本、图片理解生成能力的都是少数,但有些公司已将一些此前推出的产品归为大模型应用。
3月,小米集团总裁卢伟冰在财报电话会议上就表示,“小爱同学就是一个典型的大模型的应用产品”。公开资料显示,小爱同学发布于2017年。
在市场研究机构IDC中国研究总监卢言霞看来,之前大部分AI应用都不是基于大模型的。“大模型是对原有算法模型的技术升级,基于海量数据开发预训练模型,到最终用户环境中使用少量数据即可获得比之前的算法模型更好的结果,相比上一代的算法模型有更高的预测准确度。”卢言霞说,“主要有三个要点,一是预训练模型学习了多少数据,迁移学习的效果如何以及部署的整体成本如何。”
不过,刘刚认为,只要是应用产品基于人工智能,且参数规模、训练量在不断增大,不断迭代演化,尽管参数规模没有达到千亿级别,也依然可以叫做大模型应用产品。
落地的不确定性
在人们预想中,大模型落地应用以后除了在C端变成人们的智慧助手,还将在B端给千行百业带来研发能力与生产效率的指数提升。
但现实是,目前,具备对文本、图像、音频和视频综合理解生成能力,且具备学习和使用“工具”能力的多模态大模型仍在路上,这意味着如何将这些能力落地到具体的应用场景更加遥远。而这个过程,充满了诸多不确定性。
刘刚表示,大模型落地的不确定性首先在市场,其次是技术。“市场的选择对大模型至关重要,要看最后谁的模型大家用起来更容易、成本更低,让市场接受并使用。落地的关键在于能否适应市场,有时候技术先进未必适应市场。”
吴文峻也提到了使用推广方面的问题,他认为,广泛部署大模型要占据一定的计算资源,很多人同时使用也会带来资源消耗,大模型的训练和运维也需要很多云资源。在云上部署后,怎样在提供大规模服务的情况下保持良好的性价比,是推动大模型落地的过程中需要解决的问题。
吴文峻还提到,大模型相关技术本身还存在一些缺陷,比如事实错误、逻辑推理的前后矛盾,这些问题通常被称为“幻觉”。要把大模型运用在一些对输出内容的客观性、准确性要求比较高的场景还存在一定技术障碍。“在保证服务内容正确性、客观性的前提下怎样节能增效、降低运行成本是大模型在应用推广的时候需要重点关注的。”
吴文峻认为,对于这些问题,要通过一定的技术手段加上算力的支撑才能解决,还可以通过人的反馈来强化学习,发现错误后进行修正。“有些还需要增强专业领域的知识,对模型可能存在的问题进行检查,然后定制成为可以在专业领域内用的模型。”
卢言霞表示,大模型落地的不确定性在于,是否真的能产出比之前的AI更好的效果,需要多久才能落地,“当然也在于到底能不能成功落地”。
针对大模型应用场景,吴文峻表示,B端和C端对大模型的需求不同,B端的技术要求会更高。“C端的应用目前主要在聊天对话、客服、文本生成、图片生成等。不过我认为大模型未来盈利的方向在B端,因为B端是面向企业进行定制服务的,部署的空间会更大,当然技术要求也会更高。”
警惕最终“一地鸡毛”
面对科技公司对大模型的追逐战愈演愈烈,业内也有质疑声音:我们需要这么多大模型吗?疯狂上线大模型,是否会导致最终“一地鸡毛”?
卢言霞表示,“从大模型的开发到落地,需要的算力、数据、人才,都是持续且较大规模的投资,另外当前技术也不成熟,确实有可能产生泡沫。”
吴文峻认为,在目前宣布进军大模型的约40家企业、机构中,有一些企业本身在自然语言处理方面就有比较雄厚的积累,也有人工智能的技术储备,他们做大模型没有问题。
“但也有企业是为了蹭热点,争取投资才来做大模型。国外有一部分模型已经开源,如果这些企业是基于开源的模型,自己再重新训练,这样做出来的模型可能在技术能力、指标上达不到真正有用的大模型的要求。”吴文峻提醒,“在目前宣布了做大模型的企业中,最后能做成的或许不超过一半。”
刘刚对此持较为中立的态度,他表示,大模型在各行各业都有很大应用前景,而且不同的行业也会产生不同的大模型,大模型也有语义、语音、文字等各种类型。刘刚说,“大模型即使是同质化,我认为也并非很严重的问题,就是要允许多个模型之间的竞争,最后有一个胜出了,就是找到了最优的道路,也是完成了一个创新的进化筛选过程。”
标签:
相关新闻