对话王小川:国内在技术理想上拼不过OpenAI,但应用落地会跑得更快     DATE: 2023-12-01 04:19:13

原标题:对话王小川 :国内在技术理想上拼不过OpenAI ,对话I但得更但应用落地会跑得更快

出品 | 搜狐科技

作者 | 梁昌均

6月15日、川国7月11日、内技8月8日 。术理这是想上王小川自4月10日官宣创办百川智能入局AI大模型创业以来,先后推出三个大模型的应用时间 。

过去的落地四个月里 ,百川智能的对话I但得更团队已增加到110多人  ,且先后推出7B、川国13B和53B三个不同参数规模的内技大模型 ,速度之快超出外界想象。术理

Baichuan-53B是想上王小川昨日发布的新一代大模型 ,它在预训练数据 、应用搜索增强、落地对齐能力等方面进行了优化。对话I但得更王小川称 ,这是一款通用大模型,在文本创作等文科能力上体现突出。

但不同于之前开源的7B  、13B,王小川表示 ,从53B大模型之后就不再开源 ,因而部署成本较高。目前,这款模型已开启内测,下个月会开放API ,甚至开放组件,优先把2B的服务做起来 。

王小川透露 ,此前开源的7B和13B模型已有超过150家企业申请使用。对于为何要先做开源 ,王小川对搜狐科技解释称 ,开源必定程度是营销行为,可以后发制人  ,同时开源也是为商业化做储备,有各种用途和生态后 ,就有了收费的可能 。

同时他判断,可能未来80%的企业都会用开源模型 ,闭源能力强,但成本非常高,而开源模型在很多地方非常好用 。“开源闭源不是竞争关系 ,而是不同场景下的互补的关系。”

随着百川智能继续做更大规模的闭源模型 ,也会面临不少挑战 。王小川表示,需要把模型做得足够好,同时要把推理成本降下来。“这是世界性难题 ,作为新手还要摸索,但我们有能力做到极致优化。”

在算力层面 ,王小川表示国产芯片必定要顶上来 ,光英伟达还不够,这是整个行业面临的问题 。他透露,目前百川智能的算力是通过云厂商实现 ,腾讯、阿里都在为其提供云服务 。

“我们说要做到中国最好的对标 GPT 的模型,这意味着对于预训练模型的追求不会停止 ,未来还会继续去做更大的模型。”王小川表示 ,百川智能既要做更大参数模型 ,后面还要做出差异化 。

展开全文

此前7月底,王小川的前合作伙伴洪涛加盟百川智能 。王小川表示 ,这来代表公司在商业层面开头布局 。“不管7B还是13B ,还是53B  ,更多是为2B行业做准备,团队也已经部署2C的超级应用 ,且未来不仅仅有一款。”

而在今年6月考察了美国后,王小川也将百川智能的发展策略从“理想上比OpenAI慢半步 ,落地上快半步”改成“理想上慢一步,落地上快三步”。他认为,国内在技术理想上拼不过OpenAI,国内离GPT-4都有距离 ,但应用落地会跑得更快。

对于目前的百模大战 ,王小川依然相信未来的五张船票会有百川智能的一席之地。他表示 ,钱非常重要,但最终决定能力的还是人才团队,尤其是组织能力,钱 、组织能力是关键  。据他透露,百川智能初始估值5亿美金 ,第二轮可能就是10亿美金,目前融资也非常顺利 。

“大厂钱多、人多 、算力多,但组织效率不必定够好 。组织效率对我们不是挑战,也有大厂相对完整的经验 ,要是钱能保证的话 ,能力会很强。”王小川表示,中国谁能做最好的大模型现在没有结论,还无法确定大厂小厂谁能取胜 ,做应用也是,都有争取的机遇 。

以下是媒体对话节选(经编辑整理)

谈开源 :53B大模型后闭源,未来80%的企业都会用到开源

媒体:此前发布的7B和13B开源大模型落地应用情况怎样样 ?

王小川:我们是新兵 ,作为后发者进入市场,开源对我们来讲 ,能给中国的开源生态作一点儿贡献 ,同时展现我们的技术实力 ,开源后仅仅要持续不断技术迭代 ,就会有自己的商业模式 。

现在有超过150家企业申请使用百川模型 ,很多都是行业头部企业 。商业化工作也会开展起来,借助开源引擎,还有更好的参数模型   ,以及整套组件也在研发当中,能统一提供部署 。

媒体:有观点称 ,今天在国内做开源带有营销的目的,百川为什么要先做开源?

王小川 :开源应该有几层意义 。第一层就是营销行为,要告诉我行不行,有用没用,后发者可以后发制人,更容易使朋友多多,能够让大家迅速去评测了解。第二层的话,开源偶尔是为了商业化做储备 ,有了各种用途和生态之后 ,就有了收费的可能。这在国外有探索 ,中国虽然之前不成功,但依然可以借鉴 。

媒体:OpenAI的GPT-1和GPT-2是开源,GPT-3之后就闭源,百川从开源走向闭源的标准是什么 ?

王小川 :我觉得和模型大小相关,参数大的部署成本已经开头增加,这种情况下我们就选择走闭源。但原来说开源是开放论文 、代码,GPT-1和GPT-2就是这样,让别人去复刻 ,我们仅仅是开放模型的能力,让B端都能够用到,和OpenAI是不一致的模式。

媒体 :百川现在既有开源也有闭源的大模型 ,开源和闭源未来会是怎样的应用前景 ?

王小川 :从2B角度看 ,开源闭源都需要。我们认为可能未来80%的企业会用到开源模型,闭源没方法对场景做特别好的适配,能力是强,但成本非常高 。但开源模型可以做到非常小巧,很多地方非常好用。开源闭源不是竞争关系 ,而是不同场景下的互补的关系 。我们更关心2C怎样做 ,2B怎样做,而不是纠结开源闭源的问题,这个共识在逐步形成当中。

媒体 :闭源成本很高,怎样能有竞争力  ?

王小川 :主要是两个事 ,一是把模型做得足够好  ,拼的是模型的能力。二是得把推理的成本降下来,这是世界性难题 。作为新手还要摸索 ,把闭源的推理成本降下来 。我们有能力做到极致优化 ,其他人能做到我们也能,甚至做得更好。

谈落地 :B端C端都会布局 ,有信心同时打好几场仗

媒体:现在是百模大战,竞争对手很多,公司落地应用的思路是什么 ?

王小川 :我们认为一家公司不可能把所有赛道都做完。B端我们选择先做开源模型  ,B端企业和中间层的公司,做二次开发的公司,可以基于开源模型去适用场景 ,保持足够开放 。

内部团队也开头部署C端的超级应用 ,思考如何追上GPT-4 ,能带来哪些C端应用,预计网信办发牌照放行的工作今年会放开。我们在两头都走得更远一点,OpenAI目前B端就是API调用,C端就是ChatGPT。

媒体:百川在商业化层面已经开头布局?跟火山引擎和合作能否理解成LLaMA和微软的合作?

王小川:洪涛过来代表我们在商业层面开头布局 。我们做模型做得蛮快 ,在商业化上可能也会跑得挺快,每件事情都争取做得越快越好 。闭源本身在2B里面也有服务 ,包括2C ,多条线里面都有很多机遇。我对团队过往的能力 、经验有信心 ,能同时打好几场仗 。

LLaMA通过微软云向全球企业提供服务 ,国内除了火山引擎,后面会看到阿里云、腾讯云也会有类似模式。美国仅仅有微软在做 ,国内云厂商都会有类似战略  ,都会开放跟模型厂商合作 。

谈算力 :对模型的追求不会停止,国产算力要顶上

媒体:百川后面会用什么节奏做预训练 ,会不会用更多的资源做算力集群去提升模型能力 ?

王小川:预训练的能力,包括搜索的能力,强化的能力 ,能共同推动大模型的进步  。从实操角度讲,搜索效果最明显 ,强化比较有难度 ,预训练是在提高模型的综合能力。

我们讲要做到中国最好的对标 GPT 的模型,这意味着对于预训练模型的追求不会停止 ,未来还会继续去做更大的模型  。我们对于搜索和强化也有自己的技术追求 ,让我们既能做万亿参数 ,后面还能做出差异化 。现在对标的就是OpenAI ,那么大模型不可避免会出现同质化 ,后面就要看是否有独有的技术能力  。

媒体:现在大模型的成本中 ,算力占到多大的比例?算力会是瓶颈吗 ?

王小川 :算力分两部分 ,训练和推理 。训练阶段算力成本挺贵  ,行业40%以上可能都得给算力  。百川可能在40%到70% ,包括GPU网络联通。中国要想解决好算力这件事 ,必定要有国产算力 ,光英伟达我觉得不够,这是整个行业的问题。我们目前的算力是通过云厂商实现,腾讯  、阿里都在给我们提供云服务。

谈百模大战:技术理想不如OpenAI ,无法确定谁能取胜

媒体:今年国内大模型这半年有通用也有垂直 ,整体水平怎样样?您也去了硅谷 ,他们怎样看 ?

王小川 :今天不管是十家、百家  、千家 ,最后必定看两件事,第一能否拿出足够好的AGI来,能否跟GPT-3.5、GPT-4比肩 ,现在大家都有距离 ,哪些企业能达到,现在很难去判断。第二能否做出超级应用来 ,大模型很烧钱  ,是否有超级应用场景也还看不清 。

我6月去美国 ,是去感知和对话 ,了解他们的技术思路。第一个收获是对齐认知 ,之前大家是两套语言体系。第二个收获是他们做技术确实不错,但做应用的能力不行。去之前,我当时提“理想上比OpenAI慢半步,落地上快半步”,回来后改成“理想上慢一步 ,落地上快三步” 。他们不是往落地方向走,国内技术理想确实拼不过  ,但落地上会跑得快。

媒体:创业公司在里面该怎样玩 ,钱是不是最重要的?

王小川:美国通用闭源大模型的几家头部已经定下来 ,OpenAI 、Google等 ,资本也不会再去投 。但中国谁能做最好的大模型现在并没有结论 ,大家都有争取的机遇 ,现在还无法确定大厂小厂谁能取胜,做应用也是 。

钱非常重要 ,但最终决定能力的还是人才团队,尤其是组织能力,因此钱、组织能力应该是关键环节 。大厂钱多 、人多、算力多,但组织效率不必定够好  。组织效率对我们不是挑战性的事情,也有大厂相对完整的经验,要是钱能保证的话 ,我们的能力还是很强。

媒体:之前说大模型有五张船票 ,现在还有几张?

王小川:船票的话现在依然还是有5张 ,要是仅仅有2张我们也会在这个船上 。这5张并不扣除大公司 ,但创业者没有5张船票。