有负责大模型领域挖掘高端科技人才的猎头告诉澎湃科技,DeepSeek的用人逻辑和大模型领域其他公司的用人逻辑并无太大差异,对人才的核心标签都是“年轻高潜”,即年龄在1998年出生左右,工作经验最好不要超过五年,“聪明、理工科、年轻、经验少。”
在业内人士看来,和国内其他大模型创业公司相比DeepSeek是幸运的,没有融资压力,不需要向投资人证明,不需要兼顾模型的技术迭代和产品应用的优化。但作为一家商业公司,巨资投入后,或早或晚都要面临目前其他模型公司面临的压力和挑战。
2024年中国大模型圈最火的是哪家?杭州深度求索人工智能基础技术研究有限公司深度求索(以下简称DeepSeek)一定榜上有名,如果说作为去年年中大模型价格战的发起者,DeepSeek初入公众视野,到了岁末年初先后对外发布开源模型DeepSeek-V3和推理模型DeepSeek-R1后,彻底引爆了大模型圈的舆论场。人们一边惊讶于其高性价比的训练成本(据说DeepSeek-V3仅花费了557.6万美元的训练成本),另一方面为其模型开源和公开技术报告的行为鼓掌称赞。DeepSeek-R1的发布,让不少科学家、开发者和用户们都兴奋不已,甚至被认为是OpenAI的O1等“推理”模型强有力的竞争对手。
这家低调的公司为何可以做到用极低的训练成本做出性能不差的大模型?它今天的火爆得益于它做对了什么?在未来的日子里,它要想继续在“模圈”乘风破浪一路向前将会面临怎样的挑战?
算法创新使得算力成本大幅下降
“DeepSeek投入早,积累多,在算法上有自己的特色。”国内一家明星大模型创业公司的高管在提及DeepSeek时表示,他认为DeepSeek之所以能火出圈,最核心的优势还是得益于算法上的创新,“中国公司因为缺乏算力,所以在算力成本上会比OpenAI更注重节约。
根据DeepSeek公布的DeepSeek-R1信息显示,其在后训练阶段(Post-Training)大规模使用了强化学习(Reinforcement learning)技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
DeepSeek-R1 API价格
在技术路线上,DeepSeek创始人梁文锋此前曾多次强调,DeepSeek致力于开辟差异化技术路线,而非复制OpenAI的模式,DeepSeek必须想出更有效的方法来训练其模型。
“他们使用了一系列工程技巧优化了模型架构,比如创新地使用模型混合方法等,本质的目的是透过工程化降低成本使其可以盈利。”在科技行业从业多年的资深人士告诉澎湃科技。
根据DeepSeek对外披露的信息可以发现,其在MLA(Multi-head Latent Attention多头潜在注意力机制和自研的DeepSeekMOE(Mixture-of-Experts混合专家模型)结构方面取得了重大进展,这两种技术设计通过减少训练计算资源,使DeepSeek 模型更具成本效益,也提升了训练效率。根据研究机构Epoch AI的数据,DeepSeek 的最新模型非常高效。
在数据方面,与OpenAI“海量数据投喂”的方式不同,DeepSeek利用算法把数据进行总结和分类,经过选择性处理之后,输送给大模型,提高了训练效率,也降低了DeepSeek的成本。DeepSeek-V3的出现,实现了高性能与低成本的平衡,给大模型发展提供了新的可能性。
“未来或许不需要超大规模的GPU集群了。”在DeepSeek的高性价比模型发布后,OpenAI创始成员Andrej Karpathy表示。
清华大学计算机系长聘副教授刘知远向澎湃科技表示,DeepSeek 的出圈,恰恰证明了我们的竞争优势所在,通过有限资源的极致高效利用,实现以少胜多。R1的发布,正表明我们与美国的AI实力差距明显缩小了。《经济学人》也在最新一期报道中称:“DeepSeek以其低成本的训练与模型设计的创新同步改变科技行业。”
发表评论