hello, 大家好,这里是镯子。最近一个大模型叫deep sak v三,它一经发布就迅速引起了行业内的广泛讨论。连open a i早期的成员andrey copsey都说,它的出现也许意味着训练前沿模型不需要那么大规模的显卡,也意味着大模型在数据和算法上有很大的提升空间。除此之外有大量的网友对于这个模型都一片赞叹,他们有的说这是真正的open a i还有人说他现在是我最好的朋友,免费,我让他干什么他就干什么。国外的网友真的非常喜欢这款模型。我亲自上手用了一下,发现了它确实有一些优点。比如说因为是国产模型,所以不用魔法,我们在国内可以畅通无阻的使用。还有因为是国产模型,所以它对中文相对来说比较友好。另外它在数学和代码上的能力真的非常的强。
但是我作为一名普通用户,不是程序员,其实我对这个模型的感知没有那么强烈,但是出于好奇心,我就很想知道为什么。全球对于它的出现都非常的惊叹,甚至还引发了山姆奥特曼,还有其他的一众大佬都纷纷出来评价。不管是赞叹或者质疑,我觉得它都引起了非常大的轰动。于是我就去挖了一下这个模型背后采用了哪些技术,它背后的公司还有创始人的故事。今天这个视频将用我们普通人也能听懂的话,跟大家一起分享一下这个模型到底厉害在哪儿。首先我们来说一下它的技术创新。如果你曾经看过deep sak的视频或者亲手使用过的话,那么你一定有。以下的感受便宜,回答快,擅长数学和代码。我们今天就根据它公布的这个技术报告,来看看他们背后做了哪些创新,让这款模型用很低的成本能够比肩那些大厂的模型。
其实啊他们在这款模型当中采用了不止一套创新的技术。他们把硬件的应用和显卡的计算效率直接拉升了一大块。我非常推荐大家去看一下腾讯科技写的这篇文章,写的非常详细。首先这篇文章提到这款模型的省钱法门,能压就压,绝不空转。传统中大模型提高效率,降低成本主要靠两招,压缩和定型,并且提高硬件的使用效率。这个压缩啊就相当于我们平时搬家。我们的那个纸箱和新家以及车辆的这个空间其实是有限的。我们没有办法去把所有的东西都搬到新家去。那这个时候我们需要精简我们的东西,以至于全部的东西最后都能装入这个纸箱,所以我们就会丢弃掉一些不穿的旧衣服。
还有就是像羽绒服啊、枕头啊这些大件的东西,我们把空气给它抽出来,给它做成真空的,节省空间。像牙刷、牙膏、牙膏盒这种小件,我们都把它组装到一起,这样更节省空间嘛。其实压缩采用的就是这个原理,最终就会导致压缩过后精华的东西都还在,也不影响你到新家的正常生活。但是整个空间节省了一大块,这对于大模型训练来说有非常重要的意义。而并行就像一个厨房,每一个厨师负责一个菜,但是灶台只有一个。这么多厨师得排着队去那个灶台做饭,那这样效率就很低了。因为有的厨师是等待的过程中不干活的。但如果你增加灶台,并且分工明确,有的人是切菜的,有的人是洗菜的,有的人是炒菜的,甚至说有的大厨在炖菜的时候还能调个料。这样一来厨房的效率瞬间提升。
这就是并行并且提高硬件使用效率的含义。那我们再回到压缩,那具体他们采用了哪些技术进行压缩呢?首先这个模型它采用了多层注意力机制,简称m l a以及f p八混合精度训练。大家一听这两个词是不是头大了?没错,我第一次了解的时候头也很大。但其实详细一了解呀,它的原理其实很简单。m l a架构你可以理解为传统的像chat g p t使用的transformer架构,它更像是一层五十层的大楼。每一层都会有一个储藏室,这个储藏室储藏了这一层所有的信息。但是五十层那就意味着有五十个储藏室,那它所占用的空间就不是一般的大。迪普v三就想出了一招,他用这个m l a的这个架构啊,相当于是把相邻的几个楼层储藏室合并成一间。比如说一二三层共用三层的储藏室。
这样做有两个好处,第一个好处就是可以节省空间。第二个好处就是可以让计算量变得小。你想大楼管理员,他就不再用一层一层的这样找了。即使一二层的数据,他只要去三层的这一个房间里就可以完成。同时v三这个模型它进行了query的优化。query在中文的意思是查询搜索的意思就有点像图书馆,你每一次去问图书管理员要一本书,他原来用老方法就得在图书馆里找一通,那花的时间比较长。那现在它给它装上了一个更智能的解锁系统。这回图书管理员就直接在电脑上可能搜索一个我要哪本,那本书一下子就出来位置了。他到那儿就把那个书拿了。
大大的减少了每次找书的时间。我们再来说p f八精度混合训练。这个我们还是拿做菜举例子啊。假设你是一个主厨,你在做一道菜的时候有不同的食材对吧?有一些食材很便宜,有些食材很贵在日常处理简单食材的时候,你会用一些普通的没那么贵的刀,那这些刀完全可以应付这些简单的食材,比如土豆啊。但是你在切名贵食材的时候,你会换一把刀,换成那种高端的刀具。比如说你切西班牙火腿啊,那其实p f八混合精度训练就是这个意思。但是这样做带来一个问题。就是它会有误差。你用普通的刀切这个菜呀,它口感不够细腻。
那这个主厨非常聪明,它会分阶段的去进行修正和校正偏差,以保证菜品的口感和精确度。其实p f八的原理就跟我刚刚说的这个不同的菜用不同的刀切是一样的。这样的话呢大大的提高了效率,它就更快了。除此之外它还利用了英伟达h八零的显卡的原理。这就像厨师有两位帮手,一位帮手专门负责切菜,另一位帮手负责整理食材,两个人协作不浪费时间,这就大大的提高了厨师的效率。以上就是deep sick v三能压则压,绝不空转,无所不用其极地用尽了压缩和提升效率的方法。接下来我们讲一讲并行。在系统架构上他们采用了大规模的专家混合mixture of expert,简称m o e。类比我们生活举到的例子啊,就有点像你去一个大型的医院,这个医院里面有很多科室,有心脏科的,有脑科、有骨科、有外科、有内科的,每个科室都是不同类型的专家。
那来了一个病人,不可能这个医院让所有的专家都出动相应科室的专家去解决病人的问题,去根据病人的病情提供专业的解决方案。这种方式就是既高效又能发挥专家的特长。除此之外呢,deep sak还创新地推出了deal pub这个跨节点通信技术,更加的提升了显卡的利用率。它传统的方式啊,计算和通信它是分开进行的。就像是一个大厨,你要么切菜要么热锅,他俩不能同时干。但是deal pipe呢它就是让计算和通信他俩可以同时干。这样一个大厨,你可以一边热锅一边切菜,菜切好了,锅也热好了,然后就可以做菜了。那你可想而知,他就可以减少等待时间,就不让这个大厨空转,以此来提高效率。除此之外呢,deep sik还创造了一个叫无辅助损失的负载均衡策略。
听起来有点复杂对不对?你可以把它想象为快递分拣中心,每天都有大量的包裹需要分配给不同的快递员,再去分配到客户的手中。那这就出现了一个问题,如果一个快递员他每天都被分配给大量的包裹,他精力就扛不住啊。而与此同时,其他的快递员每天喝茶聊天也不干活,这长此以往啊,这个快递站就崩溃了。而传统的方法是他强制的规定,每一个快递员每天最多接五十个包裹,超过五十个就要罚款。但这样一来有一个问题,我如果是一个精力旺盛的快递员,我每天其实不只可以送五十个包裹,我还可以送的更多,但是你就不让我送了。那这就大大的降低了效率。同时客户也不满意,deep sick v三给出了他的解决方案。他给每一个快递员都加了一个优先级权重。当系统检测到一个快递员被分配多个包裹的时候,系统就会降低他的权重。
所以他被分配到包裹的几率就会变小。而有一些闲置的快递员,他会提高他的优先级权重。再来包裹他就会优先分配给这样的快递员,保证快递员他们的工作量都是在一个均衡的一个模式。这样一来快递员的调度就变得更加的灵活,不需要硬性的规则去规定,分拣的效率也提高了。除了解决快递员的问题,他们还解决了从仓库分发到不同的快递驿站的问题。a i技术上叫做节点限制路由node limited routine。想象有一个仓库。那包裹是从这个仓库分发到不同的快递驿站,再从这个快递驿站经过中转到快递员的手中,再分发给客户对吧?但其中这个中转的节点越多,就意味着中途的汽车呀、燃油啊、人工啊等等的费用一下就暴涨。那如何把这个费用降低呢?deep seek的解决方案就是限制中转的这个数量。
比如说他规定每一个包裹最多只能中转m个配送点,而且系统它会根据不同快递点的快递员的能力,来去判定哪几个驿站是最佳组合。这样一来他就减少了不必要的运送次数,而且包裹的分配和运输是可以同时进行,就做到了整体效率的最大化。以上我们聊的是压缩和并行,谈的都是它怎么能够便宜。那接下来我们着重来谈一谈他怎么能变得更快。如果你真的用了deep sig你会发现他的回答非常快,甚至比拆g p t有的时候还要快。这是因为他们其中采用了一个多token预测技术。其实这个预测技术最早是去年四月份的时候meta提出的。但是没想到dip sak比meta自己运用它的技术还要娴熟。传统的语言模型呢是一字一句的预测。
比如说他想说今天天气很好,我们去公园吧,他会说今,然后再说天再说天。那每一次蹦出一个字之前,他就会再过一遍上下文,那这样就会又费时又费力。但是他这个多头坑预测模型它是。一下子先写一个草稿,有可能稍微有点错误,但是他在修正。比如说他想说今天天气很好,我们去公园吧,他直接把这一句话都说出来,可能中间变成了今天天气很冷,但是没关系,他后面会纠正的那这样一来速度啊、效率啊就会大大的提升。他为了让这个模型回答的更准确啊,更专业,他们还采用了一个叫e c k r一蒸馏。是不是又懵了?我当时看到这个我也懵了。其实也挺简单的,一了解就是deep sick r一它是一个更高性能的一个模型。他想让deep sick v三学一下这个r一你就可以理解为v三它其实是一个进阶的一个新生,他需要不断的学习,然后去参加各种考试。
那r一呢就像一个专家老师,r一就把自己毕生所学交给v三,他就这么准备了一大堆资料,让v三学呀学学呀学。哎,v三还真学会了,成绩考的也不错。但是就发现一个问题,他学会的同时也让回答变得非常的冗长。那deep sik就给他了一个优化方案,就是让他学习r一最精华的那一部分。而它的冗长啊这些方面啊全给它过滤掉,不让他学,这个就叫做r e蒸馏。好的,以上呢我们就回答了他为什么回答的非常快。那接下来我们再回答为什么它偏科。我们开头也提到了他特别擅长这种理科性的问题,可以说它是一个理科学霸,但是文科就不太行了。这就不得不提到v三的预训练了。
它的预训练采用的数据是经过严格筛选和清洗的,它保证了高质量和多样性。那其中在样本的选择上面,它特意倾斜了理科方面的样本,比如说数学啊、代码啊。所以从测试结果你也能看到,它非常擅长数学推理代码生成。也正是因为如此,它的创意生成相对于薄弱结构化思维,它是比开放性思维更强的。我在这里再多说一下预训练啊。其实他有点像你开一家公司招员工,你在让员工上岗之前,你得给他来个基础培训,对吧?这个培训的更多的是通用知识。比如说他是一个建筑师,那你得教会他怎么看图纸啊,怎么学习别人建造的房子呀。而他正式上岗以后,再去对他进行特定任务的训练,这个叫做后训练。在人工智能当中预训练是指让他在做特定任务之前,会喂给他大量的资料,让他学通用知识,让他掌握基本的语言模式,什么语义啊、语法啊。
好了,那以上我们就讲完了他的几个特性背后的技术。其实我在准备这期视频之前啊,我心里有很多疑问。比如说这样的钻研底层的技术,那钱哪来的?它到底是怎么活下来的?为什么这个成本这么低?到底对这个整个行业有什么影响?我们要回答以上的问题,就得从两个角度来看,一个是社会背景,一个是行业背景。我们先来看deep sik背后的公司,这家公司叫做深度求索,创始人是梁文峰。梁文峰毕业于浙江大学电气工程人工智能方向,最早他就对人工智能非常感兴趣,他在早在二零零八年的时候,曾经就觉得人工智能一定是未来改变世界的一项技术。而二零零八年他就开始涉足于量化基金。传统的基金买卖的方式是依赖于基金经理的经验,而量化基金是采用计算机计算的方式来去购买,不依赖于某一个人的经验。二零一五年他成立了幻方量化,主要就是做量化基金这一块。二零一九年幻方量化成立了他的a i公司,并开发了深度学习训练平台。
萤火一号投资了两亿元,搭载了一千一百块显卡。到了二零二一年,萤火二号投资提升到了十亿元,搭载了约一万张英伟达的显卡。那个时候拆机。还没有现在这么有名气。可以说换方量化从显卡资源这一块比国内的很多大厂都提前入局。二零二三年也就是前年的五月,换方量化把a i独立出来,成立了深度求索这家公司,专注于做研究。讲到这儿其实大家就能理解了。因为它的核心业务是做量化,所以他在a i这块的商业领域的应用和变现压力就没有那么大。因为那块还赚你钱的嘛。
其实我在做功课的时候,就是了解这些背景的时候啊,我心里只有一个感受。就是非常的争气。从二零二二年开始到二零二四年十二月,美国出台了很多政策限制高端技术对中国的出口。包括很多英伟达新研制的芯片啊,高端的技术啊都不允许卖给中国的公司,那就造成了我们芯片这块卡脖子。deep sick的出现,让整个行业的人都重新的思考,我们到底需不需要花那么多钱,买那么多显卡,去布局前沿的大模型,是不是还有更加提高效率的方法呢?它的出现就有一种被逼到绝境,实在没办法想出一个奇招。如果这奇招真的有效的话,那还真的有点讽刺哦。其实梁文峰在一次采访当中提到,我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年中国公司习惯了别人做技术,我们拿来直接做应用变现。但这并非是一种理所当然。
这一波浪潮里,我们的出发点就不是趁机赚一笔,而是走到技术的前沿去推动整个生态发展。梁文峰希望中国也能投身ai创新的底层技术的研究和突破,哪怕是这种研究短期的收益很低,但是能参与全球a i技术的进步的推动,听起来一直是梁文峰想做的事情。所以我们可以看到deep sik它是开源的模型,这就意味着全球的ai行业都可以共享deep sak的研究成果。我真的很欣赏这家公司的格局,在我心目当中如果他真的这样持续的保持研究的话,他是我心目当中的open a i。最后我们来看一看为什么压低成本对于整个行业都有非常重要的意义。在deep sak这篇文章的结尾当中,提到了deep sick的创新的重要性。他提到了在ai领域,如果过分强调形而上的理论创新,而忽视了工程上的创新,这种倾向某种程度上是真正阻碍a i实际落地应用的绊脚石。实际上它提到这个理论。论创新有点像底层技术,比如说像chat g p t应用的transformer的架构,它是解决能不能的问题,它很重要。
如果没有它的话,那a i无法成为a i但是工程创新更像是解决怎么做才能更好,怎么才能让a i走向千家万户,两者在a i领域都非常重要。理论创新驱动技术进步,工程创新让a i实际落地,降低大模型的成本,是让高高在上的a i实际落地的重要的环节和部分。高成本不仅仅是经济的问题。它是直接影响了a i的应用范围太贵,就只能导致那种宇宙级别的大厂才可以有能力承担和研究。而中小企业和开发者很难介入,这就让a i的真正的潜力并没有完全被释放。如果a i只能服务于少数的精英企业,而无法进入更多的行业场景,那就很难实现技术的全面普及。而deep sick v三展示的方向是通过工程技术和理论创新结合,找到符合现实的技术前进的道路。这不仅让ai更加的可用,也推动了整个行业在普惠性和实用性上的前进。其实我在写这篇稿子的时候,一度写到热血澎湃。
因为不管deep sik有什么缺点,他都被全球a i技术和整个行业贡献了一份自己的力量。我真的被圈粉了。最后我想用梁文凤采访的一句话结束这个视频。他说不是所有的人都能疯狂一辈子,但是总有那些人在他年轻的那些年,可以完全没有功利心的,完全投入的去做一件事情。好了,那今天视频就到这里。哦,这个视频所有我参考过的资料,以及deep c k相关的网站论文,我都放到资讯栏里。大家需要的话可以自取。那让我们下期视频再见,拜拜拜拜。