人工智能在语言智能和视频生成的突围#AI视频#AI智能#AI科普

前段时间,在国新办政府工作报告吹风会上,有三个名字被提到。呃,比如说deep sak的全球的出圈啊,语数的这个机器人,其实有时候用的那个可灵,在国际上对它评价已经超过了sora。deep sick、语数和可伶,他们分别代表人工智能在语言巨生智能和视频生成上面的表现。有篇文章甚至称他们为国产a s三巨头。

前两个我想不必多说,今年春节后已经火的不行不行了。但是主打a i甚至视频的可灵。为什么会被提到呢?先问个小问题,同志们,你们知道可伶是谁做的吗?快手。凡在我的印象中,快手似乎还是那个扎根在县城,主打拥抱每一种生活的小视频软件。

但是抛开成见哈,用过的朋友肯定对可怜不会陌生,因为它的效果确实很好。这个不是我尬吹,这是经过市场以及海内外用户一致认可的。但是为什么快手能做出这样的应用的?这个是我很好奇这个视频我们来剖析一下,到底是哪些技术或者条件让可怜成为a i视频领域目前的领跑者。我们先通过这个来看一下a i视频在过去一段时间的发展。

早在二零二三年基本上还是靠爱好者们自己本地部署建模型,自己跑像m i dif啊,stable video division啊。但是从二零二四年初双了的出现开始,市场反响非常强烈。然后a i生成视频这个领域就迅速成了大厂的兵家必争之地,一下产生了小十家竞争公司。可伶的一点零模型第一次发布是在六月份,当时我还没用过,但我印象中我很多影视圈的朋友对此反响非常激烈。

一方面是它生成视频真的很清晰。同时期的很多竞品还是七二零p另一方面它的一些动态的效果啊真的蛮好的。终于让威尔史密斯把面条给吃了进去。你可别小看这个事儿,这个是ai生成视频的祖传老梗,视频模型的试金石,因为你真的要实现吃面的那种细节,还要吃进去,是需要模型理解一些基本的物理规律的。

迭代速度也是非常关键的。在这之后呢,他们又快速发了一点五、一点六,半年时间迭代二十多次。为他们的程序员心疼一秒,所以用户确实也比较买单。我查了一下最新公布的数据,截止到今年的二月底,他们的累计营收已经超过了一亿元,而且付费用户续费比例也很高,尤其海外。

所以回到咱们的问题,为什么这么厉害的一个应用是由快手创造的呢?作为一个a i应用来说,其实技术上离不开老三样,算力、算法、数据。当然对于这种c端应用来说,组织的协同也是非常关键的。其实快手一直以来对技术比较看重,像live portrait这种神级开源项目就是快手开源的。我查了一下,他们同时也和各个高校和科研机构联合陆续发布了一些视频生成算法,积累还是比较雄厚的。

然后在算力层面呢,大家都知道算力还是挺贵的嘛,你搞得不好其实就是在给老黄打工。快手他们的做法是呢在国内大厂还在卷大语言模型的时候,快手把更多的算力堆给了视频大模型,所以就会有一个差异化的竞争力。我查了一下资料,在训练过程中他们使用分布式训练集群,而且通过一些算子优化的手段,大幅的提升了可伶模型的硬件利用效率。而且在训练过程当中,也不是说非常土豪的一步到位。

在初期的低分辨率阶段,他们主要是以数量的堆积去做预训练,随后在高分辨率阶段再去把数据集的质量提升上去,加强一些细节上的表现。还是很会过日子的。然后再说算法层面上,视频生成模型的选型相比于文字模型的复杂程度更高。需要在模型上做一些更精确的判断,以及大量的算法创新。

快手他们发表过一篇论文towards precise skin love for video division transformers。这篇文章提出了一种面向视觉模型的更精确的scaling law建模方法。这种方法可以提前预判大模型的性能表现,帮助去选择以及调优参数,减少不必要的一些试错成本。最后的最后呢就是数据,但你不要小看数据啊,这个东西往往有时候是最关键的。

快手在去年十月份开源了一个叫做考拉三十六兆的数据集,这个数据集是目前来说质量最高的大模型视频生成数据集。从这个数据集你就大。大家可以知道为什么他们的视频生成效果会那么好。这个考拉三十六m数据集在视频切片、文本标注、筛选以及质量的感知上都做出了改进。

他们做了个实验,对比了同样的模型架构,用别人的数据集和他们的数据集,显然用他们的数据集训练出来效果是好一点的,这个其实非常关键。相比于两个同样智商的人用好的教材,它学出来效果肯定会更好一点。反正查完了这些资料吧,我觉得我对这家公司还是一改了我刻板的印象。他们不光会搞小视频,有好东西是真的开源,像large portrait,而且技术路径呢也很真诚,数据集都开源了。

说一句题外话,我觉得可能快手和可伶的这种反差感。甚至给他们的推广上还助了一把力。有点好像。感觉到像钢铁直男的背后,竟然是个心思缜密的艺术神的感觉。

但是我们实事求是啊,确实你说现在ai生成视频肯定还称不上完美,还是会有一些随机的东西出现,出现一些错误的这样那样的问题。而且目前来说,ai生成视频的价格还是对普通人来说略贵的,生成一次就是几块钱啊,不过对比像什么sorry啊,那肯定这个是便宜的。假以时日,我觉得费用这一块肯定不是问题,ai生成视频一定大有可为。说了这么多,我们来直接体验一下,客观看一下可零到底能做出来什么样的东西。

我们可以拿几张图片放进可伶,让它去生成这样的视频。第一张是一个动漫画风的室内,然后第二个是一个小米酥七,最后是一个产品的摄影图,来测试一下它们分别的效果。我们先放入这个动漫的室内图,输入非常简单的提示词,一看到这个效果还是很不错的,这个光晕的感觉,而且你可以看到这是一次到位。然后我们再来一个小米酥七试试,我们输入提示词,让这辆车跑起来,稍等片刻,你可以看到这个动感确实不错。

最后我们来测试一下这个产品。摄影有个小技巧,因为最近deep sick爆火可零现在上面也可以和deep sick对话,让deep sick去生成更详细的提示词,可以帮助我们得到更有质感和细节的效果。你可以在这里直接和它对话,它就会帮你生成,然后我们直接拷贝进去使用就好。通过非常简单的对比,你就可以看到用简单提示词和deep sik生成的详细诗词分别生成的a i视频效果对比还是很直观的。

显然提示词的适度丰富会让整体输出效果更好。刚展示的只是图片视频,可零a还有更多有意思的玩法,大家可以自己去玩一下。ok那么这就是a i生成视频工具可灵的故事。其实说了这么多。

也就一年时间。这个速度还是很吓人的。我们稍微畅想一下,假以时日,未来a i影像技术。一定会重塑人和世界交互的方式。

现在我们还是通过屏幕来看这些信息,而未来当这些东西和v r a r结合,一定会有更沉浸的互动化的个性体验。试想一下,你假如在一个虚拟空间里面,只要你一个点击,你就可以根据你的需求和你的情绪生成一个当下的画面。这个画面是你实时可以体验和交互的。哇,这个感觉我觉得在不久的未来,一定会有这样一个全新的生态。

每个人都是创作者,每个人又是体验者。真到那天。你觉得咱们的世界。会变成啥样呢?