十二月六日,也就是昨晚,谷歌推出了最强通用大模型german一点零,据说全面超越了g p t四,成为当前最强大、用途最广泛的人工智能,性能媲美人类的专家。他到底有多厉害?它为什么这么厉害,以及它将如何颠覆。接下来人工智能的发展,让我们一起来看看。
首先它有多厉害呢?不同于open a i单独训练语音模型whisper和图像模型dari再去进行能力的拼贴和整合,dream乃是原生多模态构建,从一开始就在不同模态下去进行预训练,能无缝的理解和处理。文本代码、图片、音频和视频。那我们来看看官方的展示。
从简单的曲线到画出一整只鸭子,他完全知道你在干嘛。拿出一只鸭子,它还可以辨认出它的材质。
它还可以跟你玩游戏,和你进行实时的互动。看到毛线就可以把作品给你生成出来。 它在图像识别、音频识别、视频识别上都做得特别好。
当然这个视频大家可能已经在朋友圈看到了,很震撼。但更震撼我的是后面的这些demo。首先它长眼睛,用图片问他这个房间的朝向。
我可以猜测房间是朝南的,他们根据图片中的光线来判断房间是朝南的,问他这个植物是什么?嗯,这是虎尾兰,不适合太多阳光,问他哪个房间更适合放这株植物?虎尾兰不需要很多阳光,由于客厅朝北,客厅更适合。其次,它长耳朵。
过去a i的语音对话都是先把语音转换成文字,然后再去进行处理,那这样的话会损失很多信息。语音语调、语气都没有了,特别像中文这样有四个声调的语言,不同的发音意思是不一样的。但geri的多模态可以直接无缝的处理和理解语音。
比如说在这个demo中问geri中文的正月的正确发音是怎么样的?是正月还是正月?how to pronounce the word lunar january in chinese? option a正月option b正月,which chinese correct? which tom is the the crack tone for the first character, 他能够选出正确的答案。option a the first character pronounced with the first term. 那其他把语音转换成文字的a i就没有办法来做这道题。
所以震惊我的是german i在处理复杂问题的实时交互能力比g p t的文本生成能力要迈出更大的一步。比如说在这个demo中,根据这些信息,它就可以很快的生成多种图文并茂的方案。带u i设计的非常的精致,在它生成的答案的基础上问他怎么做cupcake蛋糕,step by step, 然后它生成的u i又变了,是这种横向的,可以很清晰的看到步骤的呈现方式。
也是图文并茂。那在这个基础上让它生成不同动物的cupcake,它的e y又变了。除了直接生成cupcake图案之外,它还提供了不同动物的选项。
选择羊它就生成了很多羊的蛋糕,直接给你做出了一个。app在很短的时间内就经历了大量复杂的判断和运算。处理信息,写产品需求文档,界面设计写代码。
然后把这样精致带有交互的方案呈现在你面前太厉害了,震惊我一整年。当然以上这些都是官方的demo展示,它到底有多厉害,还是需要亲自上手去试一试。除了以上的这些demo,在数据维度上,german的性能表现同样优秀。
根据官方的数据。在m m l u大模型多任务语言理解测试中,german ultra得分率高达百分之九十,是第一个超越人类专家的模型。在代码这个维度上,german可以理解、解释和生成当下最流行的编码语言。
比如说python、java、c加加和go中的高质量代码能够跨越工作,并对复杂的信息进行推理。比如在二百个python编程功能的基准测试中,木乃在首次测试中就可以解决百分之七十五的问题。如果你让他自我检查和修改,那这个数据可以提升到百分之九十。
如果上面的这些demo和数据都是真实的,那german就完全超越了g p t四,成为当前最强大的人工智能。问题来了,它为什么这么厉害呢?此前传统的多模态模型创建的方法是为不同的模态训练单独的组件。
比如说text文字、vision图像、audio语音,然后将它们拼接在一起,从而粗略的模拟其中的某些功能。虽然这样可以很好的完成某些单一的任务。比如说描述、图像、文字、问答等等,但是在更复杂的推理上,多轮次的对话、多模态的理解、多领域的交叉上就有些不够用了。
这也是此前的ai无法做到真正智能的原因。因为我们大脑处理信息和思考的方式并不是单一的渠道信息摄入,而是动用身体的所有感官去接收信息。
听觉、视觉、嗅觉、触觉,然后在大脑中去进行整合和思考。决命乃厉害的点就在于它是原生多模态,和此前a i单一任务导向的训练完全不同,它是从一开始就在不同的模态上去进行预训练。
利用额外的多模态数据对其进行微调,让它可以接收所有不同类型的数据,文字、图像、语言,然后把它们融合在一起去进行处理。像大脑一样多个区域进行高效的协作,深度模拟大脑的运作方式,也许这才是人工智能发展的正确方向。这也是它和g p t四形成差异的关键。
这边来的横空出世,让谷歌打破了open ai一家独大的局面,将人工智能的发展又往前推进了一大步。人工智能的发展速度真的太快了,而这可能才刚刚开始。ai彻底改变人类生活和工作方式,能能拥有贾维斯的未来真的不远了。