测评：谷歌最强大模型Gemini到底有多厉害#AI测评#Chat gpt4.0#AI人工智能

十二月六日，也就是昨晚，谷歌推出了最强通用大模型german一点零，据说全面超越了g p t四，成为当前最强大、用途最广泛的人工智能，性能媲美人类的专家。他到底有多厉害？它为什么这么厉害，以及它将如何颠覆。接下来人工智能的发展，让我们一起来看看。

首先它有多厉害呢？不同于open a i单独训练语音模型whisper和图像模型dari再去进行能力的拼贴和整合，dream乃是原生多模态构建，从一开始就在不同模态下去进行预训练，能无缝的理解和处理。文本代码、图片、音频和视频。那我们来看看官方的展示。

从简单的曲线到画出一整只鸭子，他完全知道你在干嘛。拿出一只鸭子，它还可以辨认出它的材质。

它还可以跟你玩游戏，和你进行实时的互动。看到毛线就可以把作品给你生成出来。它在图像识别、音频识别、视频识别上都做得特别好。

当然这个视频大家可能已经在朋友圈看到了，很震撼。但更震撼我的是后面的这些demo。首先它长眼睛，用图片问他这个房间的朝向。

我可以猜测房间是朝南的，他们根据图片中的光线来判断房间是朝南的，问他这个植物是什么？嗯，这是虎尾兰，不适合太多阳光，问他哪个房间更适合放这株植物？虎尾兰不需要很多阳光，由于客厅朝北，客厅更适合。其次，它长耳朵。

过去a i的语音对话都是先把语音转换成文字，然后再去进行处理，那这样的话会损失很多信息。语音语调、语气都没有了，特别像中文这样有四个声调的语言，不同的发音意思是不一样的。但geri的多模态可以直接无缝的处理和理解语音。

比如说在这个demo中问geri中文的正月的正确发音是怎么样的？是正月还是正月？how to pronounce the word lunar january in chinese? option a正月option b正月，which chinese correct? which tom is the the crack tone for the first character, 他能够选出正确的答案。option a the first character pronounced with the first term. 那其他把语音转换成文字的a i就没有办法来做这道题。

所以震惊我的是german i在处理复杂问题的实时交互能力比g p t的文本生成能力要迈出更大的一步。比如说在这个demo中，根据这些信息，它就可以很快的生成多种图文并茂的方案。带u i设计的非常的精致，在它生成的答案的基础上问他怎么做cupcake蛋糕，step by step, 然后它生成的u i又变了，是这种横向的，可以很清晰的看到步骤的呈现方式。

也是图文并茂。那在这个基础上让它生成不同动物的cupcake，它的e y又变了。除了直接生成cupcake图案之外，它还提供了不同动物的选项。

选择羊它就生成了很多羊的蛋糕，直接给你做出了一个。app在很短的时间内就经历了大量复杂的判断和运算。处理信息，写产品需求文档，界面设计写代码。

然后把这样精致带有交互的方案呈现在你面前太厉害了，震惊我一整年。当然以上这些都是官方的demo展示，它到底有多厉害，还是需要亲自上手去试一试。除了以上的这些demo，在数据维度上，german的性能表现同样优秀。

根据官方的数据。在m m l u大模型多任务语言理解测试中，german ultra得分率高达百分之九十，是第一个超越人类专家的模型。在代码这个维度上，german可以理解、解释和生成当下最流行的编码语言。

比如说python、java、c加加和go中的高质量代码能够跨越工作，并对复杂的信息进行推理。比如在二百个python编程功能的基准测试中，木乃在首次测试中就可以解决百分之七十五的问题。如果你让他自我检查和修改，那这个数据可以提升到百分之九十。

如果上面的这些demo和数据都是真实的，那german就完全超越了g p t四，成为当前最强大的人工智能。问题来了，它为什么这么厉害呢？此前传统的多模态模型创建的方法是为不同的模态训练单独的组件。

比如说text文字、vision图像、audio语音，然后将它们拼接在一起，从而粗略的模拟其中的某些功能。虽然这样可以很好的完成某些单一的任务。比如说描述、图像、文字、问答等等，但是在更复杂的推理上，多轮次的对话、多模态的理解、多领域的交叉上就有些不够用了。

这也是此前的ai无法做到真正智能的原因。因为我们大脑处理信息和思考的方式并不是单一的渠道信息摄入，而是动用身体的所有感官去接收信息。

听觉、视觉、嗅觉、触觉，然后在大脑中去进行整合和思考。决命乃厉害的点就在于它是原生多模态，和此前a i单一任务导向的训练完全不同，它是从一开始就在不同的模态上去进行预训练。

利用额外的多模态数据对其进行微调，让它可以接收所有不同类型的数据，文字、图像、语言，然后把它们融合在一起去进行处理。像大脑一样多个区域进行高效的协作，深度模拟大脑的运作方式，也许这才是人工智能发展的正确方向。这也是它和g p t四形成差异的关键。

这边来的横空出世，让谷歌打破了open ai一家独大的局面，将人工智能的发展又往前推进了一大步。人工智能的发展速度真的太快了，而这可能才刚刚开始。ai彻底改变人类生活和工作方式，能能拥有贾维斯的未来真的不远了。

测评：谷歌最强大模型Gemini到底有多厉害#AI测评#Chat gpt4.0#AI人工智能

图文助手更多>>