如果你让一个a i想出一个难度,其他a i的问题他会滔滔不绝的替你出谋划策。但假如我们把他提出的问题再还给他,又会发生什么?大家好,我是阿k如今国内的a i越来越多,看起来科克上知天文下知地理。所以我就有了个想法,把他们统统拉一块儿搞个正面对决,看看当中谁能经受得住奇葩人类所搞出的各种刁难考验,成为最后的那个国产a i之王。比赛没有任何赞助,没有甲方考虑到,大家可能对结果不服,这次的参赛选手我全都选择了在国内没有任何使用门槛的a i模型。
它们分别是百度的文心一言,阿里的通义千问,腾讯的会员助手。以及最近在b站存在感很强的kimi chat,大伙也可以自己玩一玩。考验一,理解能力大家平时总说中文顺序颠倒不影响理解,那是因为人脑有一定的联想能力,能根据上下文理解句子,那现在的人工智能能理解这样的句子吗?首先考下百度的文心一言。好的,上面就显示目前提问的人数过多。
而在尝试多次以后,他终于有了回应,好在他不仅理解了这句话,而且还内容延伸,并针对这句病句给出了解释。不过他似乎认为这句话是正确的。得扣点分数,然后是腾讯混元助手,虽然同样正确理解了这句话并做出了解释,不过可能是会员比较信任人类,所以他在做总结引述的时候一样照搬了我的原句,并没有纠正句子里的错误。接下来是通义千问,他的回答非常正经直白,先给你一个结论,然后举个例子,做了一定的内容延伸,但它跟会员助手一样,同样也没对我们的提问进行纠错。
最后是kim chat,他毫无悬念的理解了题目,答了上来。我都有点。怀疑这题太简单了,不过他同样也没主动指出提问中的错误。看来各位a i都是有点东西的,都能针对提问做出正确回应。
不过似乎还无法像真的一样主动察觉到对方的迷惑发言并作出指正。那既然这样,我们不如提升一下题目的难度,直接从b站的评论区搞点抽象的句子,看看a i能不能理解。老样子,文心一言先上,等待过后,文心一言很快就察觉到了这句话的抽象之处。指出问题的同时,还联系上下文猜出了这句话真正的意思,并进行了纠正,表现非常好。
混元助手的表现跟文心一言差不多,也不错。面对一样的问题啊,通义千问回答还是一贯的直白和自信。先指出语句里的错误,并给出了他认为正确的英文和日语写法,还有跨语种人的内容输出啊,表现也很好。最后呢kimi chat也是开门见山,机油错指正二连,甚至还有一定的语法科普。
不过就是在中文部分。改了但没完全改,有错误得扣点分数考研。二、逻辑能力。如果你要问人类逻辑推理的智慧结晶通常都汇聚到哪儿?那我的回答一定是弱智吧。
为啥这么说?因为在研究员眼里,弱智吧真是最佳的中文a i训练语料库,所以我挑了几道抽象问题来考考a i。首先接受考验的还是文心一言。面对配台五千元的电脑需要多少钱的问题,他冷静的回答了需要大约五千元,并给屏幕前的弱智做了一些基础的硬件科普,很贴心。在回答眼镜没发明之前,眼镜蛇到底叫什么与光头洗头是用洗发水还是洗面奶两个陷阱问题时,文心一言的思路很清晰,逻辑严谨,找不到毛病。
而同样的问题问会员助手,五千元电脑需要五千元,光头洗头需要用洗发水?面对逻辑陷阱,同样也没有踩坑。并且在眼镜蛇问题里还会给我补充科普。古时候眼镜蛇的三种叫法表现也很好。接着是阿里的通义千问,回答还是一贯的严肃正经,在电脑配置回答中还会联系当前的时间做出与时俱进的购买推荐,不愧是阿里的a i。
未来或许会直接跳某宝链接吧。靠。而在眼镜蛇回答中,他的回答也很全面,应对光头洗头问题时,他还强调了尽管存在不同观点,但大多数意见支持使用洗发水,确实严谨。最后是kim chat五千元电脑问题,答的没啥问题,眼镜蛇称呼在查阅资料后也给出了很靠谱的回答。
就是在光头洗头环节,kimi chat则有了不一样的看法,他觉得两者都是可以的,并且觉得如果头皮较油用洗发水,如果头皮敏感也可以用洗面奶,似乎还有点道理,很新颖,不知道有没有专业同学讲一下这观点合不合理?看来,在吸纳了弱智班的训练语料后,各家ai回答其弱智班儿的陷阱问题似乎都相当有一套考验三,图文几何题看到这里,是不是觉得我提的题目太简单了,那好,我们来一道简单的高中几何题吧,既考验图文识别能力,又考验解题能力,最后还有个标准答案。我心想,这下总能试出他们谁更强了吧。然而结果却让我大跌眼镜,文心一言从图片识别部分就出了大问题,也就是说正方形a b c d位于正方形c e。g f内部一会儿又说两者相交是个矩形,全程都在滔滔不绝的胡言乱语,要不是知道正确答案,我差点就给他照进去了。
再看腾讯会员解题,那更是中了几,上来就给我甩了一句选a语气坚定的向我上学时候只做选择题的强势同桌,对此我还让他再做了一遍,然而他的态度依然坚定如铁,很牛逼。而接下来通义千问跟kim菜的表现差不多,冷静的分析,果断列公式,笃定推逻辑,表现像学霸。最后一看题目,一看结果,完全就这么一本正经的胡说八道。甭管会不会啊,这过程写的是真唬人。
看来目前大多数ai还没法解决这种复杂的数学问题。考验四,体验感受这项考验全由我的主观感受得出,既不客观,也不专业。但作为一个普通使用者,我可以保证绝对真实。文心一言免费的三点五版本经常遇到需要排队的状况,体验一般,但内容输出速度中上,能够生成图片付费,升级为文心一言四点零后,能力或许会更强。
腾讯会员整体表现。中规中矩,内容输出速度中等,支持输出图片优缺点都不突出,日常使用没啥问题。通义千问回答都偏长且严谨,话多到甚至有点啰嗦。不过对于a i来说应该算优点几款a i中内容生成速度最慢,不然还是挺可靠的。
kim chat内容生成速度最快,我更习惯将它当搜索引擎用,优点是处理创造版本,缺点是不支持图片输出。在这几款a i之中,表现其实半斤八两,很难选出一个真正的王者。并且它们的优缺点也很相似,文字处理方面比我想象中强不少,然而在数学方面依旧是一塌糊涂,从事文字工作比较多的同学可以试着玩一玩。好了,本期内容就到这里了,如果视频对你有帮助,别忘了三连加关注哦,我们下期再见。