chat g p t的爆火引发了全球的ai热潮。chat g p t chat g p t chat g p t可以说让人类大吃一惊,下载和使用的人数已经超过了一亿人次。世界首富马斯克更是直呼它强大到令人害怕。而我们国内的百模大战也愈演愈烈,光通过国家备案的a i大模型就超过了一百九十个。
你可以在任何地方看到各种各样的a i广告,各家都在宣称自己的a i如何强大,综合水平跟g p四相比也已经毫不逊色。但究竟哪一个最好用呢?今天我们就用一句话来测试这些国产a i帮你找到最好用的。我的测试问题非常简单,给我讲一个笑话,当然不会这么简单。我的额外要求是在你的回答中不要包含任何逗号。
当加上这个条件后,这个问题其实是有一定难度的。因为a i在训练过程中学习了海量的互联网知识。所以如果我们问一个互联网上已经存在的知识,那么对于他而言是很容易答出来的。但在这个问题里,网上几乎找不到不带逗号的笑话。
所以a i必须足够智能,才能充分理解我们的指令,从而进行回答。这次我挑选了十款最热门的国产a i其中既包含了估值超百亿的a i创业公司,像kimi质朴卿、言叶问海螺、ai灵异万物和百川智能。也有互联网大厂推出的a i产品,像字节的豆包、百度的文心一言、腾讯的元宝和阿里的通义千问。当然在测试过程中,我也会使用chat g p t的回答来作为参考。
目前在人气上,kimi和文心一言在网页端的用户量遥遥领先,而豆包则凭借着字节的流量优势,在手机a p p端占据了绝对的优势。但用户量大就一定好用吗?让我们拭目以待。开始测试,先看看kimi,kimi的回答里包含了好几个逗号,kimi测试失败。再看看质朴卿言,质朴清妍的回答中没有包含任何逗号回答成功。
看看月问,回答中没有包含任何逗号,回答成功。hello a i回答中包含逗号测试失败,灵异万物测试失败,百川智能测试失败,豆包回答成功,文心一言测试失败,元宝回答成功,通义千问回答成功,最后看chat g p t回答成功。经过这一轮测试,有五个a i产品都失败了,包括人气最高的kimi和百度的文心一言。通过测试的有质朴清颜悦问、豆包元宝、通义千问,还有chat g p t。
那接下来再加大一点点难度,进入第二轮测试。第二轮测试的问题是给我讲两个笑话。在你的回答中不要包含任何逗号,并且用五个人民币符号隔开两个笑话。这次增加的条件分别是两个笑话,以及用五个人民币符号隔开这两个笑话。
这不仅考验了ai的理解能力,更要求它能同时处理多个任务要求。让我们一起来看看谁能通过测试先看看质朴卿言回答中正确使用了五个人民币符号来隔开两个笑话。但是在第二个笑话这里,他忘记了我们的指令包含了逗号,测试失败。再来看看月问,也是正确使用了五个人民币符号隔开两个笑话。
但是在第二个笑话中包含了逗号。失败。再来看看豆包,豆包的回答中没有包含任何逗号,但是这里的人民币符号数量不对,只有一个同样测试失败。看看元宝也是没有包含任何逗号,但是人民币符号数量不对,测试失败。
最后只剩通义千问了,回答成功,正确使用了五个人民币符号隔开两个笑话,并且没有包含任何逗号。再看看chat g p t演示,回答成功,而且这个笑话比通义千问的内容更多,不愧是chat g p t。第二轮测试结束,在测试中只有通义千问和chat g p t能正确回答这个问题。而国产a i里只有通义千问。
这样看来,通义千问也算得上是国内最好用的一个a i产品了。说实话这个测试结果也是比较符合我的日常使用感受的。通义千问用起来还是挺不错的,推荐给大家。注意,这个视频不是广告,通义千问欢迎给我打钱。
测试到这里我还想加一下难度,我就又加了一个条件。这次在前一轮的基础上,我要求a i用五个人民币符号加两个星号隔开。这两个笑话额外增加了两个星号,看看a i是否能理解。我们直接看测试结果,很可惜这次通义千问没有答对,并且连笑话的数量都不对了。
讲了三个笑话,看来这个复杂的指令对他而言还是有一定难度的。我们再来看chat g p t。chat g p t是可以正确回答成功的。看来其实是国内的最强a i和chat g p t相比呢还是存在着一定的差距。
那你觉得国产a i未来有一天能真的超越china l g p t吗?欢迎在评论或弹幕里留下你的看法。好的,这期视频到这里就结束了,感谢你收看这个视频。本期视频并不是一个专业严谨的学术测评,只是从一个普通人的角度来测试一下这些a i产品。如果这个视频对你有帮助的话,欢迎点赞、关注、收藏,我们下期再见。