当深蓝在国际象棋上战胜卡斯帕罗夫时,我保持沉默,因为我不玩国际象棋。当阿尔法狗在围棋上战胜柯洁时,我也保持沉默,因为我也并不了解围棋。当a i大模型开始写文章、诗歌、冷笑话时或这次是冲我来的,欢迎来到太平洋a i大横屏的创意篇。在这里,从写小红书、朋友圈,到小说、剧本、广告,再到报告、公文、教培内容,我们为每款ai工具准备了社交媒体、文案创作、商业创意、内容创作、营销创意、交互设计、特殊场景共计六大场景的三十道题目,会努力测试到大家关心的方方面面。
当然了,考虑到a i生成的随机性和可能出现的a i幻觉,我们并不能保证每次产出内容的质量。所以大家就把我们这次测试当做一次针对a i工具的高考崇拜,在此一举。首先呢我们来看看社交媒体文案创作能力。直接说答案,质朴、清颜、豆包、天宫、ai的表现都还不错。
具体来看,在为故宫文创联名饮品创作小红书文案的需求中,质朴在表情、国风和音频的结合以及话题结构上都保持了较高的水准。而相对不够优秀的通义千问,就有种故宫博物院导游的感觉了。而最让我感到遗憾的是deep sik和文心一言x一,他们声称的文案中出现了日语的假名东。或许是搜到了元气森林日系风格相关的内容,但与故宫的国风联名上出现外国文字是很容易出现风险的,这样的风险就导致了他们生成内容已经不重要了,单项排名直接垫底。
或许是小红书太过流行,a i工具在创作微博时也是满满的小红书味。这一项中最值得表扬的是通义千问了,不仅内容长度适合发微博,还圈了小米手机的账号,这就很微薄了,而这里表现最差的呢是元宝,我要求是写三条微博,但他只写了一条微博,加三个小点的介绍,看起来就很适合小红书。到了写朋友圈这里呢,我们遇到了一个呃算比较离谱的问题吧。我们希望ai工具可以为朋友圈的九宫格写一条文案,并且加上七言诗句和e m o j i的表情。
但几乎所有的ai工具都理解成了写九句朋友圈文案,而kimi通义等写的诗还不失七言。整体来说,大家的表现都一般,相比下来,文心妍和质朴的表现尚可。虽然质朴把七言配成了五言。比较有亮点的是现在叫mini max的海螺a i虽然也写了九条,但至少满足了我七言诗emotion的需求。
而在测试了文心言x一后,我发现它可能才是最强的。虽然也生成了九条,但每一条的内容都是没有问题的。不过我也对自己的题目产生了疑问,九宫格朋友圈文案,大家觉得是写一条还是写九条呢?看到这里,相信大家对ai工具的社交媒体文案创作能力已经有了一定的了解。简单来说就是食神时鬼。
像社交媒体这种流行文化瞬息变化的场景里,其实并不适合需要数据积累、网络搜索才能发挥的a i大模型。比如在我让质谱写短视频的公益广告时,他大概是参考了电视公益广告,这明显不符合当下的习惯了。元宝虽然在写微博时让人很不满意,但在写科普小故事时又很容易让人带入。综合下来,在社交媒体文案创作上,质朴的表现最为突出。
而大家都接触的那个deep sak,因为个别项目的分数太低,导致了整体的成绩一般。而刚刚发布不久的文心一言x一犯了和dept sik一样的错误,其他地方的表现呢其实也是和deep sik一样优秀的。接下来让我们来看看商业创意能力。这部分呢我们主要要考察a i大模型在针对产品命名、广告词设计策划方面的创意水平。
其中最让我感到意外的是kimi在很长一段时间里,我一直都是chat g p t搭配kimi一起使用的,还算满意。但在这次测试中,我让kimi写小于八个字的广告语,他写了十个字,我让他为b站跨年晚会加入黑神话的内容设计的现场互动,如同公司年会让他用二百字分析项目,硬生生的生成了六百多字。当然了,这并不是km一家的问题。这种字数与指令不同,理解偏差让人感到莫名其妙的内容,也在其他ai工具中都有出现。
比如讯飞星火,他想在b站的跨年晚会上让现场的观众演唱纯音乐云宫迅音怎么唱,现场的观众哼调调吗?比如质朴给极氪面向家庭的车型命名时,命名为了极氪岭澜月影。考虑到市面上大多的品牌都是两个字的名字,这么中二的名字其实也是没法使用的,类似的情况还有很多。综合下来的唯二强者是lip sic,在双音slogan里,它不仅中文是八个字,英文都是四个词。包装设计的配色方案里有命名,有色号,全面又实用。
在设计晚会的黑神话节目中,也是唯一一个提到了像大圣残躯、黄风岭这些游戏内容的a i工具。其他不少ai工具还在说什么师徒取经的事,不过deep sik也不完美,他也不识数,二百字的分析硬是写了四百多字,而另一个强者则是刚刚发布的文心言x一,它的表现与d sik非常接近,同时它还是数。可以看到他的思考过程中有多次提到要限制字数。文心一言x一的联网思考是先思考再联网再思考,这个过程其实也更像人类啊,不会因为搜索到信息污染思考的内容。
综合下来,deep sig和文心一x一确实很强,但像豆包、天宫、讯飞、星火的整体表现也都不错,如果你有商业创意需求,他们会比较适合你。我一直觉得啊a i工具是不适合创作的,主要原因就是他们写出来的小说、诗歌、剧本都不好看。在此呢我要向a i工具们道个歉了。如今的大元模型真的已经可以写出非常不错的文学内容了。
比如呢在凌晨三点便利店的悬疑故事创作里,质朴描绘了一个a i电源为了救人而欺骗人类的故事。在排剧创作中通义千问写的星光编程页天文编码写银河星星闪烁声就很有感觉。在关于宋慈的a r游戏关卡设计中文心一言的特点四通过不同宋词的句子串联起了古代与现代的城市。在凭借ai技术实现的想法太有意境了,导致我现在就想玩到。
而在起草白皮书章节的目录框架时,deep sk清晰的结构和简洁的解读就是目录框架的标准答案。还有一些有趣的地方,元宝为记忆折叠这部科幻短片选了演员,我去搜了一下,还挺合适的。质朴的俳句云端枝头鸣a i吟诗风送运,落叶成文章,甚至有了一些古韵。雯昕言x一创作的八百字悬疑小说,剧情和意境都没有落下。
简单读一下开头,凌晨三点的便利店像块泡在福尔马林的海绵,冷光淹没了货架间流动的灰尘。我第三次用消毒湿巾擦拭收银台时,玻璃映出身后那个穿红色围裙的身影。需要帮忙吗?声音像钢琴上的中间c键,精准的令人不适。如果综合文学、娱乐专业领域的表现,是的deep sick和文心一言x一依然遥遥领先,而腾讯元宝豆包的表现也还不错,但表现好不代表大家表现都好。
对不起,我又要批评一下kimi了。在八百字的小说创作里,kimi只有六百九十二字,大概是加上了标点符号吧,里面还有一句凌晨三点的便利店,你是为何在此混得好啊?我猜是因为便利店没有腿吧。在为辩论博客撰写正反方论点时。kim直接化身辩手以身入局,根本没有理我的问题。
在起草公文目录框架时,每个标题下都有几百字的解释,这个体验真的太差了。当然了,这并不是kimi一家厂。mini max的创作里也出现了没有影子的人,因为他是a i仿生人这样的设定,a i仿生人他也不是幽灵吧,这个设定就很奇怪。豆包的排序芯片裂缝中长出苔藓,读取二进制时,露珠折射出神经突触,甚至已经不是短长短的。
但它也并不是。最奇怪的还是mini max神经网络如藤蔓缠绕在归土中生长,出电之花绽放于无声。这应该算是现代诗吗?而在跨界等营销创意,app功能等交互设计,以及危机公关等特殊场景中,说实话大家的表现其实都差不多。越公式化的内容,a i工具处理的其实越到位。
但在这其中也有一些a i工具脱颖而出,一些a i工具表现平平。比如在解读生成式人工智能服务管理暂行办法的第二章时,包括豆包通义、千问质朴、星言、天工、元宝、讯飞mini max等在内的七款a i工具,都是根据这个暂行办法的名称自己编了一个第二章,与事实不符。在给oppo折叠屏手机协议敦煌研究院的跨界营销方案时,包括kimi通义、千问讯飞、星火mini max在内的四款ai工具完全没有提到折叠屏相关的创意,替换成任何类型的手机均可以实行。但同样的问题呢,质朴就提到了可以通过屏幕折叠调整角度的方式实现壁画修复。
deep sik提到了可以用智慧文档虚拟全景屏的功能实现与敦煌研究院的联合共创。文心x一提到悬停分屏等工作,模拟修复壁画的实验台,大家的表现也都很不错,简单总结一下,如果你想用ai工具帮你写微博、小红书,那质朴、天工、豆包这些工具的表现都很突出,如果你想文学创作或者创意方案,那dept sik、豆包、文馨妍、x一四turbo的表现都很不错。如果你想用ai工具来写公文,其实大家的表现呢都差不多。但我更建议你用deep sak,他的答案确实更加标准。
如果deep sik服务器繁忙的话,文心言x一的表现与deep sik非常接近。豆包质朴清颜,听功宴的表现也都不错。总结下来,我们以一一款a i工具中两个s三个a四个b两个c的数量来划分。在创意输出领域得出了以下结论,本来只有一个s的,但在我们测试完文心x一后,至少在我们体验的六大场景三十个类目里,它的表现还是很不错的。
我也非常建议大家去尝试一下,用文心e x一和deep sig做对比,看看是否能得到和我们一样的结论。但还是那句话,a i的生成是有随机性的,我们的测试呢也绝对算不上专业,只是尽量来还原日常工作生活中的场景,来对这些a i工具进行一次高考。你个人对这些ai工具的评价又是怎么样的呢?欢迎在弹幕和评论区告诉我们吧。