哎,这是人工智能发展的实在是太迅猛了,迅猛到我都感觉有点脊背发凉。这chat g p t刚成了全球大爆款,你本来以为这就是个小高潮了吧。嘿这生成式ai的发展哈就好像天马流星拳一样,霹雳往你脸上砸。我上一期聊chat g p t那视频发了还不到俩月,这a i市场就发生了一个天翻地覆的变化。你可见小林视频的影响力是不是还嗯。三月十四日谷歌发布大语言模型接口com a p i。但仅仅一天后,三月十五号open a i就发布了chat g p t的升级版g p t四。紧接着微软就宣布要把g p t四融入到他的办公全家桶里。而就在一天之后,三月十六号百度又发布了文心一言,打响了国内大语言模型发布的第一枪。同一天图片生成公司那journey发布了第五版,那图像逼真的程度哈真的是非常逼真。
之后啊什么华为、阿里、三六零、商汤也都纷纷发布了自己的大体验模型。更关键的是啊现在大家推出的已经不光是这些底层的基础大模型,而是开始逐渐把这些模型都加入到应用里边来。这个咱们一会儿再细聊这种可怕的发展速度哈,真的是让人又兴奋,还有点担忧。马斯克早在二零一八年就放话了,记住我的话哈,ai比核武器还要可怕的多。my words, i is farmer, dangerous the nukes. 就他具体的问题哈,我们在今天视频最后会讲。不管怎么说吧,就你看他现在的发展趋势已经势不可挡。所以我感觉非常有必要再出一期人工智能的视频,就帮助大家,其实也是帮助我自己啊更新一下这两个月内人工智能领域发生了这些变化,也顺便聊聊他背后潜在可能一些风险。咱们不能掉队了,你说是吧?今天这段视频哈,我其实不太想去强调或者对比这些公司之间的竞争。因为很多东西就确实太早期,产品也不够成熟,而且很多还在内测阶段,非得比出个谁优谁劣,其实意义也不大。咱就来看一看最近到底有哪些千奇百怪的突破和应用和产品。
其实吧像人工智能、机器学习早就已经挺普遍的了。但之前大部分他们是专注在分析类的工作,比如说像大数据分析啊,什么alpha go下棋啊,人脸识别等等。可这波火的是什么啊?叫生成式ai general ai就是能生成全新内容的a i比如说全新的文字啊、图片啊,全新的代码、声音、视频等等。也就是说a i它已经具有一定的创造力了,而且它创造出来的东西吧还真挺像那么回事的这可就离真正意义上那个人工智能又迈进了一大步。咱首先啊还是先从大语言模型来看,这里边首先要聊的肯定就是这个g p t四,也就是拆g p t的更新版。就是你交了钱升级到叫chat g p t plus,就可以用这个g p t四了。我都已经给他们想好之后的名了,什么chat g p t pro、chat g p t max, chat g p t pro max咱之前其实详细聊过chat g p t哈,也就是g p t三点五就它已经几乎可以回答任何问题了,也能编程总结等等。当然这个准确率哈还不能保证。那这个g p t四有什么升级呢?最明显的升级哈就是哎他能看懂图了。不光是说我只能识别这个图里的物体,关键是哈他还特别有常识,而且还有一点幽默感。
就比如说你问他这张图搞笑在哪,他就告诉你,你把一个过时的v g a接口插到了一个现代的智能手机上,这张图有什么问题啊?他就告诉你说有个人在出租车后面运衣服,这不太正常,我把这线剪断会怎么样呀?他就告诉你说这气球就会飞了,你要是给他画这么个破草图,让他给你做个网页g p t四就能生成代码,这网页肯定不能很成熟了。但是他已经能看懂你画的纸上那个极其丑陋的草稿了,这是不是还挺可怕的?我再给大家提个醒哈,就是你现在不是交了钱升级到那个plus就已经能用g p四了吗?但其实他现在还没开放那个图片输入的功能,就那个只对a p i接口开放,你别问我是怎么知道的。除了图片输入哈,chat p t还有一个很大的升级。就我们知道它其实之前最大的一个槽点就是它经常胡说八道,也就是说准确率不高。那这版g p t四呢它回答的准确性也得到了大幅加强。要是让g p t三点五、g p t四同时去参加就是我们人类的那些考试。这张图里蓝的哈就是上一代的那个百分比,而绿的部分呢就是这次这个g p t四高出来的部分。你看啊大部分考试都多多少少有所提升。这里头最明显的哈就是美国那个律师考试。就上一版还只能排在最差的百分之十里头,这版的g p t四已经能排到前百分之十了。
除了这两点哈,g p t四还有一堆改进,像什么更高的字数限制啊,更好的去规避违禁内容,降低成本等等。这个我们就不展开讲了。你可能对这个拆g p t他回答问题的能力已经见怪不怪了。但这次这个g p t四档达就玩的更花。像什么生成swiss代码、做动画、做贪吃蛇小游戏、生成律师函、生成以太坊的智能合约等等等等。关键是哈就这些产品的提升发生在仅仅不到半年之内,考试分数就已经能从垫底变到优异,从小学生变成大学生了。你想想他要再发展个两年能变成什么样,那估计很有可能就能超过大部分的什么人类或者专家了。至于这个g p t四啊,它为什么能发展的这么快?它模型上怎么改进,它用了多少参数?现在这个open a i它已经完全不公布了。之前他是个非盈利组织嘛,你看那g p t r甚至都是开源的。微软投资之后呢,就完全变成一家私营公司了。
你像市场竞争那么激烈,这些还都是商业机密,那我就什么都不说了,甚至连参数量我都不告诉你。大语言模型上啊,open a i的这个g p t四,它肯定是有先发优势。但是各大其他厂商都拼了命的想赶上这班车,只要有能力的都会去训练自己的大模型。你比如说谷歌的pom lamda百度的文心一言,阿里的通义千问,meta的这个拉玛,我不知道怎么读哈。华为的盘古,还有open i有前员工自己出来做的cloud等等。市场上已经出现了几十个大模型,光谷歌就七八个。但你也别以为这个东西这么贵,就只有那些巨头公司才能干。坦福大学是基于matter的大模型,用了六百美元啊,只有六百美元就精调出了自己的大模型,叫做羊驼奥帕卡,也可以叫草泥马,就达到了和g p t三点五类似的水平。而且它的代码还是开源的,可能很快之后每个人都能拿手机训练自己的大模型了。但这些模型具体谁好谁坏呢?其实也很难说。
现在看来啊大家普遍认为还是拆g p t相对来讲更成熟一些。但你看这玩意儿发展的这么快,你指不定半年之后又有什么天翻地覆的变化呢。就每家都说自己有一些独特的地方,这个正是机器学习它训练出来模型一个非常大的特点。就是你很难像对比什么手机电脑,至少你先拿个参数拉出来看一看,能有个大概的分级。半年模型这玩意儿你也不知道它里边具体的那个生成的逻辑,你最多就能拿参数量来比一比,是几百亿、上千亿还是上万亿。但这个也不一定准,而且这东西都是企业说多少是多少,你也不知道真的假的。这有点像啊你去评价一个学生的能力,你要是去看他读了多少本书,看了多少小时。确实可能有点参考价值,但最直观的咱也都熟,对吧?啊。大元模型也一样,你还是得通过自己搁那测试来判断它厉不厉害。所以呢我就也简单试了几个我能拿到access的模型啊,为了方便大家阅读呢,我就都用中文跟他对话了。
大家可以暂停看一下,感兴趣的话。就我觉得吧之后估计还会有一个a i的评测机构,就专门负责测这些模型,然后给他们评级,就像那种金融评级机构似的。因为你想谁没事把这所有模型都拿出来自己测一遍是吧?好,咱们刚才聊的这些其实都是那些底层的大模型,他们追求的哈就是那种通用性,就有点像小孩都学的这种通识教育。但是你要想训练某个专业领域的人工智能呢,当然你也可以自己训练哈。比如有一些那种财大气粗的公司,像金融巨头bomberg,他就这么干了。但中小公司肯定没这个实力啊,那他们就可以基于现在已经训练好的这些大模型来进行一个二次训练。就是相当于你把刚刚上完通识教育那个小孩给拉过来,根据自己的数据啊,再给他上几年专业课,让他变成这个专业的专家。或者你就干脆调用这些大模型的a p i接口,把它变成自己服务的一部分。就是它的可延展性其实是非常强的。就再往后他就不是说你简单聊聊天,给你生成几张美女图片那么点事儿了。
关键的就是它潜在的应用范围是非常之广的,就很可能渗透到整个市场。这个其实就是为什么拆g p t,还有谷歌那个胖,它开放a p i接口其实是个非常重大的事情。那咱来看一看目前它的一些应用方向啊,最典型的例子啊就是搜索。这我相信大家都熟。你看微软就把拆g p t融入到它的搜索引擎并里头,现在叫new病。谷歌呢就把l lamda模型和pom模型都融入到了bar的里头,就差不多也算半个搜索工具了。除此之外还有像什么u的com百度三六零等等,这就相当于一个传统的搜索引擎吧。变成了一个可以能跟你这么对答对话的机器人了。这个我们讲拆g p那期详细聊过啊,就不展开讲了。那还有一个非常适用的领域哈,就是办公。
你想大语言模型它最擅长的就是组织语言嘛。那你工作的时候让他帮你组织个上下文啊,写写总结啊,改改语法错误什么,这些肯定都是我们能想到最直观的应用。比如说notion,它就是个挺大的记笔记的软件。今年年初呢就推出了notion ai之后一炮走红。它其实就是把chat g p t给接进来了。那你看微软对吧,同时手握着office全家桶和chat g p t两大王牌,很自然的在三月十六号的时候啊就推出了microsoft三六五co pilot啊,g p四呢就嵌到了像是excel、word、powerpoint、outlook等等的办公软件里头。比如说你在one note里面记了个笔记,然后你在word里头就可以让ai帮你自动生成内容和总结。好,你要是调整好这段文字,大家详细了之后啊,这个powerpoint呢又自动能帮你生成一个对应的p p t格式也都挺好看的,而且它还自动帮你做点动画什么的。像excel里面你一堆数据,你就可以直接问他这是有什么特点啊,能不能给我做一个什么展示报告等等。当然咱说的挺玄乎,畅想的很美妙哈。
但以现在的这个a i的能力,它适用的范围肯定还没有达到那么广。就不可能像咱刚才看那个演示视频里边那么神,就一键什么都能搞定。但还是那句话啊,就他之后的可能性非常之大。你说他要是真的能像都那么智能了,那你让他学,我给老板自动回个话是吧,把把活全干了,那多爽。那不对啊,那以后老板可能就不需要我了。你还别说哈,真的已经有公司让ai去当c e o了。去年八月啊国内有个游戏公司网龙就任命他的高管唐钰出任公司的轮值c e o。而这个唐钰你看有名有姓的竟然是个数字虚拟人,就成了一个无处不在可以随时响应的c e o。但至于他到底做了多少事儿或做的怎么样啊,反正也不太清楚,就是挺有意思哥的事跟大家分享一下。生成式a i啊还有一个应用方向就是图片生成。
就其实它已经不光是应用层了哈,因为它本身基于的那个模型就已经不是大语言模型了。我相信啊大家可能多多少少都见过ai生成的图片。就是你跟他描述一下你想要什么,或者你给他一个样片,然后他就能生成一个极其逼真的图片,或者各种你想要的风格,什么迪士尼风格、剪纸风格、毕加索风格、油画等等,几秒钟就能出来。这些是一些没journey生成出来的图片。我不知道你看的是什么感觉哈,反正我第一次看的时候还真挺震惊的。现在目前比较主流的哈除了my journey,还有open ai的dolly two stable division等等。而我们知道图形处理界的王者是谁呢?对,就是美图秀啊,不对不对,是。adobe也推出了自己家的图像生成模型,叫firefly。他就是把图像生成和图像处理再一结合,哎,那你想象空间就大很多了。比如说你把这个图片给我变成冬天的,哎,你看就好了,还是个下雪的动态场景。
哎,这个灯塔我不喜欢你给我换个样,给这个手表表带换个材质,再给这个手表让它动起来。比如这片草地加上条小河等等吧。你看这些效果哈,不是说我们原来完全做不到,但你就给一个非常专业的人士也得搞一阵子,那a i一下就给你搞定了。除了图片生成哈,当然还有视频生成的a i就比如说有个叫runway的,你给他几个字儿或者给他一张图,它就能自动给你生成一段视频。当然这个明显哈没有咱们刚刚看图片那么成熟。再比如说音乐创作,我就可以根据我想要的什么风格啊、速度啊、key啊来创作我想要的音乐。这些多媒体的生成式a i啊,它关键让我震惊的不光是说它生成出来的这个结果,而是它进化的这个速度。你比如说两个月之前a i画出来的那个手指头还是乱七八糟惨不忍睹的。你看现在就已经差不多了,估计再过不了几年啊。咱们看到的很多图片、视频、音频可能都是ai创作的了,或者至少说啊会有a i的大量参与。
好,还有一个应用方向啊就是金融。我们刚才提了一嘴哈金融从业者很熟悉的bomberg蓬勃。人家就用自己数十年海量的数据,五百亿的参数训练出来的一个金融的专家,叫bomber g p t,据说啊测试效果还不错。其实国内大量的银行券商也都多多少少宣布自己要接入各种g p t。这其中啊尤其是同花顺,它的a i其实布局算比较早的。虽然人家公司明面上都说了哈,就是说我们公司的技术跟国际的先进水平还有着比较大的差距。但是你看这股票都已经翻倍了,可见市场对a i在金融领域的应用有多么看好。还有一个啊在a i圈特别流行的算是应用吧,就是auto g p g。把它翻译成叫自主机器人,我觉得这个还挺有想象力的。就它不是一个面对消费者的应用,而是一个大牛直接在github上面放了一个开源的项目。
它就是接入了g p t四的接口,然后就可以做出来一个自主运行的机器人。比如说你只要给他个目标,打个比方哈就是说你帮我弄个生意,让他持续不断的赚钱,然后剩下的你就交给这个auto g p t就全都搞定了。是不是听着有点太神奇了?那它的原理是什么呢?它不是像chat g p t这种直接给你一个答案。因为我们知道很多情况下g p t说他也不靠谱,它其实基本上啊就是给这个g p t四接上了编程能力、搜索能力、长期记忆能力等等。你就只需要给他一个目标,然后呢他就自己问自己问题,说应该怎么做,然后去执行。有什么不懂的或者需要做调研呢,他就自己上网上去搜。然后呢就通过不断自己给自己提问和优化中间的环节,来尽可能的实现你的目标。当然我也就只能说的这种题毛这个哈其实大家更属于那种半玩票性质的,就我也是确实觉得挺火的,挺有意思的,也就跟大家提一下。还有一些其他方向的应用哈,比如教育,因为a i非常擅长语言嘛,那他不就很适合当虚拟老师教人语言吗?像多邻国哈就接入了g p t四叫做dingo max。还有像电商领域的,像soft fy就接入了chat g p t来帮助商家去写那些详细的产品介绍。
哦,对了,还有编程方向必备的编程神器get top copilot。这些好像都是我个人感觉比较值得了解的一些生成式a i的应用方向。当然,也欢迎大家在下面留言讨论,持续补充。可能很多人会觉得啊,这语言模型有必要捧那么高吗?不就是个聊天机器人吗?还经常犯一堆错。哎,至少我个人认为啊,这还是非常具有颠覆性的。首先一堆错这个问题哈随着快速迭代肯定会基本解决掉的。其实这些大语言模型的出现哈,它是一个非常底层的变革,就是a i已经能生成自己的内容。这个其实好像就有点像你就是互联网刚开始出现的时候,大家可能就会觉得哦,现在可以在网上看新闻了,更方便了。可是谁能想到发展到后面会有像facebook像淘宝、微信直播带货等等这些应用就不光是商业价值很大,而且确确实实也改变了人们的生活方式。所以这个生成式ai哈,它最关键的是它产生了巨量的可能性。
随便打个比方哈,没准以后就可能出现一个你根据自己的数据训练出来的一个智能助手。就他特别了解你的喜好、性格,还能二十四小时在线,你想这是一个多大的市场是吧?去一次。i'm describing a correct. we discover. 当然现在还处在一个非常早期的阶段哈,不过就即使如此,你已经能看到这一波ai浪潮有非常大的商业价值了。你说为什么像元宇宙a r v r这些一直都雷声大雨点小的,它的可能性也很大。可以说为什么愿景聊的天花乱坠的,可是发展起来却没有那么顺利。这里边很主要的一个原因哈就是他眼下的商业价值没有那么大。你看现在的v r啊,包括所谓的元宇宙啊,商业价值其实并不高。可生成式ai就不一样了,你就看现在拆g p t的这个火爆程度,估计啊open a i可能自己也没想到,怎么突然就点爆市场。那你看这种眼下就有巨大的商业利益,未来还有无限可能的这种商业机会。我估计啊就你我这辈子可能也不一定见那么多个。
这就是为什么啊微软玩命催open a i就g p t四还没有完全调试好,就赶紧退出市场。各大厂商可能还非常非常早期就也被迫推出试用版,甚至都有一些连产品都还没有呢,也得宣布一下自己的布局。李彦宏在发布会不就说了吗?为什么要现在这个时间点推?因为有市场需求。更关键的是啊,就现在所有的资源、所有的人才、所有的算力全都涌向了这个方向,这发展只会越来越快。那它带来的风险到底有多大呢?其实很多人在探讨甚至是害怕的就是a g i通用人工智能的出现。简单来说哈,就是可以全面超过人类有自主意识的人工智能。那你说有没有可能像电影里演的那种,就是人工智能反过来跟人类产生敌对关系。马斯克在二零二零年的时候又说过了,说人工智能可能在二零二五年之前超过人类。三月二十二日,微软甚至还发表了一篇长达一百五十五页的论文,标题就叫做g p t四,出现了通用人工智能的早期征兆。而同样是在三月二十二号,一封警告人类不能无节制a i竞赛的公开信发表了出来,包括马斯克在内的各界人士联合签名。
我这两天看看已经超过两万四千人签名了。这封公开信啊就呼吁各大公司暂停训练比g d p四更强的ai至少六个月。当然了,咱们心里都清楚,大家不可能因为这封公开信就停止这场ai竞赛,不管你是接受还是不接受,这波生成式ai的浪潮已经基本是不可逆的了。就咱们整个的商业环境也很有可能哈在几年之内就发生了天翻地覆的变化。你是不是感觉这波ai浪潮已经有点可怕了?其实啊我刚刚举那两个就是算是有点极端的例子。就比如说微软那个论文哈,实际上我简单扫了一眼,大概意思呢就是说哎这个g p t四太厉害了,问题都答的太好了,好到甚至都有点a g i的意思了。其实也有很多专家跳出来怼这篇论文,就说这也太扯了吧,你这就a g i了。而那封公开信呢,很多人其实也就去签个名。你说这种警告性质的东西稍微有那么点危言耸听,也不是什么大问题哈那现在这个a i的风险它到底有多大呢?咱之前不也聊过chat g p t的底层逻辑嘛,他说白了其实还是玩词语接龙的一个游戏,就是根据前文去猜下一个词的最大概率。a i根本不知道他在说什么,他只是一个学习模仿能力都极其极强的鹦鹉。
所以单就以拆g p t为代表的这类技术来看啊,它现在还没有那么可怕。但是这个现在好像可能也保证不了几个月。那如果这个鹦鹉可以几乎完美无缺的回答所有的问题,你怎么知道它不会逐渐形成自己的意识呢?是吧?当然我肯定不是这方面专家哈,其实我也挺好奇大家是怎么看的。就是你觉得类似拆g p t这种,它到底能不能产生自主意识,甚至达到是a g i呢?至于很多人会担心这个ai到底会不会取代自己的工作。而我个人的感觉哈就是你想这么多也没有用。我们能做的就是多多了解,多试试,用用这些a i让他尽可能的帮助我们去完成工作。还是那句话啊,取代你的不是ai,而是使用ai的人。