构建 AI 助手,自动收集资料 #AI架构#对接主流大语言平台 #AI自动收集

a i chat g p t大语言模型应该是今年最火热的名词了。二零二三年呢也被称为呢是a i元年。呃,国内外的各个大厂呢都在今年呢纷纷推出了自己的这个大语言模型。比如在这个hugging face上。每天都有新的微调过的这个大元模型在更新。最近呢咱们国内的大厂呢也都纷纷推出了自己的产品。比如这个百度的文心一言。还有阿里的通义千问。当然还有其他一些厂商的产品。不过随着这个热度的消退呢,真正的a i技术参与者呢已经不再满足仅仅是和a i聊聊天这种初级的应用了。

新奇的产品呢也都层出不穷。最近呢就总有同事或者朋友呢问我一些关于这个lie chine e和其他一些a i的开源框架的问题。大家呢都想抓住这次科技创新所带来的新机会。但是呢也都面临一个困局,就是a i技术在短时间内呢带来了太多的新理论和新概念。同时每天呢还都在快速的发展和更新。真的可以是说就是日新月异。每天都有新的论文、新的理念、新的产品出现。这也就造成了呢一个很严重的问题,就是目前在市面上呢没有一个系统的课程可以供初学者学习。即使是有毅力或者是有编程基础的朋友呢,从网上搜集了大量的资料,也觉得是无从下手,不知道从哪里开始学。比如说这个蓝色啊,的确是一个非常棒的一个开源框架啊,它是很多a i项目可以落地实现的一个基础设施的保障,啊,也可以大大提升了这个a i项目开发的效率。

但是呢我们看一下这个文档的内容啊,即使是这个中文版的,也的的确确是太太太复杂了啊。我一看就是五百页啊,相信呢没有多少朋友呢能够真正的一页一页的看下去,同时呢就是看完以后是真正的理解。所以呢与其呢这么又苦又累的这个肯文档呢看完以后还是一头雾水,不如呢咱们换一种这个学习方式,呃,我会制作一系列呢关于这个实际落地的ai项目的视频。比如就是由浅入深的呢介绍a i的一些概念。呃,开源框架和新产品。这样呢咱们以这个看得见摸得着的方式来学习,学起来呢可能就会更加轻松啊,也理解的更加透彻。这些项目呢既包括我亲自写的一些实验性质的项目,也包括比如说在github上或者其他一些平台上一些特别有意思的开源项目。而且呢这些项目呢我保证都是纯免费啊,都是纯干货,所以呢欢迎大家持续关注。好,那现在咱们就开始今天的介绍。这期视频呢咱们就先来开始呢介绍一个比较简单的一个项目啊。

这个项目呢主要内容就是用各个平台的大语言模型呢来做一个实现一个知乎的问答系统。后期呢我们可以不断完善这个系统啊,把它改造成一个咱们自己做。研究或者收集资料的一个a i的助手。我们先看一下这个demo的一个演示的效果。好,我们现在来说一下这个项目的具体的细节啊。这是一个demo,我们现在用的这个工具呢是叫air table啊,它其实是一个在线的一个类似于excel和数据库的一个融合体吧,啊非常的方便好用。后边呢我们其他项目呢也都会用到,而且呢它还会和其他的许多应用呢做集成,所以呢我们也选择了它。再说一些具体的细节啊,这个呢就是来自于知乎的问题啊。这个呢是来自于知乎的访问量啊,我们现在都给的是一个默认值,这个呢是。

关于这个问题,google. 给出的五个最贴切的回答啊,有内容摘要和链接。这个呢是来自于open a i。的chat g p t。给出的答案啊,这个是来自于百度的文心一言给出的回答,这个呢是来自于阿里的通义千问给出回答。啊,这儿呢还会呢预留了一个是给google bar的,啊,也是一个大语言模型。呃,给出的回答后,呃,为什么现在这没有内容呢?后边我会说啊,总之呢这个呢是涉及到了五个工具啊。呃,第一个是咱们之前最熟悉的google search啊,然后呢是有两个呃四个大语言模型。两个是来自于国外的,一个是open ai的,一个是google的。还有两个来自于咱们国内的,一个是百度的文心一言,还有一个是阿里的通义千问。好啊,咱们来介绍一下咱们这个现在的项目和今后项目可能都会用到的这个工具和这个单元模型的这个a p i啊。

我现在在这都简略的说一下啊,a table就不用多介绍了啊,这是刚才提到的啊,它现在呢这个免费的版本呢已经足够咱们来用了。这个free计划啊,它可以无限建这个base。base就相当于咱们数据库里边儿的这个库啊,每个库下边可以建表,但是整个base呢最多可以有一千条记录。对于咱们做这个demo来说,或者做这个实验性质的项目来说呢,是已经足够了啊,如果有其他需求呢,大家再考虑这些。计划。然后呢,再来说一下这个呃super啊,它是这个可以通过a p i去调用google的。这么一个工具啊,它可以呢有两千五百次的免费的。你申请完以后呢,可以有两千五百次的这个调用的免费啊。如果大家申请完以后呢,其实是足够用了啊。注意呢它的a p i k呢是存在这个地方的啊。

咱们再说一下open a i open a i的a p i调用呢是你即使是开通了chat g p t。也需要在如果想调用它的a p i的话,要提前预付费啊。如果有需要具体想了解怎么做这个事情的小伙伴呢,可以单独的私信我吧啊。呃,百度呢是文心一言的,这个a p i呢也是贴钱需要预付费的啊。它是这个千帆啊,百度的这个叫千帆大模型啊,它的收费标准呢是根据它自己里边的不同的这个单元模型。不同,它的token收费的标准是不一样的。大家可以具体参考这个文档去看一下啊。然后阿里的这个通义千问的a p i呢是在某一个时间段内它是免费的啊,大家看一下啊,来找到了就是。在你开通这个服务的一百八十天之内,他可以给你这些tokens啊,是可以免费用的。如果超过了半年啊,就需要付费去买了啊,所以大家要用的时候呢,要提前的。

预付费啊,或者说及时的使用,用它这些免费的就足够了。好,那我们现在开始呢就开始来具体演示一下这个项目里边具体涉及到的细节啊。呃首先呢就是如果在里边碰到有哪些问题的话,大家不要急,可以给我私信,或者是呢我会把这个代源代码呢传到github上啊。到时候呢大家可以到那里边去看这些源代码啊。首先第一步呢就是把知乎上面的这个问题呢给扒下来啊,这是一个邀请回答的一个页面,我们把这里边的问题都给爬下来啊,看第一个问题和第二个啊,第二个问题是关于a i的。然后呢,这就没有什么可说的啊,就是一个request请求,然后解析它回来的这个response的jason啊jason track啊,然后把它写到咱们的air table里边,那咱们看一下具体的效果啊。嗯,就是开始获得。

我们再来看一下。在在r table里边,我们已经在不断的。写入这些数据。对,一共是二十个啊。所以看这里边这个第二条,就是你认为爱的结局是什么啊?所以这就是咱们一下知乎的这些问题啊,当然这些代码里边有一些细节啊,比如说这里边有一些magic number啊,咱们就不要纠结这些细节了。毕竟这是一个demo啊,不是一个生产的项目,好吧。咱们接着继续往下说啊。好,我们现在通过具体的代码来看一下啊,我们是如何通过a p i来调用这个google search啊,通义千问。文心一言和open eye拆g p t。来分别调用这些大语言模型,来给出咱们这个希望收集资料的。

这么个答案啊,首先咱们来讲一下,google search这是通过sir呃这个咱们之前说的这个super,通过它的a p i来访问咱们这个google search啊。这边这个是他请求的google search的u i l啊。然后这个是它的请求的内容,这个是我们请求的内容,我们的问题这个是question。我们需要返回的是中文简体中文啊,我们通过post请求把我们的请求发过去。那是google就会给我们一系列的答案,我们只取前五个啊,这里边把这个数字写死了,大家不要纠结这个啊,这是一个demo啊,我们来得到整个google给我们的答案。一会儿呢我们会看一下实际的效果是怎么样的啊。这个呢是通过调用chat g p t啊。拆g p t呢首先呢是我们要得到它的open a i的key啊,我们把所有的关键的key呢都写在这个环境变量里了啊。

大家呢也都可以把它存在这里边啊。它也是非常简单,就通过open ai来创造这个聊天模式。然后我们来指定这个model,我们使用哪个model。g p t呢可以有几种model可选啊,来看一下啊。它有不同的收费标准,这个是g p t三点五turbo的收费标准。嗯,每一千个token。是多少钱啊?输入和输出是不同的收费标准。也就是说是什么?就是说你问问题的这个token和他给你的回答的答案的这个token所消耗的token的收费标准是不一样的啊,这是g p t三点五的。turbo的这个是g p四的,还有其他的一些的,这个是大语言训练的。

咱们呢到时候有兴趣朋友可以自己看啊。好,这个肉呢我们一定要指定成user啊,这个呢就是我们要询问的内容啊,直接发一个post请求就可以了。那他会g p t。会直接给我们答案,我们来解析它的这个答案就可以了。那我们再看一下,这个是百度的文心一言。百度文心一言的这个请求呢就是比较传统的啊,它是通过这个不同的u r l来区分它的大语言模型的。我们来看一下啊。比如说看这是它的一个大圆模型。好,他。请求的u l是这个。

这是他另外一个boat turbo啊。那它的u l又变成了这个。啊,比如说它不同的大语言模型呢,它是通过u r l来进行区分的。然后呢,最后呢咱们附上的这个access token,比如说咱们的这个a p i k的密钥啊,是咱们自己申请下来的,这个啊就可以通过这个u r l来区分你访问的。是哪一个语言模型来给你做回答啊,同样道理,他给出response以后,我们来解析他的答案,就可以得到了百度文心一言给出的答案。呃,我们再来看,这是阿里的通义千问啊,阿里的通义千问呢就是比较规范一些啊。这里边呢也是把a p i k。通过这个付给他啊他的。model呢。看就是这是通义千问的一个model。

这是另外一个model,这是通义千问plus,这另外这又是一个model啊。他是通过这样的方式来选择它的model啊,来付他的key。这个message就是咱们提供的,咱们要提出的问题啊。也是他通过。返回这个response,咱们来得到,来解析它的response。来解析这个通义千问给出的答案啊,这就是google. g p t。百度的文心一言,阿里的通义千问,分别来调用的一些细节。咱们最后再来讲google bar的这个不同的点啊。这样呢这个google的bar的这个单元模型啊。

它也是一个类似于g p t的这么一个单元模型。我们为什么非得要说它呢?因为它在它是gg首先它是google开发的,质量上是一定有保证的。同时呢它承诺在未来google bar的a p i是free的啊。比如说呢他可能是x g b t的一个强有力的竞争对手,同时呢可能是一个替代品啊,所以呢我们一直在关注他,只不过呢现在呢。它的a p i呢还没有开发出来啊,你看它是。还没有官方的公布出来,它的开发的任务是由这个叫daniel park这个机构来进行维护的。它的项目呢会托已经托管在了github上边。有兴趣的朋友呢可以去看一下啊,它里边有各种的调用啊。

其实他现在呢。我们是可以通过手工来调用它的这个请求的。其实就是主要把它cookie里边的这三个参数。分别的附进来就可以请求了。但是呢这三个参数呢是每隔二十分钟它会进行一次的refresh,就是进行一次的刷新。所以呢现在还在如果说是在生产环境或者是在一个。相对来说稳定的环境上用是不太可能的啊。只是说咱们现在做一个demo啊,只要你按照这个代码,按照我这个代码在他的cookie里边。去找到分别找到他的。

这三个把它的值赋过来啊,就可以调用成功了。我们在这里边就不演示google bar的这个调用的结果了啊,之所以我们再重申一下,之所以我们这么关注它呢,就是呢它是由google来开发的,首先质量上是没有问题的。在未来他也会承诺它的单元模型的调用是免费的。所以呢它可能很好的是一个chat g p t的竞争对手,所以我们始终都要关注它。好,这个呢就是整体的这些的介绍已经介绍完了。下面呢我们就来分别来演示一下,看看我们实际的运行的效果怎么样啊。好啊,那我们现在通过程序来分别调一下刚才咱们说的那几种大语言模型来得到咱们问一个问题,看它都能够给出哪些结果啊。首先咱们先把l r table这已经清空了啊,这没问题了。然后呢,现在咱们来开始运行。好,第一步是调用勾勾设置啊,这个速度还是非常快的啊,看这是给出了。

这是知乎上的一个问题啊,就是韩国为什么被称为世界经济的金丝雀?啊。这是给出了五个答案啊,那现在咱们再调用这个open air chat g p t啊,这个呢速度还是有些慢的啊,咱们稍微耐心等一下好。这是拆g p t给出的。答案好,现在在调用百度的文心一言,同样的问题啊。咱们看看百度来给的是。对,这是百度文心一言给出答案,现在咱们来调用阿里的通义千问啊。好,这是阿里给他们的答案好,现在咱们把这个答案也写入了r table啊,咱们看一眼。好,已经看到了啊,这是问题。这个是google。

给出的五个解答,有内容、有提示、有u l啊。这是open ai给出的答案。这是文心一言给出的。这是通义千问给出的。好,那今天的视频呢咱们就先录到这里啊。咱们那个已经通过代码分别调用了最主流的几个大语言模型,通过他们的a p i来调用啊。这个项目后期的完善一下呢,应该就可以当做一个。

怎么说呢?知识储备或者是说是知识搜索、知识收集的这么一个ai助手吧。只要你提出一个问题,他就会帮你把。各个平台给出的答案综合在一起,然后呢你也可以把这些答案再统一的传给这个某一个平台的呃。大语言模型吧,让他来帮你最终的总结啊,来给出一篇文章啊,这样呢就可以大大提高我们的工作效率。嗯,而且呢后期呢我们还可以再接上一些语音识别,比如说这个。比如说google的一些语音识别,比如说open ai的whisper,比如说还有很多我们就可以可能就实现像钢铁侠里边的那种吧。就是你只要跟他说一句,比如说就是说你告诉我韩国为什么被称为世界经济的金丝雀。那他就会通过刚才的这些代码把答案总结出来,然后是要读给你听,还是你自己去看,或者是直接打印出来,或者直接发到email都可以。所以这就是一个最简单的一个a i项目的落地啊,后期呢我会把这个代码呢传到这个github上。有兴有兴趣的朋友呢可以去看一下啊。

后续呢咱们都会以这种方式来不断的去讲解a i里边的框架啊、概念啊,平台的调用都是一些实际的承担货啊,希望大家能够关注,谢谢大家。