这期视频呢给大家分享一个非常强大的小工具。它能够自动批量采集指定网站或者网址当中的页面数据,并且会以jason的格式输出内容。这些数据呢可以直接导入到g t s的知识库,作为问答系统的内容来源。通过这个方法,我们可以轻松的实现数据采集和整理,非常适合用来搭建知识类和问答类的g p t s。而且重点是这个办法不管你有没有技术基础都能轻松的掌握。如果你喜欢今天这个话题,麻烦动动你的小手站一站。我们先来演示一下效果啊。
现在呢我是找了一个大疆的官网啊,就是关于这个a l三这款无人机的一个产品主页啊。首先是不同的菜单栏,那现在呢我就用刚开始视频开头所讲的这个小工具啊,把它的这个a二三所有的站点信息里面的一些页面数据都给它采集下来了。它是这样的一个数据结构啊,首先是页面的标题,然后页面的链接以及这个页面当中的网页内容啊,可以看到目前总共是采集的四个界面,常见问题、下载视频技术参数对应的是这几个界面。我们就以这个技术参数这个页面为例啊,我这里比把它切换到技术参数啊,然后在这里就。去看一下它采集下来的内容是什么呢?啊,它是一个jason的格式啊,然后把这个h t m l页面所有的文本内容啊都给它采集下来啊,可以从这里开始看啊。技术参数,飞行器啊起飞重量七百二十克,折叠长二百零七毫米,宽一百点零五毫米啊,跟这个数据其实都是对应的上的啊。接下来呢我们来打开chat g p t的界面啊,我这边已经创建了一个大疆无人机l三的客服啊,后续呢我就会用刚刚我所采集下来的这个a l三的加深格式的页面文档啊,然后结合g t s的知识库啊,把它打造成为一款a二三的客服系统啊啊我们先来看一下这个g t s的基本设置啊名字,然后这边是描述啊,包括我这个partner说明也非常的简单啊,就是要求他用知识库内容来回答用户的问题。
如果知识库找不到答案,那么就回答,很抱歉,我暂时无法回答这个问题啊。在知识库这里呢就是把刚才我们。所看到的这个接收文件啊给它上传上去了。这里呢为了测试严谨一点啊,我们把这个联网功能给它关闭啊,免得大家误以为是通过联网去查询啊我们后面所要提的问题啊,现在呢我问他第一个问题啊,我们的l三的最大飞行时间啊是多久?o k啊答案已经出来了啊,大家说最长飞行时间是是四十分钟啊啊我们来对比一下这个参数里面的答案啊,最大飞行时间是四十二分钟啊,并且在无风情况下啊,下面有一个备注注问题啊,在这个答案当中呢,他也是把这个备注提示啊,我我回答一下啊啊我们再来问第二个问题啊,l三的最大续航里程是多久?答案显示的是三十二公里啊,这个我们也来确定一下啊,o k最大续航里程是三十二公里啊,最后我们再来问一个问题啊,我们的这个电池容量是多大啊?我们呢显示是四千两百四十二公里啊,同样的话我们是回到这个。呃,技术参数这个界面电池这一栏啊容量是四千二百四十一毫安啊,我们通过这三个测试啊,答案都是正确的啊。这个呢就是关于用今天我要讲的这个小工具啊,然后去采集这个相应网页的数据。最后呢再结合g b t s的知识库啊所打造出来的一个智能问答系统。
那么后面呢其实我们可以用这套解决方案啊,打造出来蛮多g b t s的啊,不管是说啊你打造这种客服系统呀,或者打造这个问答系统啊,再比如说像文档类的呀,知识类的啊等等,用这套方案啊它都是能解决的。所以呢它的可拓展性啊还是蛮强的。o k接下来呢我就给大家实际演示一下啊,这个工具要怎么样安装,怎么样去使用啊,然后来获得这样一个我们所想要的网站或者网址的数据。我用到的这个工具呢是github b上面的一个开源项目啊,名字叫g p t color啊,g p t爬虫啊,我们可以简单的过一下啊,它的基本介绍呢就是可以。抓取网站上的内容啊,生成对应的知识库文件啊,不管是从一个u r l还是从多个u i l啊,我们都可以去进行批量抓取。然后把这个内容导入到g p s里面啊,进行一个相应的调用。o k啊它的安装啊跟配置呢都非常非常的简单啊。
不管你会技术还是不会技术,用这个方法那基本上也是一键部署啊。首先呢它是要求我们在电脑上安装node点g s啊,并且这个版本号是大于等于十六的。除此以外呢,我们还要安装一个get指指令啊,就是我们我们可以通过这个gate指令去获取这个项目的源码啊,这样安装这两个就好了。那如果是说你不会安装note g s以及git啊怎么办呢?其实这里教大家一个非常非常简单的办法啊,就是我们打开h t g p t啊,问chat g p t基于你的电脑环境应该如何安装note g s啊,以及如何去安装git指令啊,o k这里呢是g p t。给我解决方案啊,因为我是mac o s的电脑,它是建议我先安装这个home。meaning啊homebrew的作用呢它相当于就是linux系统或者是mac o s系统的一个包管理器啊,可以简化我们在苹果电脑上安装更新或者管理软件啊。但是这里要注意一下啊,windows啊它是不能安装这个homebrew n啊,这个仅仅是局限于苹果电脑。
如果是windows电脑其实也是一样的。你问chat g p t要怎么样去安装windows g s啊,以及这个电指令。好,那现在呢它是让我输入这个指令啊,去安装home home bring键啊。好,接下来呢我们就打开这个终端窗口啊。如果你是windows电脑呢,那么你就用windows加r再输入c m d啊,也可以快捷打开这个终端的操作窗口啊。我们把刚才啊t t b给我们生成的这一行代码啊,给它粘贴进去啊,然后回车键给它执行一下。好,安装成功以后呢,我们可以去输入一个指令,检查一下我们。
输入b r e w杠v。o k啊可以看到我现在的版本是四点一点二杠三三啊,代表我这个啊homebrew啊版本管理器已经安装成功了。那之后呢就非常非常的简单啊,我们要安装node点g s啊,我只要去执行这个指令就好了啊,blowing, 然后啊安装node啊,点一下执行啊就o k了。好,这里呢它提示我已经安装成功了。同样的话我们也来检查一下这个node的版本啊。o k可以看到的版本是二幺点二点零啊,代表安装成功啊。我们再来安装一下这个这个指令啊,方法其实和安装node点g s是一样的啊,只要把这个node改成git啊,前面都不用变。
完成以后呢,我们再来看一下版本号啊,看有没有安装成功啊。给的岗位啊,它提示我的版本是二点三九点二。我们执行这个杠v的指令呢,第一是看版本号,第二是看它有没有安装成功啊。如果你没有安装成功,那么它可能会提示。你找不到啊类似的这样一个意思。接下来呢我们所有的底层的环境啊都已经安装成功了。啊,我们回到这个项目啊,去复制一下这个代码,get get alone啊,然后这个是项目的文件啊啊,然后然后点击一下执行啊。
到这一步呢,基本上我们这个项目呢跟它的一个运行环境啊都已经配置成功了啊。接下来我们进入到这个项目目录啊,它基本上也在我们的目录啊啊这个这个这个然后我们的这个项目地址啊进入到这个文件夹啊,然后它对应的一个项目文件啊。接下来呢,我们就执行最后一步就可以了啊,就是安装一些依赖项啊啊这个指令复制一下,输入n p m i啊,然后点击回车资源执行啊,执行完成之后呢,那么这个项目呢就已经配置成功了。接下来我们就可以来直接使用了啊,然后进入到这个目录啊,然后有一个conflict点t s的文件啊,你随意用一个。编辑器不管是文本编辑器还是什么编辑器啊,给它打开就可以了。主要里面是有这五个参数啊,是我们需要去注意的。先给大家讲一下这每个参数所代表的意思啊,第一个是u r l啊,比如说你要从某一个链接当中去采集数据啊,去采集这个页面数据啊。
假设刚才我所演示的就是采集这个l三的这个参数数据啊,那么我可以把这个网址复制一下啊,然后给它粘贴到这个u i l的地址啊,那么后续它就会从这个u i l当中去收集这个网页上的数据。好,然后第二个是march啊,它这个呢所代表的意思是匹配与你这个网址啊相关的u r l链接。它会把这个地址下的所有页面啊都给我们下载下来啊,比如说我这边是大家点c n啊a二三,然后后面用了一个星号的通配符,那么就代表a二三这个目录下面的所有页面啊都去采集啊,去匹配这。u r l的通配符,这两个参数呢是可以结合起来使用的啊。你既可以去采集一个u r l地址,那么你也可以通过结合在一起,让它去采集这个目录下所有的页面啊,然后从这个u r l开始,o k接下来这个参数呢,它代表的意思是选择页面当中的一个class类名啊。比如说你现在想采集的不是整个页面的数据啊,我们可以看到刚才我们所演示当中呢,它其实是把这个导航以及这个结尾的内容啊都给我们采集下来了。但是其实我们真正想要的可能只是内容部分啊,那么我们就可以在这个参数里面找到它的这个内容部分的class类名啊,给它填进去啊啊这个具体参数当中,我在演示的过程当中再来操作一下啊。
接下来呢,这个参数啊代表的是最大抓取数量啊。比如说你想在这个网站当中抓取多少页的页面啊,你去填写这个参数就可以了。最后这个参数呢,是我们输出这个加深格式的文件名啊,这个文件名呢你可以自己。命名啊方便自己去记忆就可以了。它输出的这个文件啊最后会在这个根目录里面啊,比如说像我们所看到的这个a幺三啊,以及这个output点jason啊,这就是它所代表的这几个数据啊,接下来我们来实际演示一下啊,我们先用这个大疆的来举例啊。这些参数我都不变啊,但是呢因为它里面是没有这个类名的啊,我们把这一行代码给它注释掉啊,最大采集十个啊,然后这个输出的jason类名呢,我把它改成tech的啊o k啊。然后打开这个终端指令,我们输入n p m s t a r t啊,然后点击执行就可以了啊。
现在已经开始启动这个爬虫了啊,它会去获取这个大疆l三上面对应页面的一些数据啊,可以看到目前呢也是获取失调啊,这边是widow w当w的f a q啊常见问题。好,我们打开这个类目啊啊o k。看到他这边已经产生了一个新的教程文件夹啊,给它打开看一下啊,对应的话就是四个页面啊,常见问题,然后下载啊、视频技术参数啊,所有的页面内容也都给它采集下来了。后续的话你把它导入到这个g p s的知识库当中啊,那么它最终的一个效果啊,就是我们视频开头啊啊演示的是一样的。为了方便大家后续更好的去使用这个工具啊,比如说你要去采集整个网站的内容啊,要怎么样去做啊,这里我也找一个案例给大家简单演示一下啊。我随机找了一个这个化工博物馆的这样一个网址啊,这就是一个典型传统的官网啊,里面有一些关于这个啊它的介绍啊,然后它的动态啊等等啊,以及它的一些要展示的内容啊,我来演示一下怎么样去采集。ok啊,我们也是先复制一下这个网址啊,然后打开这个config文件。
首先呢我是要从首页开始采集,这个页面呢是它。的首页啊。然后其次呢我是把这个match给它改一下啊,把把后面的这个对应的页面给给它改成一个通配符,也就代表这个官网上啊所有的页面我都要去采集。然后现在的话我们把这个页面的内容给它改改一点点啊啊这这个采集的一页啊。然后这个slide呢啊我们先不管啊,因为它每个页面内容都是不一样的啊啊把这个文件命名的话我们改一下啊,改成博物馆啊这样一个类名o k啊,打开终端啊,同样的话再执行一下这个n p m start。好,现在爬虫呢已经开始抓取了啊,这边是有一个啊抓取的进度条啊,应的后面抓取的是哪个页面的链接啊,都是会有显示的。o k啊现在已经结束了啊,总共是采集了五十九个界面啊,五十九条数据全部成功了。
同样的话我们来到这个啊根目录啊,可以看到博物馆。点加省啊,大家看一下,这就是它采集下来的这个节省数据啊,也是这种格式化的数据。title u r l啊,然后这个u r楼里面对应的是哪些内容啊,都给我们显示出来了啊。那么这样一个官网的所有内容啊,我们几乎是在用一分钟不到的时间,把它整个网站上所有的内容都采集下来啊,并且以格式化内容输出。那么后续我们把它导入到g p t s里面去啊,就可以实现这样一个类似于官网的智能问答系统啊,或者说客服问答系统。整个操作的门槛就非常非常的低。同样的你用这个办法去采集一些学习文档啊、论文啊啊、网站内容啊都是o k的啊。
好,再给大家补充一下这个config插件里面啊slide这个参数的作用啊。我们正常采集下来的数据啊,它是包含整个网站的头部、尾部啊,也就是它会有很多没有用的数据,或者说我们不想要的数据啊。如果是说你想保持这个h t m l里面相对来。说内容干净一点啊,那么我们就可以用上这个参数。现在我们以这个页面为例啊,现在我只想采集这一部分的内容啊,我们把网址复制一下啊,然后把它放到这个u i l里面去。那这里的话这个通配符就可以不用填啊,因为我是只采集一个页面的数据啊,给它作为一个演示啊,我们把这个时代的标签给它打开啊,这里呢我们要选择一下它的这个对应的class类名,右键检查啊,把鼠标给它移上去啊。我们看一下这里的命名是什么啊,它的命名是s content啊。
我们把它这个命名给它复制一下啊,然后把这个名字给它改一下,点s点content啊啊,然后其他都不变啊。这里的话我把它改成tom吧,然后打开终端啊,重新执行一下o k现在已经执行完成了啊,我们再回到这个根目录啊,去找一下tom点action啊,打开可以看一下开放式。时间对应的页面啊,然后对应的这个h t mal内容啊,就是刚才我们在这个页面里面所筛选的这一部分啊,这个点s content的这个类名的这部分内容啊,可以对照一下啊,重宣部、财务部、文化部啊等等啊。好,那这个就是关于conflict里面啊这个sleep这个参数的一个实际作用啊。到这里呢这个工具的安装配置和使用啊都已经给大家演示了一遍。整体来说其实很简单啊,把这个环境给它配置好啊,然后去修改这个config文件里面的对应的u r l地址啊,跟其他的几个参数啊,去执行这个指令啊,它就会自动把我们想要的网站数据啊给它采集下来,变成教程的数据格式。最后呢再给大家来演示一个既好玩又实用的功能啊。
我们还是以这个大疆无人机l三客服的这个g p s作为一个示例啊啊比如说呢我来问他一个在知识库当中找不到答案的问题,那么正常情况下呢它肯定是作答不出来的啊,包括像我在这个panel里面里面有注释啊啊如果你。在知识库当中找不到答案啊,请回答。很抱歉,我暂时无法回答这个问题,但是呢别急,我有办法。这里呢我们可以去结合g b t s的action功能啊,让他来实现去自由的获取任意网站上的数据。这样的话呢我们既能通过这个action功能去获取联网数据啊,然后又有这个知识库的离线数据啊,等于两者都有了。h i g p t呢它既能回答知识库当中有的问题啊,又能回答知识库当中没有的问题。好,接下来我们来演示一下啊,我来问他a二三的价格是多少啊?那么这个问题呢在知识库当中啊,他是找不到答案的。
因为在我采集下来的数据里面啊,它是不包含这个l三的数据的啊。我们先来问一下,他告诉我们很抱歉我暂时无法找到这个答案啊啊他这个是遵从了这个g p s的partner说明的设定啊。o k好,接下来神奇的诗歌来了啊,我让他去用a l s的插件啊去查找这个价格啊,答案已经出来了啊,他告诉我们。这个a二三是有四个版本啊,然后每个版本不同的售价都告诉我们了。啊,可以看到他这个执行的过程,它是通过这个action去查找大疆l三的价格,啊,然后得到这个结果。这个页面的内容来源呢是通过这个网址啊,我们可以点开看一下o k啊,下面是对应的是l三啊l三颤飞套装啊。颤飞套装带遥控器屏幕的有三个版本,六九八八八、四八八九六八八啊、六九八八八、十八八九六八八都对的。
这个呢就是用g p t式的action式功能啊去获取第三方平台的精准数据。那么后续呢你也可以用这个action式功能去获取。比如说像一些股票的价格呀,食物的热量啊啊,以及刚才我们演示的这个l三的商品价格啊,任意你想要的精准数据啊,都是可以通过这个action式去调用第三方的a p i啊,所达到这样一个效果啊,都是能实现的。那么关于这个action时去获取第三方数据的具体实现办法呢,可以到我的课程里面去学习啊,里面详细的介绍了具体的实现步骤和原理啊,感兴趣的可以去了解一下。学会这个以后呢,可以大大的加强你的g p s能力啊。不管是获取在线数据啊,还是用今天这个视频所以演示的方法去下载离线数据啊,搭建知识库都能轻松的实现。好,以上就是本期视频的全部内容,感谢观看。
如果你喜欢今天这期视频,如果今天这期视频对你有一点点帮助,请点赞及订阅我的频道,你的支持对我很重要。