用ChatGPT辅助科研,三个技巧避免数据泄露#AI写作#AI科研#AI数据分析

大家好,我是做科研的大师兄啊,今天跟大家分享的主题是呃用三个方法来避免chat g p t所致的一个数据泄密问题啊。嗯,看过我视频的同学都知道啊,我在前面已经分享了几个chat g p t与科研中的一个应用对吧?包含主要是这几类。第一个我们利用chat g p t进行论文的一个写作辅助,包括一个润色对吧?包括一些呃就是语法的一些校正之类的。然后第二就是我们用chat g p t可以进行一个数据分析以及作图。然后这个主要是用chat g p t的这个code interpret这个插件来完成。而且第三个主要方面是我们用chat g p t可以帮助我们去做一些啊科研idea的一个一个获取,对吧?比如说我们想看一下就是某两个啊我们想要感兴趣的啊这样一个变量之间有没有一个潜在的逻辑关系。

我们可以利用这个chat g p t或者new bing把它联网之后啊,让他自己查资料,然后告诉我们他们之间的一个。呃,潜在的一个逻辑是不是能走得通,对吧?这也是个可以帮我们去获取这个科研的一个idea o k那么有很多同学呃针对啊这些应用啊,他虽然知道很好,而且可以很极大的提高我们的这样一个科研的效率。嗯,但是呢他还是会有一个担心啊,就像我下面的这个同学啊,他在这个视频的评论区啊问我这个。呃,重要的数据啊不敢往chat g p t上进行上传,对吧?嗯,主要涉及哪几方面呢?第一个,比如说他没有发表的文章。然后如果他想去做这个论文的一个润色,他不敢上传。因为他上传他会他可能会害怕说我的论文还没有发表,上传之后会不会导致他泄密啊,导致就是说别人去拿走用了,或者是以后我再去发的时候,就会嗯导致跟嗯这一个就是有有一个重复或之类的对吧?这是一个害怕论文润色的泄密,还有一个就是数据,有的同学不敢把实验数据上传。

因为他怕自己的实验数据就是没有发表,但是也被泄露出去,这样导致他自己的文章发不出去对吧?还有一个就是刚才我们讲的就是就是上面这个k m idea对吧?就是你自己去想了一些很好的idea,结果你就是在利用其他的g p t的去实现这些idea的过程中,你又怕他被泄露出去。ok今天嗯我们针对的主要的一个问题就是呃我给大家提供三个小技巧啊,三个小方法去很好的去避免我们上面所讲到的这一个数据安全问题啊。嗯,当然了,关于这个数据安全的一个忧虑吧,我也在b站上啊发了一条动态,然后征集大家的一个意见啊。发现这也有不少的同学啊,关于这个使用chat g p t中来做科研的过程中啊,都存在一些就是数据安全方面的一个忧虑,对吧?好呃,我今天就给大家分享一个三个方法吧,来避免你在使用chat g p t做科研的过程中,你的一个数据的一个泄密啊。其实三个方法是也很简单,但是。呃,因为我统计发现很多同学并不知道啊,这所以说我就。

啊,补了一期视频啊,帮大家就是做一下,就是一个更详细。呃,更清楚的一个梳理啊。这第一个方法就是我们用虚拟变量的方法。第二个方法我们可以利用替换加密的方法。第三个呢就是我们用修改默认设置的方法。啊,这三个方法就分别就是针对了我们刚才上面讲的,我们害怕我们的没有发表论文传上去润色然后被泄露。

我们害怕我们没有发表的数据传上去进行分析和作图被泄露啊,以及我们害怕我们利用chat g p t去找的i d a被泄露,对吧?这就针对上面三个问题来做解决的啊。那接着我就详细的跟大家讲一讲这每一个是大概啥意思。然后我们以及也会结合一个实例啊,手把手的跟大家去嗯带大家看一下啊怎么去操作。好,首先我们先看第一个,就是虚拟变量的方法。来避免了你的一个数据泄露啊。嗯虚拟变量怎么做呢?我们大概也就分三步啊。

第一第一步就是在你论文,这个是应用于你的论文润色,或者是你的一个。没有发表的一个实验数据分析以及做图的过程中啊,就是你用chat g p t来完成这两件事的时候,你怎么去保证你的数据不被泄密,对吧?那首先啊你需要将你涉密涉及到这种保密的这种需要保密的这种关键变量进行虚拟化,对吧?首先找到这个关键变量,把它给虚拟化。然后呢你再把这个虚拟化之后的你这个论文也好,你的数据也好,输入到chat g p t里面,让它进行论文润色,或者做一个数据的一个各种分析,然后进行数据的这种作图对吧?那么最后第三步呢,你再进行变量的一个还原,就是你虚拟化的最后。呃,你再给它换成它原原来的变量o k。呃,具体什么意思呢?我们接着这个结合这个实例,我相信大家就能看得懂了啊。好,我们看一下这个实例的一个示范啊。

实例示范首先我们示范这个论文润色啊,论文润色第一步,我们刚才给大家讲了,你要找到一个涉密的关键变量啊,然后把它虚拟化。什么意思呢?比如说这里啊我是在这个中国中网上找了一个就是硕士论文,对吧?他讲的是一个third three这个基因来调控。这样一个呃一个一个t i g a r,然后这一个靶标来影响后面八八八这这么多东西。那么首先我们知道这一篇论文它的一个涉密的关键变量是什么。就比如说当你的一个这这是你的一篇没有发表的一篇论文的话,它这里面最容易被泄密的是什么?就是关键变量是什么?当然就这个基因了,对吧?就是third three。因为这个东西是你这篇文章最核心的东西。

如果别人不知道你这个third three,其他的哪怕他都知道,没有关系啊,这不影响你的文章的创新性。而且不也不担心你这个泄密了,对吧?所以我们针对这样一个呃一个角度吧,我们怎么弄?你就把这个set three做一个替换虚拟化它对吧?首先你找到涉密关键变量,这里就设置three虚拟化。怎么虚拟化呢?那你就把这里的set three给它替换成这个x y z对吧?这就相当于把它一个虚拟化了。怎么替换?你就在这个word里面把你这篇文章用这个control加f对吧,这一个快捷键进行一个。呃,一键替换,把这个first three全部替换为这样一个x y z。ok这就行了吧。

然后你把这个替换完的这个word的文档传到这个chat g p t里面,让他给你进行一个啊逐段的一个润色,逐段的一个语法呀,各方面的一个校正,对吧?这样的话你就不不再担心说哎,我上传的东西可能没有发表的东西被别人所窃取,对吧?这你就不用担心了。因为即使他窃取到你的东西,你他根本不知道你这个关键变量是啥,那这个对他而言没有任何意义。嗯,明白吗?然后最后当你。用chat g p t呃润色完之后,o k你再把这个把润色之后的copy过来,再用control加f一键替换,把这个x y z再替换回这个是three。这样的话是不是你的相当于就很好的完成了你的一个论文的润色了,对吧?这就是这就是一个虚拟变量来进行这个论文润色的一个实例示范,来去保证你的一个数据安全,以及呃让你能够放心的去使用chat g p t来辅助你的一个论文对吧?好,我们接着是第二个实例啊,就是那个用chat g p t来进行数据分析以及数据做图的过程中有的同学不敢用,说哎呀,我把我的没有发表的一个实验数据上传上去啊,别人是不是就看到了,别人是不是就会窃取我的一个实验结果呀?其实方法也非常简单啊,相同的用虚拟变量对吧?首先第一步找到你。涉密的一些关键变量,然后把它虚拟化对吧?相同的思路对吧。

像我们比如说我们我们这是我们的一个实验数据。我这里随便举了一个例子啊,比如十行十列对吧?那这里关键变量是什么?关键变量就是你每一列的这个列名,对吧?这个就是你这个呃你你的一个检测的一个指标一个指标嘛,对吧?比如说第一组是什么?第二组是什么?第三组是什么?o k你这里就把这个变量v这个v呃v a r一到十虚拟化替换替换为这个x y z一到十,对吧?这样的话你即使把这个表格数据上传到了这个t i g p t上。用这个code interpreter去做这个数据分析以及可视化。别人并不知道你上传的,他只是知道你一个数据。但如果这个数据没有清晰的变量的定义,那这个数据没有任何意义,对吧?这样的话即使他拿了你这个数据,他并不知道你的你的数据背后指的是什么东西。他即使分析出来了,对他就不知道要拿这个数据去写个什么样的文章,对吧?这样你就不用担心了ok。

当你这样一样的用用这个chat g p t分析之后,你最后把它给你导出来的分析以及做的图哎反向进行还原,还原回到你之前的变量啊,这样是不是就可以很好的保证了你的数据的一个安全性。好,我们第二种方法就替换加密啊。替换加密的方法其实跟这个我们第一种呃这里讲的这个虚拟变量的一个方法,本质上其实是差不多的那我们为什么单独把它给拎出来呢?啊,那主要是我们啊在这里啊是在这种特定的条件下啊,就是比如说我们在进行数据分析以及数据做图的过程中,对吧?比如说比如说你那个数据啊,你有标准的参考库,什么意思呢?就比如说呃比如说你你你这个数据里面有一百列,对吧?但是这一百列的变量它有个参考库,你只是改变了其中某一个。把它某一个虚拟化了啊,这样的话就会导致什么?导致你。导致你这个。别人可以反推,能够反推到你那个已经虚拟化的变量是什么,对吧?具体是什我待会儿也会举一个实例告诉大家啊,跟大家做一下展示。

那么呃如果你有一个标准参考库存在反推,可能的这样的话你就不能只改变其中啊一个或几个对它进行虚拟化。因为别人可以反推出来你那个虚拟化的是什么东西。还有一个就是你的数据规模非常大的话,对吧?比如说你有几万列几万个变量,你不可能说哎我把每个变量都去虚拟化,这样的话工作量也很大,这样的话你怎么办?就我们这里讲的你。呃,你去挑选几个进行一下替换变量的替换,对吧?这样的话。它一样的,它从你这个数上传的数据里面获取不到特别大的一个有用的信息。但是你这个替换其实相当于一种加密的一种方法,对吧?这样你你最后分析完之后,你就把它给还原过来就好了,对吧?当然我们的步骤一样的啊,你将设密及保密的关键面呢进行替换加密,然后再进行切机b t认知,最后来进行数据分析可视化。

然后再呃做完分析之后,我们再把它还原回去,对吧?这就这就这样了。呃,然后我们来看一下实例啊,如何进行替换的一个加密。还有这里就比如说这里啊,我们这是一个基因表达的一个这十一个样本对吧?它各个基因的一个表达水平,咱也随便随便,我就随便编了一个数据啊。好比如说这里我们有我们知道这个物种的基因,有可人的基因可能有两万多个,对吧?你这有两万多行,你不可能多去对它进行一个虚拟化,这个对你的一个r语言的一个要求可能就更高了,对吧?这个时候你可以找到其中几个关键的变量,把它做一下替换。什么意思呢?比如说你你你数据分析,你就想分析对吧这这某一个关键基因,比如说g c。n t呃g c n t seven就想分析这个基因它的一个表达。

以及或者他跟呃某个变量之间的一个关系。但是你这里。你只需要做一个简单的一个替换,怎么替换啊?你这里我们看一下啊。这里的g c n t seven和这个s d s,你把它换一下,把这个变量名字换一下。这样的话你把这个数据上传出去,上传上去,它即使有你这个两万多个基因的一个标准库,它根本就看不出来你是不是做了替换,对不对?这个时候即使他去做了分析,去做了一个挖掘,他根本找不出来你真正要要去关心的那个变量是什么。为什么?因为是在你这个上传数据之前,你手动的把它做了一个交换,这两个名字对吧?o k你替换之后相当于一个加密,这个时候你这个s d s这个这一列的数据就相当于这个g c n t七了,对吧?g c n t这一列就是s d s了,这个意思大家能不能get到啊?就是你做一下你关键涉密的关键变量啊,就是你。

比较核心关注这个变量对吧?你做一下加密,加密就是你把它替换,然后你背后相当于你准备一个密码本一样,告诉自己哎这个这个名字实际上指的是什么?是另外一个,这一个实际指的是另外一个,然后等你分析完之后,你再把它把那个密码本拿出来对照了之后,哎,还原一下是不是就完成了。好,这是这两种。就是说你在进利用chat g p t进行这个论文润色,或者是这个呃数据分析以及可视化的过程中。你如果害怕你没有发表的成果,或者是没有发表的结果。被别人所窃取,你可以用刚才我们讲的那两种方法,很好的去避免掉。ok那我们接着分析第三种方法。

第三种方法是指什么?什么时候我们去需要用到呢?就是比如说你并不是用chat g p t进行这个啊数据分析,也没有用用它来进行这样一个论文润色,你只是用它来进行一些。比如说概念的一些检索,比如说进行一些逻辑的一些推断,就是帮你去呃找到一些潜在的一些科研的idea,对吧?这个过程中我们想如果你没有进行一些额外的设置的话,你在chat g p t中的所有的对话都会被这个chat g p t所收取,而且也可能用于它模型的一个训练。这样的话你这你你想到的就是你你你给他提问的过程啊,他就会收集信息。就有可能把你去关联到的一些idea给泄露出去,对吧?这个时候我们我针对这个问题我们怎么解决呢?我们只需要一个啊就修改一下默认设置啊,关闭chat g p t它对话信息的一个收集,以及不要不让他用我们的对话信息来进行模型训练,对吧?这个怎么做?非常简单的一个啊,你改一下它的默认设置啊,方法就这里了啊。我们进入那个界面之后啊,我们这里跟大家来具体看一下吧。这样一个一个一个就是。

p p t它的一个界面,对吧?你进入这样一个设置啊设置。设置之后,这里有一个data c control啊,这里你看一下它这里一个。呃,chat history and training啊,你把这个按钮关掉啊,ok. 关掉之后,你看它这里就不再会收集,以及不再记录你。现在去。咨询的一些东西了,对吧?这个时候什么时候用呢?有的同学可能觉得。哎呀,我关掉历史记录好像不太方便啊,没没问题啊。

如果你这个东西你害怕就是说被泄密,就是当你涉及到有可能被泄密的这一环的时候,你把它关上对吧?然后平时的话,如果你问的问题根本就不涉及到你对科研idea的一些联想的话,那你就把它打开就好了,对吧?你就选择一个合适的时机,把这个data control啊给它给它关掉以及呃打开,这样就也不影响你的使用啊。嗯,好,那我们我相信啊经过上面这三个方法的一个分析,对吧?一个个一个实例的一个呃一个带教。我相信大家应该知道啊,当你呃去用chat g p t来帮助你做这个论文的一个辅助,以及做这一个就是数据分析、作图,还有科研idea的一个关联的时候。你就知道你应该正确的采用哪些方法啊避免自己的一个损失。避免自己没有发表的一些数据,一些结果的一个泄密,对吧?这样的话你就可以更好的啊来利用你的chat g p t啊来辅助你的一个科研好吧。然后因为这个问题呢,chat g p t使用过程中的一个数据安全问题,也是有很多同学啊啊就是留言。

然后所以说我就单独出了这一个小视频,给大家做一个详细的一个梳理啊。当然最后如果大家想获取这个p p t也可以的啊,关注扫码关注我们的公众号。build once, 然后后台回复g p t安全。你就可以下载了,好吧。然后如果觉得有用的话,别忘了给大师兄一键三连啊,我们下一期视频再见。