关于最近很火的 ChatGPT ,我希望我并不是因为媒体说它很厉害、很多人吹它很厉害,就认为它很厉害。我希望我能更多地了解它的原理。 目前看大家的应用场景,我觉得主要集中在这几个方面:
- 辅助生成代码、配置文件
- 辅助写作,特别是一些程式性的文章(例如周报、ReadMe )
- 充当搜索引擎
关于充当搜索引擎这部份,我有一些担忧。ChatGPT 会理直气壮地返回一些事实性的错误,例如它会说鲁迅和周树人不是同一个人。Google 之前宣传的 Bard 也有类似的问题。传统的搜索引擎会返回来源,而 ChatGPT 会模糊来源,让人更难判断真伪。如果我一定要用的话,我会先用 ChatGPT 询问,然后再回到搜索引擎去寻找来源,感觉就像是多做了一步。
目前我的问题主要集中在 GPT 的训练部分。如果作为搜索引擎的话,GPT 应该需要像传统搜索引擎一样,持续不断地爬取互联网的新内容,用来训练。而关于这段训练,我有两个问题:
- GPT 的增量训练是不是非常简单?只需要把新文本当做新的训练集追加训练就好了?
- 如果后续发现爬取的内容有事实错误,想要 GPT 里面剔除这些内容,是不是代价非常高?基本上只能从头训练?
如果是这样的话,那么会不会有以下的问题:
- 对返回结果进行投毒变得比较容易,特别是时事内容。在时事内容还在一些主流的媒体网站传播的时候,就利用大量的小网站或者在其他网站的评论里投毒。投毒的内容可以夹在随机的语句之中。
- 时事还在发展进行中,经历了“反转”,那么 GPT 是不是就很难返回最新进展。
- 运营公司需要消耗大量成本来剔除投毒内容,那是不是只从有声望的大网站上爬取内容就好了?这样的话,是不是互联网的内容会更加集中到大型网站里,小网站更难有出头之日?
