另外再给大家补充推荐两个参考
它是一个 Python 工具包,它封装了上面提到的思路,实现了突破 4096 tokens 限制的功能。除此之外,它还有许多功能:
项目地址:https://github.com/jerryjliu/gpt_index
它是 OpenAI 官方提供的一系列实用的例子和指南,其中包括了各种场景和功能的演示和代码,让你轻松上手 OpenAI 的强大能力
1 rajesh941 2023-03-03 10:14:57 +08:00 本地有 100 篇文章,能让它学习下吗? |
![]() | 2 chuangbo OP @rajesh941 可以的,这个项目的思路相当于让 OpenAI “学习”了 60 万字的文章,成本只有 0.24 美元。 |
![]() | 3 shuxiaokai 2023-03-03 11:49:56 +08:00 可以做智能客服,训练好数据集。 |
4 hanbing135 2023-03-03 11:59:38 +08:00 这个思路很猛啊 |
![]() | 5 vToExer 2023-03-03 12:45:29 +08:00 via Android 这个思路看起来和 gptindex 相似,都是在外部存放一份数据供 chatgpt 读取使用,以突破 4096 的上下文限制 |
![]() | 6 leimao 2023-03-03 12:53:24 +08:00 va iPhone ![]() 这个做法很早就有人做了,比如说 BERT 时期的 Universal Sentence Encoder ,可以用来做检索。 |
![]() | 7 kongkongye 2023-03-03 13:23:16 +08:00 amazing!!! |
![]() | 9 mrgeneral 2023-03-03 13:46:55 +08:00 ![]() ChatGPT 官方提供了这个解决方案的,我上周刚研究完,主要是数据安全不太好解决。 官方提供的思路是:通过关键词对物料进行关联度匹配(官方给的例子是余弦算法),选择关联度高的来做 prompt 。 |
![]() | 10 chuangbo OP |
![]() | 12 xiabill 2023-03-04 20:57:13 +08:00 这个有人在实践了嘛 |
![]() | 13 wodema 2023-03-05 11:22:14 +08:00 @xiabill 这个 chatpdf.com 处理 PDF 文件的方式应该就是这样的 |
![]() | 14 chuangbo OP @wodema 感觉 ChatPDF 的功能,llama-index 已经实现了,包括提取 PDF 文字,创建索引和查询功能。 |
15 Ervin 2023-04-27 09:51:00 +08:00 embedding 模型有 8191 的 token 限制,我丢了一堆 pdf 进去,就报这个限制 |