迭代了一个多月,目前对常见类目的文章生成效果较好。对大量数据进行了一些简单的机器学习和过滤,主要是通过题目和关键词来匹配段落。
使用非常简单,设定参数三步生成,然后针对段落进行调整到满意为止。
图 1:设定参数
图 2:调整段落(底下一排圆形按钮为 切换,更新,增减当前段落)
一些特性:
欢迎使用!
推荐给各位的同时,也想探讨一个问题:论文的自动生成可以走什么样的思路?是否可以把文章结构抽出来,只要给予核心的思想,就能生成格式和内容上都可行的文章。有些人或许有想法,但不擅于写文章。后面我想逐渐向这方面靠拢,毕竟以目前的方法,优化再好也只能是个参考。
Thx
![]() | 1 easylee 2020-02-06 21:57:21 +08:00 |
![]() | 2 n3r0 OP ![]() |
3 sevenQu 2020-02-07 11:47:07 +08:00 ![]() 太狠了,我收藏了,其实我觉得可以换一个思路,不一定要直接生成全文。按更细的粒度需求生成文章的某个段落,我觉得就挺好,省的自己去想这段套话怎么写,哈哈 |
![]() | 4 cxsz 2020-02-07 11:52:11 +08:00 ![]() 挺好玩的,支持一下 |
![]() | 5 n3r0 OP @sevenQu 有道理,目前整篇文章就是按段落为单位生成的,只是还没有具体做一些区分,后面应该可以把正文再分成几个部分,然后按套路生成 |
![]() | 6 mosbic 2020-02-08 16:59:36 +08:00 可以开始编了(^-^)V |
![]() | 7 hhxiaolei 2020-02-08 18:39:22 +08:00 能否开放 api? |
![]() | 8 n3r0 OP @hhxiaolei 目前还不行,一是考虑到自己服务器可能支撑不了,二是目前的数据整理的太乱放出去有点丢人,还在进一步的优化当中。日后如果效果比较稳定了,可以开放一些高级接口,直接获取相关的段落。 |
![]() | 12 luo7 2020-02-09 02:37:06 +08:00 ![]() 我的天啊这真的是神器 |
![]() | 13 Dreax 2020-02-09 04:51:08 +08:00 tql |
![]() | 14 dick20cm 2020-02-09 22:04:03 +08:00 ![]() 楼主挺厉害的,我记得几年前听说亚研院有做过类似工作,但可能因为各种原因并没有变成真正的产品 |
![]() | 15 n3r0 OP @dick20cm 之前我只查到过 MIT 有做过英文假论文的生成,这个倒是不清楚,回去了解一下,感谢 我觉得对真正的产品考验最大的,应该还是通用性,单一类目的生成还是比较容易的。 |
16 tfdetang 2020-02-10 10:41:53 +08:00 楼主可以说下思路吗? 是基于 gpt-2 训练的吗? |
![]() | 17 n3r0 OP @tfdetang 不是。目前的效果还不够理想,等优化的差不多了可以放出来交流一下♀ 现在只能说是,“人工”的部分还大于“智能” |
![]() | 19 cainiuwow 2020-02-10 22:14:13 +08:00 via Android ![]() 哈哈,挺有意思的,刚试了一下,根据手里的诉讼案件,整理了几个关键词,然后生成论文,节省了一部分找资料的时间。 粗略看了一下,有些内容还是可以直接作为论述观点的。nice~ |
![]() | 20 n3r0 OP @cainiuwow 能帮上忙就太好了一度因为它直接生成的效果不稳定打算放弃,后面还是加了个段落替换功能,感觉做个参考还可以。现在每天小几百人访问,也挺有成就感的,哈哈。 |
21 337136897 2020-02-11 10:11:57 +08:00 ![]() 楼主你为什么不早个好几年开发出这玩意 |
![]() | 22 cainiuwow 2020-02-11 14:57:06 +08:00 via Android ![]() @n3r0 哈哈,楼主要加油啊,如果建立群的话记叫我。这个虽然暂时不能直接作为论文使用,但是参考意义是很大的,能给很多的思路和想法。还有 3000 字有点少,如果能多一点就好了。 |
![]() | 23 n3r0 OP @cainiuwow 哈哈哈谢谢,字数限制主要是为了用户体验,理论上几万字都没问题,但是目前的生成速度太慢了。 等后期再优化的好一点,会考虑哒 |
![]() | 24 clemente0620 2020-02-11 21:07:53 +08:00 挺好玩的 但是有些生成的论文会牛嘴不对马尾? 想知道是用的 AI 神经网络做的算法吗?还是单纯的标题+关键词关联 |
![]() | 25 n3r0 OP @clemente0620 数据的前期处理用了机器学习,文章生成是直接按照类目+关联度的算法从数据库取的内容,没有 AI,不然计算量太大了承受不起。 |
![]() | 26 Telegram 2020-02-12 02:13:54 +08:00 via iPhone 一查重,死翘翘,重复率可能 80%以上 |