大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
13936
V2EX    程序员

大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好

  •  
  •   13936 2020-12-01 17:16:11 +08:00 8753 次点击
    这是一个创建于 1782 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 Scrapy 框架爬的,目前可以通过情感分析判断一本书的翻译质量。

    方法是筛选一条评论里是否含有“翻译,原著,英文”等词汇,如果有的话,就判断情绪积极程度,然后给书籍的翻译质量打分。目前结果来看是可行的,基本可以有个大致判断。

    但是既然爬下来了这么多数据,能做的也不仅仅只是这一点,可以做个词云,相关书籍推荐等功能,将更多隐含的信息可视化。但是总的功能类似,就是从大量数据中挖掘出隐含的对用户有帮助的信息。只是目前不知道取什么名字比较好,这周就要定题目了。V 友们方便帮忙取个名字吗?

    还有,本人已经拿到了 Offer,不过不是计算机行业的,编写 Chrome 插件可能还需要再去买服务器,用 Flask 框架写 API 。既然工作重心不在计算机行业上了,也想过只写成一个 Python 程序,在本地输入书籍链接再在本地输出信息。V 友们对于这一想法有什么建议吗?

    第 1 条附言    2020-12-02 09:48:23 +08:00
    https://book.douban.com/robots.txt
    豆瓣的爬虫协议一直都没说书评不能爬,我也不当做盈利用途,不明白是否真的有法律风险。

    非常感谢各位 V 友们的建议,太爱你们了,感谢#22 楼和#35 楼的实用性建议。

    既然开放出来可能有风险,我就做个本地的吧,自己一个人用。当毕设应该没问题。还不用架设服务器。
    56 条回复    2020-12-02 22:17:55 +08:00
    Jiers
        1
    Jiers  
       2020-12-01 17:19:56 +08:00
    程序可私聊一下
    laminux29
        2
    laminux29  
       2020-12-01 17:29:38 +08:00   31
    所以毕设是毕业入狱指南?
    MakeItGreat
        3
    MakeItGreat  
       2020-12-01 17:34:41 +08:00 via Android   1
    21 天精通从入学到入狱
    LoNeFong
        4
    LoNeFong  
       2020-12-01 17:38:36 +08:00   3
    居然不进来卷, 感动
    Tink
        5
    Tink  
    PRO
       2020-12-01 17:46:37 +08:00   1
    我以前也爬了好多好多,后来也不知道有什么用,打包扔到百度盘好几年了
    13936
        6
    13936  
    OP
       2020-12-01 17:47:25 +08:00
    @Tink 要不分享点给我,哈哈哈哈哈
    13936
        7
    13936  
    OP
       2020-12-01 17:47:43 +08:00
    前辈们给点建议啊喂,想取个好点的名字呢
    TimePPT
        8
    TimePPT  
    PRO
       2020-12-01 17:50:39 +08:00
    自己玩玩得了,开放出来弄不好就吃豆瓣律师函。
    Lemeng
        9
    Lemeng  
       2020-12-01 17:51:42 +08:00
    发布出来?同学要想清楚啊
    haoxuexiaoyao
        10
    haoxuexiaoyao  
       2020-12-01 17:56:58 +08:00
    打包发我网盘
    hunk
        11
    hunk  
       2020-12-01 17:59:03 +08:00
    豆瓣,我试过 30 秒一次,很快就被 ban 了。
    楼主是用啥办法?我能想到唯一的对策是付费代理。
    dfourc
        12
    dfourc  
       2020-12-01 18:08:32 +08:00   10
    羡慕,刚毕业就搞了张长期饭票
    dorothyREN
        13
    dorothyREN  
       2020-12-01 18:09:09 +08:00
    我在爬影评
    Duolingo
        14
    Duolingo  
       2020-12-01 18:10:11 +08:00 via Android
    羡慕,坐等楼主衣食无忧
    bushenx
        15
    bushenx  
       2020-12-01 22:04:44 +08:00 via Android   1
    羡慕,刚毕业就不用考虑租房子的事情了。
    euph
        16
    euph  
       2020-12-02 01:16:45 +08:00 via iPhone
    就叫,爬虫,从入门到入狱吧
    comsweetcs
        17
    comsweetcs  
       2020-12-02 01:21:49 +08:00 via iPhone
    厉害了,豆瓣法务部门明天估计会找你,然后是♀,然后……
    hearlessnor
        18
    hearlessnor  
       2020-12-02 01:22:52 +08:00 via iPhone
    笑死了 hhhhhhh
    PhyllisLin
        19
    PhyllisLin  
       2020-12-02 01:24:28 +08:00 via Android
    打包发我邮箱,谢谢同学。
    felixcode
        20
    felixcode  
       2020-12-02 02:23:34 +08:00 via Android   1
    你朝这个方向越努力,进去的越快,鲁迅说过,方向比努力更重要。
    yingfengi
        21
    yingfengi  
       2020-12-02 06:23:31 +08:00 via Android
    毕业入狱指南
    wyfyw
        22
    wyfyw  
       2020-12-02 07:13:04 +08:00   1
    上面那些入狱的,玩笑开过了。

    楼主可以开发这个插件自己使用。只要数据停留在本地,搞科研发文章,想怎么搞就怎么搞。

    如果上了云、建了站,不说豆瓣,光说书评的作者,他们有授权你使用书评做任何事情吗?
    futou
        23
    futou  
       2020-12-02 07:17:48 +08:00
    豆瓣已经不是小公司了,你指导老师也是无知,你也是大胆...
    iloveayu
        24
    iloveayu  
       2020-12-02 07:25:11 +08:00 via Android
    免费饭
    zqx
        25
    zqx  
       2020-12-02 07:35:51 +08:00 via Android
    豆瓣有免费的开放 API,为什么还要爬虫呢
    dyeed
        26
    dyeed  
       2020-12-02 08:47:42 +08:00
    巧了哈哈,我毕设是爬的豆瓣电影哈哈哈,人还在哈哈
    gitJavascript
        27
    gitJavascript  
       2020-12-02 08:51:14 +08:00   1
    羡慕,刚毕业就学到了吃牢饭的技能
    labubu
        28
    labubu  
       2020-12-02 08:52:30 +08:00
    真羡慕,刚毕业就包吃包住
    shroxd
        29
    shroxd  
       2020-12-02 08:58:10 +08:00 via iPhone   1
    好家伙,刚毕业就有保镖了
    Juszoe
        30
    Juszoe  
       2020-12-02 09:12:33 +08:00 via Android
    楼主好好听一听楼上的建议,私下研究就算了,千万别上云做成服务
    fhsan
        31
    fhsan  
       2020-12-02 09:21:45 +08:00
    做论文,你是想被抓起来吗,
    sDG9xz87SqqCC3mN
        32
    sDG9xz87SqqCC3mN  
       2020-12-02 09:23:17 +08:00 via Android
    这东西私下研究就好了
    huzy8002as
        33
    huzy8002as  
       2020-12-02 09:24:25 +08:00
    真羡慕,刚毕业就包吃包住
    madpecker009
        34
    madpecker009  
       2020-12-02 09:25:56 +08:00
    @laminux29 哈哈哈 你这也太草了
    tikazyq
        35
    tikazyq  
       2020-12-02 09:28:39 +08:00   4
    《基于高并发数据采集框架的自然语言处理数据挖掘》
    13936
        36
    13936 &nsp;
    OP
       2020-12-02 09:48:06 +08:00
    https://book.douban.com/robots.txt
    豆瓣的爬虫协议一直都没说书评不能爬,我也不当做盈利用途,不明白是否真的有法律风险。

    非常感谢各位 V 友们的建议,太爱你们了,感谢#22 楼和#35 楼的实用性建议。

    既然开放出来可能有风险,我就做个本地的吧,自己一个人用。当毕设应该没问题。还不用架设服务器。
    13936
        37
    13936  
    OP
       2020-12-02 09:48:53 +08:00
    @tikazyq 尤其感谢你,哈哈哈
    47jm9ozp
        38
    47jm9ozp  
       2020-12-02 09:59:59 +08:00 via iPhone   1
    robots 算什么爬虫协议,lz 还是要学习一个

    https://www.douban.com/about/agreement

    看 9.2 第 11 条

    祝你好运,耗子尾汁
    fo0o7hU2tr6v6TCe
        39
    fo0o7hU2tr6v6TCe  
       2020-12-02 10:04:46 +08:00
    就叫 <<被指控指南>> 吧
    47jm9ozp
        40
    47jm9ozp  
       2020-12-02 10:08:23 +08:00 via iPhone   1
    应该看这个

    https://www.douban.com/about/legal

    看 2.2.5
    lujie2012
        41
    lujie2012  
       2020-12-02 10:12:36 +08:00
    good luck ! 豆瓣律师函在路上了。
    最怕没有脑子的野路子程序员
    wmhx
        42
    wmhx  
       2020-12-02 10:32:44 +08:00
    前几年也爬了 30 多万的 小短文, 后来也爬了近 20 万的图片, 都忘记放到网盘哪个位置了.
    13936
        43
    13936  
    OP
       2020-12-02 10:39:10 +08:00
    @ooxxcc 看了,谢谢你,很有帮助。决定就自己做个本地插件自己用了。这不算侵犯它们的利益吧。非常感谢你。
    xingshu1990
        44
    xingshu1990  
       2020-12-02 10:57:45 +08:00
    讲个事情,原先在其他什么地方看到关于 NLP 的事情,里面提到了部分语句的分词案例:
    “导演你给我进来,我保证不打死你”
    “我也想过过过儿过过的生活。”
    “过几天天天天气不好”
    “你也想犯范范范玮琪犯过的错吗”
    这个还没涉及到词性

    我在想 楼主是怎么解决这些中文特有的语句。
    lin
        45
    lin  
       2020-12-02 11:02:20 +08:00
    @zqx API 还有吗?
    fhsan
        46
    fhsan  
       2020-12-02 11:02:47 +08:00
    @lujie2012 都 2020 年了,国家都知识版权,垄断,个人隐私,立法了,别被抓典型
    AlexSLQ
        47
    AlexSLQ  
       2020-12-02 11:31:29 +08:00
    2019 年 8 月 20 日更新

    在使用豆瓣网( www.douban.com ,包括电脑端及移动客户端等)之前,请务必仔细阅读本声明,本声明的发布主体为豆瓣网的运营主体,即北京豆网科技有限公司(以下简称“豆瓣”)。

    任何直接或间接(包括但不限于通过站外 API 接入等其它形式)使用豆瓣网服务或数据的行为,都将被视作已无条件接受本声明所涉全部内容或服务;若使用人(包括豆瓣网注册用户)对本声明(包括但不限于知识产权、信息和数据、免责声明)的任何条款有异议,请停止使用豆瓣所提供的全部内容和服务。
    一、知识产权

    1 、豆瓣网注册用户(以下简称“用户”)发布在豆瓣网的原创文章、评论、图片等内容的知识产权均归用户本人所有。

    2 、用户通过转载、复制、截图等方式获取他人内容,并发布在豆瓣网的,相关内容的知识产权属于内容的权利人,用户不得侵犯他人知识产权及其他合法权利。因用户发布内容引发知识产权纠纷的,用户须自行承担相应后果,若因此造成豆瓣损失的,豆瓣有权依照法律规定维护合法权益。

    3 、豆瓣网展示的豆瓣标识、版面设计、排版方式、文本、图片、图形等受著作权法、商标法、专利法及其它法律保护的部分,未经豆瓣书面同意,不得在任何其他平台发布、使用,或出于发布、使用目的的改编、修改,或用于其他商业及非商业目的。

    4 、豆瓣不对用户发布内容的知识产权权属进行保证,并且尊重权利人的知识产权及其他合法权益。若权利人认为豆瓣网用户发布的内容侵犯自身的知识产权及其他合法权益,可依法向豆瓣(联系邮箱: [email protected] )发出书面通知,并应提供具有证明效力的证据材料。豆瓣在书面审核相关材料后,有权根据《中华人民共和国侵权责任法》《信息网络传播权保护条例》等法律法规及豆瓣《社区指导原则》,在不事先通知相应发布用户的情况下自行删除相关内容,并保留相关数据。

    5 、豆瓣根据上述第 4 条删除相关内容的,相应发布用户如存在异议,可依法向豆瓣发出关于被删除内容不侵权的书面说明,并提供具有证明效力的证据材料。豆瓣在书面审核后,将根据实际情况依法进行处理。

    6 、豆瓣鼓励原创,并尽最大努力为用户自主创作并发布于豆瓣网的内容提供保护,用户可在发表日记、长评、相册等内容时开启原创内容版权声明。如用户发布于豆瓣网的原创内容遭受来自第三方平台或其用户的侵犯,用户可通过“豆瓣站外侵权投诉通道”(目前仅支持部分平台)进行维权。豆瓣可以在获得用户授权后协助用户进行维权。豆瓣的维权权利不影响用户另行授权第三方进行维权,豆瓣将在收到用户通知后,停止维权权利的行使。
    二、信息和数据

    1 、除特别说明或者法律另有规定外(包括但不限于我国著作权法、商标法等知识产权法律以及豆瓣网《法律声明》中“知识产权”部分对相关权属的规定),豆瓣网公开的全部信息或数据的其它权益归属于豆瓣。 豆瓣网所公开的全部信息或数据包括但不限于:网站架构、程序设计、程序代码、页面设计、图片、图形、文字、音频、视频以及包括但不限于读书、电影、音乐等条目信息及其对应评分、评论、评分数量、标记记录、话题内容,小组内容等。

    2 、除法律另有规定之外,在未取得豆瓣书面许可前,任何第三方不得将豆瓣网的任何公开信息或数据以任何目的进行任何形式的使用,包括但不限于:

    (1)商业性使用;

    (2)以可能损害豆瓣利益的方式对豆瓣网读书、电影、音乐等条目信息、评分或评论的使用、引用以及展示;

    (3)对豆瓣网内容的衍生利用,包括但不限于基于或利用豆瓣网内容而开发的任何插件、软件、应用程序、网站;

    (4)第三方以任何形式盗取、拷贝用户账号信息,或采用诱导、要求用户提供账号名称及密码等方式登录用户账号,或对用户主页、ID 信息、账号信息的其它使用;或以上述方式取得用户账号登录信息、ID 信息、主页信息后,以任何手段复制、转载、抓取豆瓣网内容;

    (5)侵犯或可能侵犯豆瓣利益的数据采集、网络爬虫或类似的数据收集以及数据摘录等;

    (6)在其它网站、应用程序、服务或商品中使用豆瓣的商标、标识或其他豆瓣专有信息(包括图像、文字、数字、网页设计或形式);

    (7)其它可能侵犯豆瓣合法权益的行为。

    3 、如需使用豆瓣网所公开的信息或数据,请联系豆瓣(邮箱:[email protected] )并取得相应的授权。对于任何违反上述声明的行为,豆瓣保留追究其法律责任的权利。
    hjw45611
        48
    hjw45611  
       2020-12-02 11:37:31 +08:00
    多大点事,发个邮件问问豆瓣不就得了
    paloalto
        49
    paloalto  
       2020-12-02 12:06:14 +08:00


    他说他是乱爬的,他可不是乱爬的啊。Scrapy,情感分析,数据挖掘,训练有素。后来他说他是用来做毕业设计,啊,看来是有备而来!
    tesguest123
        50
    tesguest123  
       2020-12-02 12:10:40 +08:00 via iPhone
    @futou 彦语怎么讲,撑死胆大的饿死胆小的
    naix1573
        51
    naix1573  
       2020-12-02 15:24:39 +08:00
    不懂就问,拆词做情感分析的这个,例如“不满意”,怎么能避免拆分成“不”+“满意”,像这样的情况不少,之前用了几个的效果都不太好,不知道你是怎么处理的~
    LearningToCode
        52
    LearningToCode  
       2020-12-02 16:11:48 +08:00
    21 天精通 Python: 从入门到入狱
    Felldeadbird
        53
    Felldeadbird  
       2020-12-02 16:55:08 +08:00
    你都写扩展了,可以将数据本地存储在用户 浏览器。然后通过分布式去做计算。
    sonxzjw
        54
    sonxzjw  
       2020-12-02 17:25:12 +08:00
    魔兽 mt 玩多了吧?
    嘲讽拉 boss 准备跑几年尸体?
    2088TXT
        55
    2088TXT  
       2020-12-02 17:44:40 +08:00
    有关部门肯定会联系你 唉走好~
    urobot
        56
    urobot  
       2020-12-02 22:17:55 +08:00
    以前的话,可以直接豆油你瓣的 cto 问问
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2505 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 05:13 PVG 13:13 LAX 22:13 JFK 01:13
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86