用什么抓邮件不会缺失数据?? - V2EX
bworker

用什么抓邮件不会缺失数据??

  •  
  •   bworker Jul 7, 2020 1888 views
    This topic created in 2135 days ago, the information mentioned may be changed or developed.

    最近要把公司的公共邮箱的邮件抓到本地,然后做一层权限控制和操作记录。

    一开始我使用的 python 的 pop3 去抓取邮件,但是会缺失一些数据,比如邮件的发件人名称、还有一些邮件内容也会缺失。

    为什么 fixmail 这些客户端软件都不会缺失数据??,他们是怎么实现的? 难道不也是抓 pop 服务器的?

    有什么好建议吗? 怎么将邮箱数据更好的同步到本地数据库里?

    16 replies    2020-07-07 16:45:01 +08:00
    TimePPT
        1
    TimePPT  
    PRO
       Jul 7, 2020 via Android
    描述里看不出哪个环节出了问题,下到本地的邮件头完整吗?一般头里有收发件人信息
    x66
        2
    x66  
       Jul 7, 2020
    名称应该是通过通讯录读取出来的吧。
    bworker
        3
    bworker  
    OP
       Jul 7, 2020
    我就是用 python 的 popLib 库解析不出来,估计是这个库的问题
    MadbookPro
        4
    MadbookPro  
       Jul 7, 2020
    是不是没有对 Content-Transfer-Encoding 做相应的处理?
    7bit 8bit base64 quoted-printable 等等
    wangkun025
        5
    wangkun025  
       Jul 7, 2020
    开启 imap,不就是同步了嘛
    不理解为啥会缺失数据。邮件本身就是个文件。
    bworker
        6
    bworker  
    OP
       Jul 7, 2020
    缺失数据,好像是编码的问题
    bworker
        7
    bworker  
    OP
       Jul 7, 2020
    @MadbookPro 怎么去处理?
    None123
        8
    None123  
       Jul 7, 2020
    别用 pop3 用 IMAP
    None123
        9
    None123  
       Jul 7, 2020
    pop3 得到的数据不全
    MadbookPro
        10
    MadbookPro  
       Jul 7, 2020
    @bworker #7 参考 [rfc2045]( https://tools.ietf.org/html/rfc2045) ,我没用过 python,但是 python 会有标准库的。
    Ritter
        11
    Ritter  
       Jul 7, 2020
    我现在也在弄这个 用 IMAP 协议 可以用 GitHub 上面这个库(Imbox)[https://github.com/martinrusev/imbox] 自己解析太麻烦了
    bworker
        12
    bworker  
    OP
       Jul 7, 2020
    @None123 @TimePPT 我感觉是 python 库解析的问题, 我 debug,明明有名称这个信息,但是它没解析出来
    bworker
        13
    bworker  
    OP
       Jul 7, 2020
    @Ritter 这个库会丢数据吗?大数据量抓取会不会少邮件?
    None123
        14
    None123  
       Jul 7, 2020
    @bworker pop3 就是少数据 我 qq 和 gmail 都试过了

    我 27 万条数据 都是用 imaplib 抓出来的
    Ritter
        15
    Ritter  
       Jul 7, 2020
    @bworker 我抓了没少
    bworker
        16
    bworker  
    OP
       Jul 7, 2020
    @Ritter 抓了多少邮件?
    About     Help     Advertise     Blog     API     FAQ     Solana     3358 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 13:57 PVG 21:57 LAX 06:57 JFK 09:57
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86