提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
luosuosile
V2EX    程序员

提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的?

  •  
  •   luosuosile 2018-07-20 00:18:50 +08:00 26035 次点击
    这是一个创建于 2665 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想的是。

    先是提取关键字,然后根据关键字定位。

    以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。

    那比如纳粹图表,血腥图片的又怎么办呢?

    现在我发现压缩包的能找到了,

    百度难道真的给你解压缩一遍了?

    最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?

    那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?

    53 条回复    2018-07-22 09:32:38 +08:00
    dewi
        1
    dewi  
       2018-07-20 00:25:15 +08:00 via iPhone
    这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。
    luosuosile
        2
    luosuosile  
    OP
       2018-07-20 00:26:30 +08:00
    @dewi 嗯,对哦即使不做解压缩,好像也能浏览目录
    flynaj
        3
    flynaj  
       2018-07-20 00:30:49 +08:00 via Android
    不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件
    luosuosile
        4
    luosuosile  
    OP
       2018-07-20 00:36:53 +08:00
    @flynaj thanks 学习了
    easylee
        5
    easylee  
       2018-07-20 00:55:32 +08:00 via Android
    对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。
    love4taylor
        6
    love4taylor  
    PRO
       2018-07-20 01:11:37 +08:00 via Android
    加密并且对包内文件名加密
    someonetwo
        7
    someonetwo  
       2018-07-20 01:16:45 +08:00
    如果压缩包加密的话不知道还能不能检测出来
    aaax7676
        8
    aaax7676  
       2018-07-20 01:18:05 +08:00 via Android
    估计是有人在线解压了
    msg7086
        9
    msg7086  
       2018-07-20 01:21:44 +08:00
    解压又没技术难度……
    度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。
    zzsx1937
        10
    zzsx1937  
       2018-07-20 06:02:56 +08:00
    双层加密压缩 内层最好改文件后缀
    zhangpeter
        11
    zhangpeter  
       2018-07-20 07:17:45 +08:00
    @msg7086 为什么广场是敏感词?
    loukky
        12
    loukky  
       2018-07-20 07:21:09 +08:00 via Android
    @zhangpeter T A M
    Telegram
        13
    Telegram  
       2018-07-20 08:00:02 +08:00 via iPhone
    @zhangpeter #11 天安门广场,64 事件呗
    leafleave
        14
    leafleave  
       2018-07-20 08:01:53 +08:00 via iPhone
    文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件
    torbrowserbridge
        15
    torbrowserbridge  
       2018-07-20 08:05:34 +08:00 via Android
    666 天朝关键字真多
    ZeoKarl
        16
    ZeoKarl  
       2018-07-20 08:07:50 +08:00 via iPhone
    压缩并且加密,很多开车群都是这么搞得。
    kkeybbs
        17
    kkeybbs  
       2018-07-20 08:08:43 +08:00 via iPhone
    最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。

    一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。

    高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。
    jmercer
        18
    jmercer  
       2018-07-20 08:21:01 +08:00
    在这里说 64 会不会被封[doge]
    badcode
        19
    badcode  
       2018-07-20 08:25:59 +08:00 via iPhone
    压缩文件,都把加密文件名勾上……
    a566
        20
    a566  
       2018-07-20 08:42:58 +08:00 via Android
    7z 好像可以逃过
    kokutou
        21
    kokutou  
       2018-07-20 08:49:44 +08:00 via Android
    rar 加密码,然后勾上加密文件名就行了。。。。
    annielong
        22
    annielong  
       2018-07-20 09:23:13 +08:00
    rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在
    imdong
        23
    imdong  
       2018-07-20 09:30:48 +08:00
    文件名检测,头信息特征检测。
    比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。
    获取压缩包文件列表,检查压缩包内文件名是否有关键词。
    获取压缩包内文件 CRC (类)是否在黑名单。
    最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。
    还要严格,那就?所有文件解压出来,图片视频走 AI 识别?
    woodvillage
        24
    woodvillage  
       2018-07-20 09:36:15 +08:00
    你不是一个人
    RyougiShiki
        25
    RyougiShiki  
       2018-07-20 09:45:59 +08:00
    我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。
    dalieba
        26
    dalieba  
       2018-07-20 11:31:43 +08:00 via Android
    那就上传一份加密的 RAR 试试看吧。
    workspace
        27
    workspace  
       2018-07-20 12:23:51 +08:00
    tar tf 只看,不解压
    nikolai
        28
    nikolai  
       2018-07-20 12:40:45 +08:00
    有人在线解压过,文件 md5 被认证了
    metorm
        29
    metorm  
       2018-07-20 12:43:05 +08:00 via Android
    如果是大路货压缩文件,直接 md5 匹配上就可以了
    t6attack
        30
    t6attack  
       2018-07-20 13:10:14 +08:00   2
    文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。

    假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。

    一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。
    至于只被一个网盘保存的文件,没人查你。也查不过来。

    你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。
    图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。
    luosuosile
        31
    luosuosile  
    OP
       2018-07-20 13:19:56 +08:00
    @t6attack 学习了,感谢
    JamesR
        32
    JamesR  
       2018-07-20 13:55:35 +08:00 via Android
    有纱布在线解压了,就这么简单。
    KevZhi
        33
    KevZhi  
       2018-07-20 13:56:07 +08:00 via iPhone   1
    @t6attack
    BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封

    甚至磁力下载的黄油 ISO 镜像都被封过


    显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。


    另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了

    当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。

    也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。

    百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。
    Tlin
        34
    Tlin  
       2018-07-20 13:58:05 +08:00
    @t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去)
    flyoungstudio
        35
    flyoungstudio  
       2018-07-20 14:11:12 +08:00
    PGP Desktop,你值得拥有
    go
        36
    go  
       2018-07-20 14:14:28 +08:00
    @t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示
    按照你的说法 也就是检查热门文件 。。
    go
        37
    go  
       2018-07-20 14:16:21 +08:00
    @KevZhi #33 不断快进这段 笑了
    hu5ky
        38
    hu5ky  
       2018-07-20 17:23:27 +08:00
    应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。
    yjd
        39
    yjd  
       2018-07-20 17:27:04 +08:00
    你加个中文密码。23333
    f2ck
        40
    f2ck  
       2018-07-20 17:30:36 +08:00
    压缩 加密一哈 就可以了
    Raymon111111
        41
    Raymon111111  
       2018-07-20 17:31:54 +08:00
    加密啊
    psychoo
        42
    psychoo  
       2018-07-20 17:35:21 +08:00
    @KevZhi 还有在同一时刻附近停止播放并关闭网页 hhhhh
    crab
        43
    crab  
       2018-07-20 17:35:25 +08:00
    @KevZhi 老哥有经验。快进撸点哈哈!
    mmdsun
        44
    mmdsun  
       2018-07-20 19:32:01 +08:00 via Android
    你压缩包设置密码就行。
    akira
        45
    akira  
       2018-07-20 19:34:35 +08:00
    @go 在可见的未来,你以为的这些技术也会成为现实
    LudwigWS
        46
    LudwigWS  
       2018-07-20 19:41:03 +08:00
    向老司机们学习
    ezXE2V
        47
    ezXE2V  
       2018-07-20 19:52:55 +08:00 via Android
    在线解压就会被封
    wsc449
        48
    wsc449  
       2018-07-20 20:03:01 +08:00
    向老司机们学习
    pWHx3x96
        49
    pWHx3x96  
       2018-07-20 21:37:15 +08:00
    @psychoo pornhub 那个热力图的思路好像也是这样 hhh
    JerryCha
        50
    JerryCha  
       2018-07-20 22:45:41 +08:00
    大概就是有会员云解压了吧,然后就上记录了。记得以前有在线预览 avi 过了不久就 8s 的
    arabshia
        51
    arabshia  
       2018-07-21 08:33:11 +08:00
    向老司机们学习
    winglight2016
        52
    winglight2016  
       2018-07-21 14:01:31 +08:00
    @torbrowserbridge 很多啦,像 89 这么常见的词就是关键字,以前看小说,八九玄功,八九不离十都出不来
    sungkyu
        53
    sungkyu  
       2018-07-22 09:32:38 +08:00
    楼主,Winsw1.9.exe 那两个链接都失效了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1368 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 23:58 PVG 07:58 LAX 15:58 JFK 18:58
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86