
我想的是。
先是提取关键字,然后根据关键字定位。
以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。
那比如纳粹图表,血腥图片的又怎么办呢?
现在我发现压缩包的能找到了,
百度难道真的给你解压缩一遍了?
最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?
那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?
1 dewi 2018-07-20 00:25:15 +08:00 via iPhone 这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。 |
2 luosuosile OP @dewi 嗯,对哦即使不做解压缩,好像也能浏览目录 |
3 flynaj 2018-07-20 00:30:49 +08:00 via Android 不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件 |
4 luosuosile OP @flynaj thanks 学习了 |
5 easylee 2018-07-20 00:55:32 +08:00 via Android 对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。 |
6 love4taylor PRO 加密并且对包内文件名加密 |
7 someonetwo 2018-07-20 01:16:45 +08:00 如果压缩包加密的话不知道还能不能检测出来 |
8 aaax7676 2018-07-20 01:18:05 +08:00 via Android 估计是有人在线解压了 |
9 msg7086 2018-07-20 01:21:44 +08:00 解压又没技术难度…… 度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。 |
10 zzsx1937 2018-07-20 06:02:56 +08:00 双层加密压缩 内层最好改文件后缀 |
11 zhangpeter 2018-07-20 07:17:45 +08:00 @msg7086 为什么广场是敏感词? |
12 loukky 2018-07-20 07:21:09 +08:00 via Android @zhangpeter T A M |
13 Telegram 2018-07-20 08:00:02 +08:00 via iPhone @zhangpeter #11 天安门广场,64 事件呗 |
14 leafleave 2018-07-20 08:01:53 +08:00 via iPhone 文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件 |
15 torbrowserbridge 2018-07-20 08:05:34 +08:00 via Android 666 天朝关键字真多 |
16 ZeoKarl 2018-07-20 08:07:50 +08:00 via iPhone 压缩并且加密,很多开车群都是这么搞得。 |
17 kkeybbs 2018-07-20 08:08:43 +08:00 via iPhone 最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。 一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。 高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。 |
18 jmercer 2018-07-20 08:21:01 +08:00 在这里说 64 会不会被封[doge] |
19 badcode 2018-07-20 08:25:59 +08:00 via iPhone 压缩文件,都把加密文件名勾上…… |
20 a566 2018-07-20 08:42:58 +08:00 via Android 7z 好像可以逃过 |
21 kokutou 2018-07-20 08:49:44 +08:00 via Android rar 加密码,然后勾上加密文件名就行了。。。。 |
22 annielong 2018-07-20 09:23:13 +08:00 rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在 |
23 imdong 2018-07-20 09:30:48 +08:00 文件名检测,头信息特征检测。 比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。 获取压缩包文件列表,检查压缩包内文件名是否有关键词。 获取压缩包内文件 CRC (类)是否在黑名单。 最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。 还要严格,那就?所有文件解压出来,图片视频走 AI 识别? |
24 woodvillage 2018-07-20 09:36:15 +08:00 你不是一个人 |
25 RyougiShiki 2018-07-20 09:45:59 +08:00 我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。 |
26 dalieba 2018-07-20 11:31:43 +08:00 via Android 那就上传一份加密的 RAR 试试看吧。 |
27 workspace 2018-07-20 12:23:51 +08:00 tar tf 只看,不解压 |
28 nikolai 2018-07-20 12:40:45 +08:00 有人在线解压过,文件 md5 被认证了 |
29 metorm 2018-07-20 12:43:05 +08:00 via Android 如果是大路货压缩文件,直接 md5 匹配上就可以了 |
30 t6attack 2018-07-20 13:10:14 +08:00 文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。 假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。 一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。 至于只被一个网盘保存的文件,没人查你。也查不过来。 你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。 图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。 |
31 luosuosile OP @t6attack 学习了,感谢 |
32 JamesR 2018-07-20 13:55:35 +08:00 via Android 有纱布在线解压了,就这么简单。 |
33 KevZhi 2018-07-20 13:56:07 +08:00 via iPhone @t6attack BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封 甚至磁力下载的黄油 ISO 镜像都被封过 显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。 另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了 当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。 也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。 百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。 |
34 Tlin 2018-07-20 13:58:05 +08:00 @t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去) |
35 flyoungstudio 2018-07-20 14:11:12 +08:00 PGP Desktop,你值得拥有 |
36 go 2018-07-20 14:14:28 +08:00 @t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示 按照你的说法 也就是检查热门文件 。。 |
38 hu5ky 2018-07-20 17:23:27 +08:00 应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。 |
39 yjd 2018-07-20 17:27:04 +08:00 你加个中文密码。23333 |
40 f2ck 2018-07-20 17:30:36 +08:00 压缩 加密一哈 就可以了 |
41 Raymon111111 2018-07-20 17:31:54 +08:00 加密啊 |
44 mmdsun 2018-07-20 19:32:01 +08:00 via Android 你压缩包设置密码就行。 |
46 LudwigWS 2018-07-20 19:41:03 +08:00 向老司机们学习 |
47 ezXE2V 2018-07-20 19:52:55 +08:00 via Android 在线解压就会被封 |
48 wsc449 2018-07-20 20:03:01 +08:00 向老司机们学习 |
50 JerryCha 2018-07-20 22:45:41 +08:00 大概就是有会员云解压了吧,然后就上记录了。记得以前有在线预览 avi 过了不久就 8s 的 |
51 arabshia 2018-07-21 08:33:11 +08:00 向老司机们学习 |
52 winglight2016 2018-07-21 14:01:31 +08:00 @torbrowserbridge 很多啦,像 89 这么常见的词就是关键字,以前看小说,八九玄功,八九不离十都出不来 |
53 sungkyu 2018-07-22 09:32:38 +08:00 楼主,Winsw1.9.exe 那两个链接都失效了 |