空手套图术~ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xwhxbg
V2EX    分享创造

空手套图术~

  •  
  •   xwhxbg 2018-01-24 14:14:31 +08:00 1200 次点击
    这是一个创建于 2831 天前的主题,其中的信息可能已经有所发展或是发生改变。

    上次请教了大家关于平胸妹子鉴黄的问题,调整了一下训练数据集之后又练了个模型 120.78.173.99:4000/tryout 这里可以体验一下,手机端和 PC 端访问都做了适配,后续等我把代码整理一下就丢 gayhub 上了(由于是二手 py,所以会比较丑)

    同时收一波训练素材:doge

    第 1 条附言    2018-01-24 15:23:30 +08:00
    我这个是 1 核 1G 的哈,鉴定会有点慢,而且如果同时鉴定过多可能会卡返回 500 了就

    另外就是 API 大家可以放心 hack,直接打开 Chrome dev tools 看请求参数就行,没有经过加密的,js 也是,如果你用 mithril 是可以直接 copy 过去用的。

    用图砸死我吧~O(∩_∩)O
    第 2 条附言    2018-01-24 15:27:51 +08:00
    有些报错 500 的是因为图的格式有问题,没法解析导致的,目前发现两个图,应该都是 URL 上来的
    第 3 条附言    2018-01-24 15:42:52 +08:00
    不要放敏感信息的图啊,例如包含你的私人信息的,身份证,银行卡照片

    来自于网络的图片 URL,和收集的表情包应该没问题
    第 4 条附言    2018-01-24 16:21:22 +08:00
    目前已知的问题:

    1.由于训练样本覆盖不够,男性,原始人,多人图会容易误判
    2.格式不对的图片会导致 500 报错,但是错误信息没有返回给前端
    第 5 条附言    2018-01-24 16:41:55 +08:00
    3.由于 CPU 配置太低,进场 CPU 跑满,线上使用需要用带 GPU 的服务器
    4.CPU 占用过高时会导致前端访问页面的请求也 hang 住
    第 6 条附言    2018-01-25 13:30:49 +08:00
    发现有一些同学试图用.php 文件来 hack 我的服务器,等我整理好了代码就会开源出来的,没必要 hack 哈
    69 条回复    2018-01-29 20:44:36 +08:00
    tinytin
        1
    tinytin  
       2018-01-24 14:19:13 +08:00
    我是素材
    sennes
        2
    sennes  
       2018-01-24 14:51:44 +08:00   1
    刚刚试了 4 张图 分别检测的话
    NSFW 0.004 0.004 0.118 0.003
    但是拼成一张图之后
    NSFW 0.890
    f2f2f
        3
    f2f2f  
       2018-01-24 15:02:10 +08:00
    1#头像 0.4114783704280853
    northisland
        4
    northisland  
       2018-01-24 15:05:49 +08:00
    Something is not right.
    Error:
    Internal Server Error
    The server encountered an internal error and was unable to complete your request. Either the server is overloaded or there is an error in the application.
    tghgffdgd
        5
    tghgffdgd  
       2018-01-24 15:08:56 +08:00   1
    这个时候是不是应该来个“已屏蔽”
    xwhxbg
        6
    xwhxbg  
    OP
       2018-01-24 15:09:06 +08:00
    @sennes 我去看看图:doge
    @f2f2f 0.4 说明不黄,不过 0.4 有点太高了
    @northisland URL 还是上传?
    xwhxbg
        7
    xwhxbg  
    OP
       2018-01-24 15:13:47 +08:00
    @tghgffdgd 不黄的我也要
    Weny
        8
    Weny  
       2018-01-24 15:13:51 +08:00 via iPhone
    当然是去草榴抓
    xwhxbg
        9
    xwhxbg  
    OP
       2018-01-24 15:17:52 +08:00
    @Weny 不黄的也要啊,两边都要才能训练
    我这 1 核 1G 的貌似快被搞挂了
    Willjim
        10
    Willjim  
       2018-01-24 15:38:52 +08:00 via Android
    楼主,放的几个健身男的图,似乎有 0.5?要不要加胡须识别?而且网站 icon 是守望?
    xwhxbg
        11
    xwhxbg  
    OP
       2018-01-24 15:46:54 +08:00
    @Willjim 其实 0.3-0.7 之前都属于 sexy 的范畴,实际运用的时候我把这些图标记黄图,但是需要人工审核,至于产品去不去审核那就......
    xwhxbg
        12
    xwhxbg  
    OP
       2018-01-24 15:47:30 +08:00
    @Willjim icon 是在 open favicon 下载的,理论上上面都是免费的,yes,是守望先锋
    Willjim
        13
    Willjim  
       2018-01-24 15:51:49 +08:00 via Android
    @xwhxbg 刚刚有张网上找的健身自拍图,高达 0.84而且 0.3-0.7 范围太广了吧,产品会审怕是难。
    taurenshaman
        14
    taurenshaman  
       2018-01-24 15:53:30 +08:00   5
    taurenshaman
        15
    taurenshaman  
       2018-01-24 15:54:51 +08:00
    呃,是 NSFW 值
    xwhxbg
        16
    xwhxbg  
    OP
       2018-01-24 16:11:59 +08:00
    @taurenshaman emmm 这个明显是 bug,不确定是不是因为我的素材里没有单纯的身体局部导致的
    xwhxbg
        17
    xwhxbg  
    OP
       2018-01-24 16:13:29 +08:00
    @Willjim 这就很可疑了,我的训练素材男性非常少,应该是个 bug
    onionnews
        18
    onionnews  
       2018-01-24 16:14:56 +08:00 via Android
    已经开始飙车了
    keithszc
        19
    keithszc  
       2018-01-24 16:16:24 +08:00
    可怕
    Weny
        20
    Weny  
       2018-01-24 16:20:06 +08:00 via iPhone
    @xwhxbg 楼主 开一个众审核通道 这么辣眼睛的图片 不能只能让你一个人打标签 hhhhh
    Weny
        21
    Weny  
       2018-01-24 16:20:43 +08:00 via iPhone
    @taurenshaman 真的怕
    kenshinhu
        22
    kenshinhu  
       2018-01-24 16:23:44 +08:00
    服务器好像不能访问了?
    gamexg
        23
    gamexg  
       2018-01-24 16:26:44 +08:00
    没填 url 就点了提交,然后就打不开了...
    xwhxbg
        24
    xwhxbg  
    OP
       2018-01-24 16:29:01 +08:00
    @Weny 1 核 1G 扛不住啊,跑这个已经占了一半内存了
    @kenshinhu 我这边恢复了,刚才触发了个 bug 导致进程 hang 住了
    @gamexg 现在应该好了
    skyrem
        25
    skyrem  
       2018-01-24 16:31:35 +08:00
    google 搜 GAY 然后贴上的基本都 NSFW
    zo
        26
    zo  
       2018-01-24 16:37:36 +08:00
    这就直接开车了。。。
    zst
        27
    zst  
       2018-01-24 16:39:52 +08:00 via Android
    其实我想说有些我自己都不知道算不算小黄图
    mcone
        28
    mcone  
       2018-01-24 16:42:17 +08:00
    啊 看到楼主头像我就想到你之前那个剑皇帖子了 果然还是你哈哈 随手找了几个关键词搜了十几张图丢了上去 感觉比我想象的好不少……哈哈
    话说这个结果不太像是用 3k 样本训练出来的。。。能大概透露下训练样本数和方法吗,直接用已训练好的模型,finetune 一下?难道是直接训练出来的吗(惊恐)
    不过有一些 NSFW 本身就涵盖过的图片类别在你这里反而结果有点奇怪 感觉你应该微调了啥……
    xwhxbg
        29
    xwhxbg  
    OP
       2018-01-24 16:52:01 +08:00
    @mcone 确实只有 3K,用的 nn.softmax,数据处理参考的 open-nsfw,它有个方法用来处理数据矩阵的,然而由于我数学渣渣,看不懂为啥要这么做,目前感觉可能是样本太少导致很多图的结果很奇怪,多人图,身体局部图都很奇怪
    kingcc
        30
    kingcc  
       2018-01-24 16:53:47 +08:00
    火钳刘明
    jarnanchen
        31
    jarnanchen  
       2018-01-24 17:07:56 +08:00
    给楼主 贡献了几张大胸肌肉男,NSFW 0.48 算不算黄啊
    Travers
        32
    Travers  
       2018-01-24 17:15:14 +08:00
    传了个 22600082070.jpg ,才 0.09 ,楼主可以看下
    Travers
        33
    Travers  
       2018-01-24 17:17:35 +08:00
    还有个 22600082078.jpg NSFW 0.078 问题比较大
    R18
        34
    R18  
       2018-01-24 17:17:37 +08:00 via Android
    老哥有源码了求艾特
    mcone
        35
    mcone  
       2018-01-24 17:24:50 +08:00
    @xwhxbg 完全自己训练的吗……那这个结果其实已经不错了 才 3k 数据量要啥自行车(哈哈哈哈) 不过通常 nn.softmax 用于多类 你的样本太少了 有空的话可以改 sigmod 试试看

    那个处理数据矩阵的方法我不太清楚,回头等你开源了我围观下吧,毕竟不是做黄图的对这块还真是不太了解……
    至于我上条回复提到的类别的是 athlete,可能你的训练样本里不够多,很多露肉运动员被搞成了黄图……但是我不确定直接加一些类似样本会不会有帮助,因为你数据太少了,加的多了反而可能对你模型有负效果……
    xwhxbg
        36
    xwhxbg  
    OP
       2018-01-24 17:34:24 +08:00
    @mcone Will do,现在主要是我没有理论支撑,单纯靠调参或者调方法可能不能达到一个可行的高度,而且 py 的性能问题也很突出,目前想要把训练好的模型用 golang 的 TensorFlow binding 来调用,不知道会不会有明显的区别

    athlete 这个问题其实蛮严重的,我看了下我收到的结果波动很大,有些 NSFW 被打的很高,有些很低,跟我预想的能节约 90%以上的人力成本差的很有点远,目前看来能节约 50%就不错了

    目前在看 https://www.coursera.org/learn/machine-learning 这个课程想要补一下入门知识,现在只恨时间太少,白天还要搬砖,搞完不知猴年马月了
    xwhxbg
        37
    xwhxbg  
    OP
       2018-01-24 17:35:05 +08:00
    @Travers 好的,我等下班了会把分类的图和标签都下下来分析一下的
    gh110827
        38
    gh110827  
       2018-01-24 17:36:53 +08:00
    楼主,我这有个接口,大概是 6000 多张图,都是煎蛋上的,你可已用来当素材训练
    https://ie34.com/api/jiandan
    AckywOw
        39
    AckywOw  
       2018-01-24 17:58:56 +08:00
    老司机带带偶
    owlsec
        40
    owlsec  
       2018-01-24 18:11:48 +08:00
    流弊
    Level5
        41
    Level5  
       2018-01-24 19:08:10 +08:00
    开源不? 作为遵从人本性出发,LZ 应该贡献源代码让我们反其道而行....
    imn1
        42
    imn1  
       2018-01-24 19:24:18 +08:00
    自己去找力武靖的图吧,不过我没有,收这些图有风险,也没这样的嗜好
    不是平凶的倒很多
    xwhxbg
        43
    xwhxbg  
    OP
       2018-01-24 19:48:00 +08:00
    @gh110827 试了下好像一次只能拿一个
    @Level5 还得整理一下代码,目前性能问题也很大,准备用 go 重构
    zonghua
        44
    zonghua  
       2018-01-24 20:09:47 +08:00 via iPhone
    @taurenshaman 地铁上我点开了这个图。。。z
    run2
        45
    run2  
       2018-01-24 20:10:20 +08:00
    @gh110827 #38 的煎蛋里的图 006rN2x6gy1fibr74qjnnj30ks0rr75r 这个 0.26040464639663696 emmmmmm
    AlisaDestiny
        46
    AlisaDestiny  
       2018-01-24 22:24:43 +08:00
    百度随便找了个图:
    http://g.hiphotos.baidu.com/image/pic/item/c8ea15ce36d3d539f09733493187e950342ab095.jpg

    NSFW
    0.21911317110061646
    SFW
    0.7808868288993835
    mingyun
        47
    mingyun  
       2018-01-25 00:03:32 +08:00
    @gh110827 这个可以
    wjm2038
        48
    wjm2038  
       2018-01-25 01:45:59 +08:00 via Android
    @gh110827 这借口只能返回一个结果么。。
    baskice
        49
    baskice  
       2018-01-25 06:20:13 +08:00
    感觉效果还可以,至少比新浪微博的判断准确率高
    glchaos
        50
    glchaos  
       2018-01-25 08:47:54 +08:00
    老衲差点圆寂在你们的回复中
    opengps
        51
    opengps  
       2018-01-25 09:14:21 +08:00
    题主收集 H 图的能力非常的可以
    cat9life
        52
    cat9life  
       2018-01-25 09:17:25 +08:00
    这空手套图术果然 6
    Felldeadbird
        53
    Felldeadbird  
       2018-01-25 09:21:32 +08:00
    @mingyun 哇~一大早上班就看到这个。我是 AI 估计受不了了。
    lingyv
        54
    lingyv  
       2018-01-25 09:29:10 +08:00
    不错,用的啥模型?
    xwhxbg
        55
    xwhxbg  
    OP
       2018-01-25 09:32:37 +08:00
    @baskice 不会吧,微博我用的少,不过按理说那么大的公司做出来肯定比个人做强很多
    @opengps 昨天看了一下大部分都是不 H 的图
    @lingyv nn.softmax
    xiaojunjor
        56
    xiaojunjor  
       2018-01-25 09:39:59 +08:00
    别关门,别关门,我上错车了。。我先下去
    gh110827
        57
    gh110827  
       2018-01-25 10:27:23 +08:00
    @xwhxbg 有 csv 文件
    链接: https://pan.baidu.com/s/1htdZjI8 密码: fiev
    lingyv
        58
    lingyv  
       2018-01-25 10:28:08 +08:00
    @xwhxbg 没用卷积?
    gh110827
        59
    gh110827  
       2018-01-25 10:29:22 +08:00
    我的那个接口是从数据库随机返回一个图片,准备做个应用,可以无限看图的,太懒还没写
    xwhxbg
        60
    xwhxbg  
    OP
       2018-01-25 11:23:30 +08:00
    @lingyv 据我了解 nn.softmax 应该只有一层
    lingyv
        61
    lingyv  
       2018-01-25 11:25:10 +08:00
    @xwhxbg 我是说没试过卷积模型吗?
    xwhxbg
        62
    xwhxbg  
    OP
       2018-01-25 11:26:09 +08:00
    @lingyv 没有。。。不会,还在入门阶段
    charexcalibur
        63
    charexcalibur  
       2018-01-25 11:27:58 +08:00
    我也要学机器学习!
    mikeven
        64
    mikeven  
       2018-01-25 11:46:23 +08:00 via iPhone
    reddit nsfw
    baskice
        65
    baskice  
       2018-01-25 14:58:46 +08:00
    @xwhxbg 首先运行检测有成本,再者这些大公司并不想真正杜绝 H 图,只是应付检查而已
    Zzde
        66
    Zzde  
       2018-01-25 21:36:20 +08:00
    试了几张 大部分都是 NFW
    Zzde
        67
    Zzde  
       2018-01-25 21:42:53 +08:00


    ???
    xwhxbg
        68
    xwhxbg  
    OP
       2018-01-26 09:13:52 +08:00
    @baskice 还有这种内幕。。。表示懵逼
    @Zzde 没露点的很少会被判断为 NSFW,大概。。。
    laodao1990
        69
    laodao1990  
       2018-01-29 20:44:36 +08:00 via iPhone
    教练,我想学开车
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2652 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 14:07 PVG 22:07 LAX 07:07 JFK 10:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86