这里有人开头条号(今日头条)吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wangleineo
V2EX    问与答

这里有人开头条号(今日头条)吗?

  •  1
     
  •   wangleineo 2017-04-28 12:33:30 +08:00 6365 次点击
    这是一个创建于 3171 天前的主题,其中的信息可能已经有所发展或是发生改变。

    每次上传视频都会被系统提示说这个视频已经有重复,通知是上传 10 分钟以后才发出来,所以估计是逐帧比较对齐?

    有什么办法可以骗过这个自动重复检测系统?比如写个脚本随即改动像素数据...

    有经验的指导一下

    35 条回复    2017-05-02 16:28:46 +08:00
    gelilaohuang
        1
    gelilaohuang  
       2017-04-28 12:51:19 +08:00 via Android   1
    根据我做了半年的经验,没发现漏洞可寻…要么早点发要么自己加上各种字幕背景乐以及混合剪辑
    wangleineo
        2
    wangleineo  
    OP
       2017-04-28 12:53:09 +08:00
    @gelilaohuang 加上字幕就可以了嘛?大部分图像还是一样的,识别不出来?
    xy19009188
        3
    xy19009188  
       2017-04-28 12:54:37 +08:00 via Android   1
    加入片头啥的就行了,也可以加水印
    gelilaohuang
        4
    gelilaohuang  
       2017-04-28 12:59:04 +08:00 via Android
    @wangleineo 为保发出去的每一条都不会重复我会把原视频做很多改动,比如加上下黑边栏,或者部分不重要的剪掉或者加速,一般外国的比较多,所以就手动加上翻译…很久没搞了…折腾时间回报少
    lonelygo
        5
    lonelygo  
       2017-04-28 12:59:44 +08:00
    逐帧比较计算资源代价太大,抽帧可能性比较大,而且有可能前面抽帧多,后面抽帧少(前面如果相似度高,就没有必要往后了)所以,这个逻辑应该成立。
    加字幕,水印,片头,估计可破
    gelilaohuang
        6
    gelilaohuang  
       2017-04-28 13:05:38 +08:00 via Android
    @lonelygo let it be?
    ZE3kr
        7
    ZE3kr  
       2017-04-28 13:09:27 +08:00 via iPhone
    也许就是逐帧比较,YouTube 有类似的做法(但只是将所有的视频与部分版权视频比较): https://support.google.com/youtube/answer/2797370?hl=zh-Hans 降低分辨率后做的比较
    menc
        8
    menc  
       2017-04-28 13:13:38 +08:00   1
    别想了,我就是头条的,视频消重是机器学习算法做的,你这么搞没有用的。
    menc
        9
    menc  
       2017-04-28 13:16:46 +08:00   3
    给你几篇参考资料看一下:
    CNN 网络直接学习二进制特征
    Learning to Hash Paper, Code and Dataset: http://cs.nju.edu.cn/lwj/L2H.html
    Learning to Hash for Big Data: A Tutorial

    台湾中央研究院资讯科学研究所 Kevin (Ke-Yun) Lin 林可昀有多个开源项目:
    Kevin Lin, Jiwen Lu, Chu-Song Chen, Jie Zhou. Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks. CVPR, 2016.
    代码是基于 Caffe 的: https://github.com/kevinlin311tw/cvpr16-deepbit

    Huei-Fang Yang, Kevin Lin, Chu-Song Chen. Supervised Semantics-Preserving Hash via Deep Convolutional Neural Networks, TPAMI under revision.
    SSDH 代码是基于 Caffe 的: https://github.com/kevinlin311tw/Caffe-DeepBinaryCode

    K. Lin, H.-F. Yang, J.-H. Hsiao, C.-S. Chen. Deep Learning of Binary Hash Codes for Fast Image Retrieval. CVPR Workshop (CVPRW) on Deep Learning in Computer Vision, DeepVision 2015.
    代码是基于 Caffe 的: https://github.com/kevinlin311tw/caffe-cvprw15
    Slide: http://www.csie.ntu.edu.tw/~r01944012/deepworkshop-slide.pdf


    卷积层特征聚合为全局特征
    A Babenko, V Lempitsky. Aggregating Local Deep Features for Image Retrieval. ICCV 2015.
    特征简称为 sum-pooled convolutional features (SPoC descriptors)

    G. Tolias, R. Sicre, and H. Jegou. Particular object retrieval with integral max-pooling of CNN activations. ICLR 2016.
    特征简称为 R-MAC:Regional Maximum Activation of Convolutions
    Matlab/MEX 代码: http://cmp.felk.cvut.cz/~toliageo/soft.html

    Yannis Kalantidis, Clayton Mellina, Simon Osindero. Cross-dimensional Weighting for Aggregated Deep Convolutional Features. arxiv 2015.
    特征简称为 CroW
    代码为 Python: https://github.com/yahoo/crow
    在 Paris、Oxford 和 Holidays 三个小规模图片搜索数据集上,CroW 的 mAP ( mean Average Precision )均高于 SPoC 和 R-MAC 等算法。
    sadscv
        10
    sadscv  
       2017-04-28 13:20:36 +08:00
    哈哈顶楼上,顺便附上知乎关于 youtube 视频查重的问题讨论的链接
    https://www.zhihu.com/question/54131172
    wangleineo
        11
    wangleineo  
    OP
       2017-04-28 13:21:56 +08:00
    @menc 我就知道会有头条的在 V2。一个问题是我发的视频还是比较冷门的,在头条里面用各种关键字都找不到,你们是不是把站外的视频( youku 之类的)也索引了?

    另外机器学习也不是不能骗: http://www.popsci.com/byzantine-science-deceiving-artificial-intelligence
    menc
        12
    menc  
       2017-04-28 13:24:15 +08:00
    @sadscv UTB 的长视频很多,因此 UTB 对模型性能要求特别高,在精度和性能之间要做 trade off,实际上如果按照 paper 精做的话,黑框什么的是没发过版权系统的,好在头条短视频多,体量也不如 UTB 大,可以把模型做的比较精细
    menc
        13
    menc  
       2017-04-28 13:28:17 +08:00
    @wangleineo
    没有索引站外视频,但是有版权方打预防针说我们哪些视频是不允许上的,因此也可能涉及到版权问题。
    这篇 paper 当年非常火,基本是人人都知道的。然而实操性不强,因为用户是黑盒的,拿不到模型的信息。
    如果你真有能力 train 一个 anti model 来欺骗这个模型,何苦还需要在头条号发视频呢你说是么:-)
    wangleineo
        14
    wangleineo  
    OP
       2017-04-28 13:37:47 +08:00
    @menc 模型做那么精细,肯定会有不少 false positive 吧?(很怀疑我的视频就是)有统计过吗? 你们的策略是,宁可错杀三千,也不放过一个?
    wangleineo
        15
    wangleineo  
    OP
       2017-04-28 13:40:58 +08:00
    @menc 另外,好像头条的政策是是即使有重复,也可以发出来,只是系统不推荐了,是这样吗?还是说压根就没人看得见?
    menc
        16
    menc  
       2017-04-28 13:44:43 +08:00
    @wangleineo 有几种状态的,只有最被版权方重视的那些视频(热门电视剧什么的)会最苛刻处理。
    几种状态不知道能不能说,暂且不说了吧。
    menc
        17
    menc  
       2017-04-28 13:45:14 +08:00
    @wangleineo 我记得误杀可以提人工的
    wangleineo
        18
    wangleineo  
    OP
       2017-04-28 13:49:32 +08:00
    @menc 谢谢,我试试。
    WhiteT
        19
    WhiteT  
       2017-04-28 13:52:22 +08:00
    除了相似度非常高的,其他还是会人工 check 一遍,并不是『宁可错杀三千,也不放过一个』
    wangleineo
        20
    wangleineo  
    OP
       2017-04-28 13:58:47 +08:00
    @WhiteT 哦,这就好解释了,视频上有 Youku 的水印,明显不是原创,所以。。。

    不过即使被算法过滤过,每个可疑视频都人工过一遍这个工作量不小啊。真是做到极致,NB !
    bukip
        21
    bukip  
       2017-04-28 15:24:16 +08:00
    @menc 收藏了。

    那么我加个滤镜有用吗?
    menc
        22
    menc  
       2017-04-28 15:43:42 +08:00
    @wangleineo 因为漏了真版权视频会收到律师函的,所以都要人工过一遍:-)
    murmur
        23
    murmur  
       2017-04-28 15:54:01 +08:00
    别人发的视频,你在转到头条上。。。等于。。你也有责任吧?
    run2
        24
    run2  
       2017-04-28 16:43:25 +08:00
    所以说 lz 不厌其烦发盗版视频到头条到底是为了什么?
    wangleineo
        25
    wangleineo  
    OP
       2017-04-28 17:33:34 +08:00
    @sobigfish 并不是盗版,有版权的东西不碰。只是 UGC 的视频,你可以理解成转载
    http://www.toutiao.com/i6413504197278302722/
    run2
        26
    run2  
       2017-04-28 18:42:37 +08:00
    所以说大自然的搬运工?
    wangleineo
        27
    wangleineo  
    OP
       2017-04-28 19:09:03 +08:00
    @sobigfish 而且是二手搬运工
    murmur
        28
    murmur  
       2017-04-28 19:20:45 +08:00
    @wangleineo 所以用户上传的东西就没有版权了么?好正义凛然
    lonelygo
        29
    lonelygo  
       2017-04-29 10:37:39 +08:00
    @gelilaohuang 嗯?怎么?
    kidult
        30
    kidult  
       2017-04-29 11:35:04 +08:00
    这年头做垃圾搬运工也好有技术含量
    ShiHou
        31
    ShiHou  
       2017-04-29 11:36:57 +08:00
    @menc 这几篇是把 Conv 当特征提取器然后做 hash,都是基于单帧的,混弄起来很容易。 头条现在还没有引进时间序列相关的算法么
    wangleineo
        32
    wangleineo  
    OP
       2017-04-29 20:55:46 +08:00
    不是垃圾,我都是精选的吉他演奏视频。要承认信息的聚合、筛选也是有价值的。
    menc
        33
    menc  
       2017-05-02 10:53:48 +08:00
    @ShiHou
    concat 一下效果其实不错的,就是不太适合生产场景,有些冗余。
    视频的哈希和图片当然还是有区别的,也有一些额外的处理。
    ShiHou
        34
    ShiHou  
       2017-05-02 13:19:06 +08:00
    @menc 我试了一下. 这种方法很容易愚弄,可以加(基本)不影响视频质量的隐藏水印来避开查重。

    目前还是一个比较简单的雏形,我中旬赶完会议后,会把代码整理下放出来。
    menc
        35
    menc  
       2017-05-02 16:28:46 +08:00
    @ShiHou 期待,烦请在这个帖子下留言提醒一下,谢谢了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2468 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 07:11 PVG 15:11 LAX 23:11 JFK 02:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86