再次优化了一下我们的 NLP 规则 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
quu
V2EX    云计算

再次优化了一下我们的 NLP 规则

  •  
  •   quu 2018 年 4 月 11 日 9357 次点击
    这是一个创建于 2859 天前的主题,其中的信息可能已经有所发展或是发生改变。

    搞个 demo 很容易实现,打磨这个事儿就是个长期的事情了,折腾了好长一段时间,正式将 NLP 迁移到我们的文智平台,后端还在开发的 to do list 里,人手吃紧要干的事儿有点多。

    还是先来个尝鲜吧。

    http://txtai.com/product/nlp.shtml

    自然语言处理围绕情感分析的场景,目前还是适用于标准的新闻内容,以及文档内容的情感识别,口语化识别可能还是一个超级漫长的过程。

    欢迎大家帮忙提提建议,这套业务已经集成到我们的舆情监控业务里,对这方面应用,或者对舆情产品感兴趣的可以联系我,我发 0.1 折体验卷。

    61 条回复    2018-04-22 20:15:25 +08:00
    tailf
        1
    tailf  
       2018 年 4 月 11 日   2
    NLP:你老婆?
    164607638
        2
    164607638  
       2018 年 4 月 11 日
    我觉得啊,这个项目小看了中华文化尤其是汉语的魅力
    ryV60s
        3
    ryV60s  
       2018 年 4 月 11 日
    比如:"草泥马,哈哈"
    正面 57%
    负面 42%
    -.-
    zhangzhang
        4
    zhangzhang  
       2018 年 4 月 11 日
    「你说的真对,嘻嘻」
    正面 77.24%
    负面 22.76%
    timwei
        5
    timwei  
       2018 年 4 月 11 日   1
    "我今天是作为一个长者来跟你们讲的"
    正面 83%
    负面 17%

    8-)
    LadyChunsKite
        6
    LadyChunsKite  
       2018 年 4 月 11 日
    “无 fuck 说”

    正面:89.6%
    负面:10.4%
    murmur
        7
    murmur  
       2018 年 4 月 11 日   2
    以前做舆情项目
    现在认为中文情感分析就是做梦
    以中文的博大精深
    以及资深网民多年对抗关键字过滤的经历
    绝大多数人都可以笑嘻嘻的骂你 mmp
    takato
        8
    takato  
       2018 年 4 月 11 日
    压缩的维度太小了。。。。实在不是 NLP 的正确用法。。
    cosmic
        9
    cosmic  
       2018 年 4 月 11 日   2
    华为手机电池用得太快了
    结果:0%负面,100%正面
    私以为这样的结果,用来做口碑监控,怕不是要把一些公司坑死。
    只用情感词典的话,要做的规则太多了,建议增加语料库,电商网站的评论多标注,用 CNN 或者 LSTM 训练
    fanhaipeng0403
        10
    fanhaipeng0403  
       2018 年 4 月 11 日
    呵呵



    正面 100%
    ucaime
        11
    ucaime  
       2018 年 4 月 11 日
    http://nlp.qq.com/
    腾讯的也叫文智,有什么关系吗?
    rammiah
        12
    rammiah  
       2018 年 4 月 11 日
    水不在深,亦可赛艇
    正面:97.74%
    exciting ?
    wy315700
        13
    wy315700  
       2018 年 4 月 11 日
    怎么联系楼主
    Devilker
        14
    Devilker  
       2018 年 4 月 11 日
    还是太年轻
    正面:92.8
    负面:7.2
    lanyi96
        15
    lanyi96  
       2018 年 4 月 11 日
    我是你爸爸
    正面:100
    Greatshu
        16
    Greatshu  
       2018 年 4 月 11 日   7
    qiyuey
        17
    qiyuey  
       2018 年 4 月 11 日
    你们还是要学习一个闷声发大财
    正面:79.36
    负面:20.64
    reeonce
        18
    reeonce  
       2018 年 4 月 11 日
    特朗普
    正面: 50%
    负面: 50%
    weizhen199
        19
    weizhen199  
       2018 年 4 月 11 日
    呵呵
    正面: 100%
    负面: 0%
    ThirdFlame
        20
    ThirdFlame  
       2018 年 4 月 11 日
    我去你妹,妹家
    正面:80.87%
    反面:19.13%
    gitopen
        21
    gitopen  
       2018 年 4 月 11 日
    今天天气真好啊。我心情真不爽。
    。。判断 100%正面。。。这准确率。。。。
    chemzqm
        22
    chemzqm  
       2018 年 4 月 11 日   1
    百度
    正面:0%
    反面:100%

    我很满意
    leemove
        23
    leemove  
       2018 年 4 月 11 日
    @chemzqm 老奶奶我都不服,我就服你...
    Kilerd
        24
    Kilerd  
       2018 年 4 月 11 日
    我给你买几个橘子回来

    正面 83%
    hanbing135
        25
    hanbing135  
       2018 年 4 月 11 日 via Android
    感觉 nlp 根本解决中文这个问题
    casparchen
        26
    casparchen  
       2018 年 4 月 11 日   1
    老婆和隔壁老王经常来往
    正面: 58.16%
    overflowHidden
        27
    overflowHidden  
       2018 年 4 月 11 日
    你妈做的红烧肉棒极了
    正面 35%
    负面 65%
    BingoXuan
        28
    BingoXuan  
       2018 年 4 月 11 日 via Android
    “我们一起去吃鸡吧”,正面 80%左右,果然中文博大精深
    keenwon
        29
    keenwon  
       2018 年 4 月 11 日
    9 折就是 * 0.9
    0.1 折就是 * 0.01
    这样理解对吧?
    locktionc
        30
    locktionc  
       2018 年 4 月 11 日
    食屎啦你
    正面 100%
    负面 0%
    guokeke
        31
    guokeke  
       2018 年 4 月 11 日
    "你老婆就是我老婆"
    正: 97.45%
    负: 2.55%
    guokeke
        32
    guokeke  
       2018 年 4 月 11 日
    http://www.chayuqing.com/about/us.shtml
    这个页面好像报错了
    diggerdu
        33
    diggerdu  
       2018 年 4 月 11 日
    "板马养的"
    正: 100%
    yankebupt
        34
    yankebupt  
       2018 年 4 月 11 日
    大概试了一下,这个很可能是直播网站里用专门被人工标记为活跃喷子用户和导致被禁言的弹幕为数据训练的。
    带有"开挂"字样的弹幕大多识别为正面居多,但是"五五开挂"四字成型语可准确识别为负面 100%,
    显然经过针对采样。
    感觉这类技术不怕不准确,就怕有针对性的学习管理者的癖好然后不断演化,成为管理方选择性呈现舆情的帮凶和对于徇私而屏蔽特定舆情时推卸责任的替罪羊。
    即使发展不到那个地步,想到直播平台点开每个人的时候都有个此人弹幕平均健康度之类的指标列在上面就挺过分的。
    如果这个正负面数据泄露了,成为你的广告提供商个性化推送什么广告时的参考依据,辅以你的弹幕关键字,甚至成为一种隐藏的个人评级,是不是更过分。
    Xs0ul
        35
    Xs0ul  
       2018 年 4 月 11 日
    感觉上,按百分比显示不太合理?平平淡淡没什么情感的也是 50-50,有喷有赞的也是 50-50
    roychan
        36
    roychan  
       2018 年 4 月 11 日
    阿猫阿狗都 NLP 了。可以请你们给你们的网站加上 SSL 吗?
    wdlth
        37
    wdlth  
       2018 年 4 月 11 日
    有钱是可以为所欲为的

    正面:31%
    负面:69%
    yankebupt
        38
    yankebupt  
       2018 年 4 月 11 日
    感觉也可以面向个人,上传个人历史弹幕数据或历史帖子,给出评分,让个人对自己在平台上 NLP 机器人给的隐藏分大概什么样有个了解....
    aheadlead
        39
    aheadlead  
       2018 年 4 月 12 日
    搞个大新闻!

    正面:81%
    负面:19%
    Antidictator
        40
    Antidictator  
       2018 年 4 月 12 日
    打扰了

    正面:54.75%
    duowb
        41
    duowb  
       2018 年 4 月 12 日
    澳门荷官在线发牌

    正面:100% (#^.^#)
    cluulzz
        42
    cluulzz  
       2018 年 4 月 12 日
    "蛤蛤蛤蛤蛤蛤蛤"

    正面:50%
    负面:50%
    LeoNG
        43
    LeoNG  
       2018 年 4 月 12 日
    你好棒棒哦

    正面:100%
    quu
        44
    quu  
    OP
       2018 年 4 月 12 日
    @zhangzhang 希望能看一下前提条件哈 [目前还是适用于标准的新闻内容] ,中文太伟大,很多语义换个环境就不是原有的意思了,让机器去理解这些实在太难完成。
    quu
        45
    quu  
    OP
       2018 年 4 月 12 日
    @cosmic 感谢建议,已打赏,这块其实已经加了一些行业语料库了,但是体积确实不够大。
    我看了一下历史内容,你的这条确实要深度优化。
    quu
        46
    quu  
    OP
       2018 年 4 月 12 日
    @ucaime 没有关系,文本智能化 = 文智
    quu
        47
    quu  
    OP
       2018 年 4 月 12 日
    @roychan 作为一个安全背景出身的团队,我想问一下,SSL 到底解决了什么问题?在我们这个场景应用又可以帮助我们解决了什么?是否有直接性影响?
    pmispig
        48
    pmispig  
       2018 年 4 月 12 日
    作为一个安全背景出身的团队,居然还能问,SSL 到底解决了什么问题....?
    看来你是个小白吧,我只说一点,网站内容劫持。
    zhangsen1992
        49
    zhangsen1992  
       2018 年 4 月 12 日
    samples:呵呵
    你妈逼你结婚了吗
    去你大爷家给你大爷祝寿
    fiht
        50
    fiht  
       2018 年 4 月 12 日
    base64: 5Lmg5YyF5a2Q5oiQ55qH5bid5ZKv
    正面:98%
    base64: 5Lmg5YyF5a2Q6KaB5YGa55qH5bid5LqG
    正面:57%
    Greenm
        51
    Greenm  
       2018 年 4 月 12 日   1
    有注册功能涉及用户资料不上 https,还能大言不惭的问 SSL 到底解决了什么问题。

    现在是不是安全背景门槛这么低了?使用过漏扫是不是也算有安全背景的团队?
    xiongshengyao
        52
    xiongshengyao  
       2018 年 4 月 12 日
    天冷了,我妈逼我穿秋裤
    负面: 80.84%
    正面: 19.16%

    这个很负面吗?明明就是中性吧
    CloudnuY
        53
    CloudnuY  
       2018 年 4 月 12 日
    xiangyuecn
        54
    xiangyuecn  
       2018 年 4 月 12 日
    shiny
        56
    shiny  
    PRO
       2018 年 4 月 12 日
    都 2018 年了还在问 SSL 到底解决了什么问题
    BoiledEgg
        57
    BoiledEgg  
       2018 年 4 月 12 日
    全楼看下来,这广告效果很好,哈哈哈哈哈
    cnallenzhao
        58
    cnallenzhao  
       2018 年 4 月 12 日
    小米手机太卡了,别买
    正面 63%
    ?
    roychan
        59
    roychan  
       2018 年 4 月 13 日
    @quu

    SSL 解决的问题只需要用搜索引擎搜索一下就可以,有人可以比我说得更加清楚。SSL 对于 NLP 本身当然没什么用,但是既然用户需要使用浏览器和 HTTP 协议去使用你发出来的这个 demo,那么我认为加上 SSL 是有必要的。抛开“保护用户”不谈,首先也是保护你们自己。:)

    It's 2018.
    quu
        60
    quu  
    OP
       2018 年 4 月 14 日
    先感谢,各位基于标准“新闻”下帮忙找误报问题的朋友,NLP 这东西要持续打磨,这些问题永远解决不完,所以我们后续会考虑把接口放开,找志同道合的朋友来一起完善。

    对于一些没看清前置条件,就开始用“口语话”、“网络语”、“谐音错别字”来刻意找问题的朋友,我只能用“调皮”来形容,NLP 想要理解这些东西,三五年都搞不定,中文太复杂了,目前没有看到任何一个对这种复杂语境,处理的很得心应手的,我们只能尽量完善自己,持续打磨。

    对于某些学了点狗屁基础的,就拿着眼界里的理解来看待业务张嘴乱喷的,我想用“心理畸形”来形容,不是所有的东西都是绝对的,尤其是安全这件事儿上,以为引用了什么就会怎样,怎样,只是知道如果不做这些也许会导致出现某个结果,先别急着喷,闷头问问自己你真的会利用吗?

    那再问问自己,是不是真的用了就万事大吉了吗?

    如果还想张嘴闭嘴“不了解点背景就用个过来人身份调侃和口出狂言”,我不和你争,你是对的!

    安全无绝对,过度的依赖所谓的经验和标准,就是最大的问题。

    有没有用?

    有点用!
    chendeshen
        61
    chendeshen  
       2018 年 4 月 22 日
    能有 rest api 接入吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2020 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 13:19 PVG 21:19 LAX 05:19 JFK 08:19
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86