我感觉中文 ai 出来的话,应该做的第一件事是语义识别 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技问题时复制粘贴 AI 生成的内容
leyle
V2EX    程序员

我感觉中文 ai 出来的话,应该做的第一件事是语义识别

  •  
  • leyle 2018-01-25 00:03:25 +08:00 5362 次点击
  • 这是一个创建于 2885 天前的主题,其中的信息可能已经有所发展或是发生改变。
    大环境如此,在这片土地上要么忍要么滚,但是呢,做的事又太糙了,都是瞎屏蔽,比如 **不离十。
    以后中文 ai 发展起来了,第一件事应该是让汉字回归汉字,就不会在这里打码了。。。
    29 条回复    2018-01-26 17:48:46 +08:00
    PythonAnswer
        1
    PythonAnswer  
       2018-01-25 00:10:46 +08:00 via Android
    拆字党火星文永远不怕
    cisisustring
        2
    cisisustring  
       2018-01-25 01:22:30 +08:00
    道理都懂,我们这一代不滚,下一代还会重复问自己要不要滚.
    WuwuGin
        3
    WuwuGin  
       2018-01-25 05:21:55 +08:00 via Android
    错别字近音字无所畏惧
    yearliny
        4
    yearliny  
       2018-01-25 05:24:32 +08:00 via Android   4
    @PythonAnswer 人能识别的,人工智能也能识别,火星文和拆字难道对机器学习没有办法吗?最大的问题在于,人可以创造新的组合方法,所以在一种新的拆字组合方法刚刚出现的时候,难以被屏蔽,但机器识别使得没有任何一种拆字组合方法成为主流,并且主流的鉴定标注的阈值会因机器学习的精准度不断降低。

    当一句话不能长时间大范围流行的时候,这就已经给它的传播带来了极大的难度,你不能要求别人想猜谜一样不断的理解你的意思。

    正如 Google 对验证码的理解一样,随着机器视觉识别的兴起,复杂的字符验证码只能增加人类识别的难度,对机器学习的 bot 越来越难以防范。同样的道理,当你想要通过拆字、组合、火星文等方法来传播 xx 信息的时候,你需要不断的增加歧义来混淆机器识别,但这同样会增加人类识别的难度。
    wweir
        5
    wweir  
       2018-01-25 07:19:50 +08:00 via Android   2
    @yearliny 这行文、排版的风格很是喜欢
    pkookp8
        6
    pkookp8  
       2018-01-25 07:47:48 +08:00 via Android
    验证码都没法攻克的 rob
    文字转图片加码就好了吧
    dd1982cn
        7
    dd1982cn  
       2018-01-25 08:08:11 +08:00 via iPhone
    就从多音字来说 ai 连 店长都念不对 怕是连从 0 到 1 都还没有 何谈发展啊 难道机器不学习这么基础的事情?
    sean10
        8
    sean10  
       2018-01-25 08:14:40 +08:00 via Android
    @dd1982cn NLU,词性标注可以做到识别多音字了吧。
    aksoft
        9
    aksoft  
       2018-01-25 08:32:48 +08:00
    在等 20 年
    dong3580
        10
    dong3580  
       2018-01-25 09:03:44 +08:00
    两种不同的语境,同样的一句话可以表达相反的意思,这就是中文的强大:
    例如:"你做的好事"
    purejs
        11
    purejs  
       2018-01-25 09:06:06 +08:00
    瞎 YY 些啥
    maskerTUI
        12
    maskerTUI  
       2018-01-25 09:22:45 +08:00   1
    领导:你这是什么意思?
    小明:没什么意思,意思意思。
    领导:你这就不够意思了。
    小明:小意思,小意思。
    领导:你这人真有意思。
    小明:其实也没有别的意思。
    领导:那我就不好意思了。
    小明:是我不好意思。

    提问:以上“意思”分别是什么意思?
    enenaaa
        13
    enenaaa  
       2018-01-25 09:55:56 +08:00
    说反了, 什么时候能准确识别语义了, 才会有强 AI。
    snakeyou
        14
    snakeyou  
       2018-01-25 13:01:53 +08:00
    @dong3580

    任何语言都有类似的情况。

    Shut up! 可以表示让对面闭嘴,也可以表示对对方所说事情的赞叹。
    He can ’ t help himself(你能从字面看出这句话的实际意思吗)他无法抗拒做某事=他非常想做某事

    日语有个万能词どうも,任何想跟人打个招呼(表示感谢 歉意 慰问等等等等)的情况下几乎都可以用。
    说实话日语里这种情况是在太多了,因为由于组词的存在,日语口语中可以省略的句子成分太多了。
    Mutoo
        15
    Mutoo  
       2018-01-25 13:24:06 +08:00
    什么时候 AI 能够聪明到遇到不懂的句子,问人:这什么意思。然后给它解译一番,AI 说:原来如此,我懂了。下次它再遇到类似的东西能举一反三。那就不怕什么拆字啊火星文之类的了。细思极恐。
    XinLake
        16
    XinLake  
       2018-01-25 13:47:06 +08:00
    Google 早就开始研究这事了,搜索引擎输入文字几乎就可以理解到用户的意思。此外还有图像识别。

    人机对话过程中出现的一些模棱两可、模糊的含义,机器当即就提出,人就换个准确一点的表述。电影《钢铁侠》也有类似的场景,钢铁侠的电脑不就是具备语言和视觉能力的超级 AI 电脑么。语言理解+图像 就像人的耳朵和眼睛,再加上 AI。

    不过 Google 还提出过一个东西,就是知识图,就是将人类知识数字化,变成机器可以理解可以维护的数据集。目前图像识别里,吧图像的特征提取出来的数据(可用改数据匹配到图像),可以理解为一种简易的机器掌握的(数字化的)知识吧。就像人脑从小孩开始就建立人脑知识库,不断的除错完善扩大,机器这么做也需要漫长的过程
    banksiae
        17
    banksiae  
       2018-01-25 14:36:46 +08:00
    噗噗,语义还早呢;
    现在应该将是领域语用,这个做好我认为在不久的将来能看到。但是语义层面的,还是要结合场景。“你找我有事”,我觉得计算机不太可能理解
    yearliny
        18
    yearliny  
       2018-01-25 14:55:27 +08:00
    @wweir 谢谢欣赏,因为自己经常阅读一些英文或英文翻译过来的书,时间一长用词和句式自然而然的变成了这样,之前还很懊恼这个问题,没想到还能有人喜欢。
    kaiser1992
        19
    kaiser1992  
       2018-01-25 14:58:37 +08:00
    难,以前都是基于统计学方法实现,理解效果不佳,现在用的深度学习有所提高,虽有提高但是也不行,你看看谷歌翻译出来的是什么玩意。
    chengzhoukun
        20
    chengzhoukun  
       2018-01-25 14:58:52 +08:00 via Android
    @PythonAnswer 火星文审查系统的论文都有了
    hsuan
        21
    hsuan  
       2018-01-25 15:01:01 +08:00 via Android
    滚才是正解,用了 ai 就可以安心的忍了吗?
    mougua
        22
    mougua  
       2018-01-25 17:09:39 +08:00
    用了 AI,屏蔽更精准,屁民更安心?
    likuku
        23
    likuku  
       2018-01-25 17:54:48 +08:00
    智能高精度图像(人物)识别,成熟度已经很高了...被用在了公共环境的视频监控里。
    Shura
        24
    Shura  
       2018-01-25 18:06:12 +08:00
    @PythonAnswer 图像识别可破,除非你把字拆解到人类都无法理解的程度。
    PythonAnswer
        25
    PythonAnswer  
       2018-01-25 18:50:07 +08:00 via Android
    汉字可以 竖着来,从右向左,又要浪费你很多 cpu
    mingyun
        26
    mingyun  
       2018-01-25 23:32:37 +08:00
    @maskerTUI 哈哈
    wizardforcel
        27
    wizardforcel  
       2018-01-26 08:23:50 +08:00 via Android   1
    最烦一群不是搞 nlp 的跟那儿瞎吹
    183387594
        28
    183387594  
       2018-01-26 10:56:20 +08:00
    八九不离十
    chenyu8674
        29
    chenyu8674  
       2018-01-26 17:48:46 +08:00
    中国乒乓球谁都赢不了
    中国足球谁都赢不了
    反正我觉得语义识别的核心问题根本不是语言本身
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4945 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 42ms UTC 09:05 PVG 17:05 LAX 01:05 JFK 04:05
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86