各位 大佬们 关于机器学习 数据集中特征少 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Liu6
V2EX    问与答

各位 大佬们 关于机器学习 数据集中特征少

  •  1
     
  •   Liu6 2019-10-10 08:47:21 +08:00 2793 次点击
    这是一个创建于 2261 天前的主题,其中的信息可能已经有所发展或是发生改变。
    数据集中 只有一列 id 和 comment 然后 comment 全是中文 这个怎么进行处理??? 加特征吗 ? 那应该加什么特征呢???? 第一次接触文本数据集
    25 条回复    2019-10-10 16:57:19 +08:00
    Liu6
        1
    Liu6  
    OP
       2019-10-10 08:48:39 +08:00
    我是萌新 !!! 求各位大佬 解答!!!
    Liu6
        2
    Liu6  
    OP
       2019-10-10 09:01:55 +08:00
    QAQ 么大佬解答吗? QAQ
    SeaRecluse
        3
    SeaRecluse  
       2019-10-10 09:08:15 +08:00   1
    并没有看出哪里特征少,也不知道你是要做 NLP 的什么任务。情感分析?分类?自动回复?
    Liu6
        4
    Liu6  
    OP
       2019-10-10 09:12:51 +08:00
    这里好像不能发图片 就是一列 iD   一列 评论  类似 商店评论  然后 在预测
    e3kiq0
        5
    e3kiq0  
       2019-10-10 09:18:46 +08:00
    是不是应该有个具体点的预测目标?
    vsitebon
        6
    vsitebon  
       2019-10-10 09:23:07 +08:00
    发图片的方法: t/408727?p=2
    Liu6
        7
    Liu6  
    OP
       2019-10-10 09:23:15 +08:00
    @e3kiq0 一列  ID  一列 label一列  comment    label  只有0或1  0 代表 comment 中的好评论 1反之    comment  全是中文评论 上面是训练集   对这个训练集 操作  然后对 test 集中的 comment 预测2000条评论 看是0 还是1
    Liu6
        8
    Liu6  
    OP
       2019-10-10 09:31:04 +08:00
    @vsitebon 看了 但是 还是云里雾里的 不会 QAQ 不知道怎么把电脑上的 图片 上传
    Liu6
        9
    Liu6  
    OP
       2019-10-10 09:32:04 +08:00
    数据包含 2 个 csv 文件:

    train.csv:训练集,共 10000 条,使用 UTF-8 编码,comment 和 label 用 Tab 分隔。

    字段名称 字段说明
    comment comment 即用户评论
    label label 是评论的类别,有 0 和 1 两个值
    test.csv:测试集,共 2000 条,使用 UTF-8 编码。id 与 comment 用“,”分割。

    字段名称 字段说明
    id 行的唯一标示,提交时需要一一对应提交结果文件
    comment comment 即用户评论
    e3kiq0
        10
    e3kiq0  
       2019-10-10 09:34:18 +08:00
    直接用 comment 学习效果怎么样?
    Liu6
        11
    Liu6  
    OP
       2019-10-10 09:34:52 +08:00
    比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了
    duanxian1hao
        12
    duanxian1hao  
       2019-10-10 09:35:37 +08:00
    萌新说一下自己的想法,对 comment 进行分析,提取基础的特征,比如说字数;对 comment 按照词粒度生成 embedding,将 comment 转为向量表示;
    e3kiq0
        13
    e3kiq0  
       2019-10-10 09:39:58 +08:00
    [email protected] 能不能分享一下数据?学习一下。感谢 。
    Eleutherios
        14
    Eleutherios  
       2019-10-10 09:52:27 +08:00 via iPad   1
    等等……#11 的意思是,比赛题不会做了,请外援出出主意?

    It is unfair (
    Liu6
        15
    Liu6  
    OP
       2019-10-10 10:06:54 +08:00
    @Eleutherios 不是 我做出来了 但是精度不高 想问下大佬们的 思路 只有 0.57 数据处理 我现在还在优化
    lv2016
        16
    lv2016  
       2019-10-10 10:15:32 +08:00
    之前做过类似的文本情感分类,当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等
    TimePPT
        17
    TimePPT  
    PRO
       2019-10-10 10:22:57 +08:00
    这不就是典型的二分类问题么……题目已经很简单了
    Liu6
        18
    Liu6  
    OP
       2019-10-10 10:39:36 +08:00
    @TimePPT en 是的 我用的 svm 但是 我数据处理的不是很好 精度不高 主要是 一列是中文 加特征 或者 其他方法 我不知道 怎么选择 萌新 没什么经验 面对中文 应该怎么办
    TimePPT
        19
    TimePPT  
    PRO
       2019-10-10 10:43:58 +08:00   2
    @Liu6 算力足够试试 RoBERTa 中文预训练模型? https://www.jiqizhixin.com/articles/2019-09-05-6
    Liu6
        20
    Liu6  
    OP
       2019-10-10 10:47:30 +08:00
    @TimePPT 感谢! 我去瞅瞅
    misaki321
        21
    misaki321  
       2019-0-10 10:49:16 +08:00
    svm 已经不适合这类题目了
    用词向量+神经网络
    Liu6
        22
    Liu6  
    OP
       2019-10-10 11:11:36 +08:00
    @misaki321 神经网络一开始有考虑 但是 我 个人觉得 最根本的原因是 数据处理的不好 我把中文 进行了 label 编码 了 我觉得这个是主要原因 我就一直不知道 中文 应该怎么处理
    xwhxbg
        23
    xwhxbg  
       2019-10-10 15:46:57 +08:00
    bert 中文,把最后一层替换输出就行了,既不用分词也不用手动词向量,更不用手工提取特征
    xwhxbg
        24
    xwhxbg  
       2019-10-10 16:50:07 +08:00
    首先震惊于这个比赛奖励居然是 100w,其次发现这是个训练赛,不知所以。。。
    我用 bert 随便跑了一个 epoch,validation acc 0.91 看排行榜基本能进前 50 了。。。
    https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg
    Liu6
        25
    Liu6  
    OP
       2019-10-10 16:57:19 +08:00
    @xwhxbg 我没有接触过 Bert 今天下午 也看了一下 Bert 但是 有点懵!!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3309 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 04:51 PVG 12:51 LAX 20:51 JFK 23:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86