
1 Liu6 OP 我是萌新 !!! 求各位大佬 解答!!! |
2 Liu6 OP QAQ 么大佬解答吗? QAQ |
3 SeaRecluse 2019-10-10 09:08:15 +08:00 并没有看出哪里特征少,也不知道你是要做 NLP 的什么任务。情感分析?分类?自动回复? |
4 Liu6 OP 这里好像不能发图片 就是一列 iD 一列 评论 类似 商店评论 然后 在预测 |
5 e3kiq0 2019-10-10 09:18:46 +08:00 是不是应该有个具体点的预测目标? |
6 vsitebon 2019-10-10 09:23:07 +08:00 发图片的方法: t/408727?p=2 |
7 Liu6 OP @e3kiq0 一列 ID 一列 label一列 comment label 只有0或1 0 代表 comment 中的好评论 1反之 comment 全是中文评论 上面是训练集 对这个训练集 操作 然后对 test 集中的 comment 预测2000条评论 看是0 还是1 |
9 Liu6 OP 数据包含 2 个 csv 文件: train.csv:训练集,共 10000 条,使用 UTF-8 编码,comment 和 label 用 Tab 分隔。 字段名称 字段说明 comment comment 即用户评论 label label 是评论的类别,有 0 和 1 两个值 test.csv:测试集,共 2000 条,使用 UTF-8 编码。id 与 comment 用“,”分割。 字段名称 字段说明 id 行的唯一标示,提交时需要一一对应提交结果文件 comment comment 即用户评论 |
10 e3kiq0 2019-10-10 09:34:18 +08:00 直接用 comment 学习效果怎么样? |
11 Liu6 OP 比赛链接 www.datafountain.cn/competitions/370 发链接要手机验证 HTTP 我删了 |
12 duanxian1hao 2019-10-10 09:35:37 +08:00 萌新说一下自己的想法,对 comment 进行分析,提取基础的特征,比如说字数;对 comment 按照词粒度生成 embedding,将 comment 转为向量表示; |
13 e3kiq0 2019-10-10 09:39:58 +08:00 [email protected] 能不能分享一下数据?学习一下。感谢 。 |
14 Eleutherios 2019-10-10 09:52:27 +08:00 via iPad 等等……#11 的意思是,比赛题不会做了,请外援出出主意? It is unfair ( |
15 Liu6 OP @Eleutherios 不是 我做出来了 但是精度不高 想问下大佬们的 思路 只有 0.57 数据处理 我现在还在优化 |
16 lv2016 2019-10-10 10:15:32 +08:00 之前做过类似的文本情感分类,当时主要定义了一些负样本里常见的特征比如中英文混杂、特定词出现频率等 |
17 TimePPT PRO 这不就是典型的二分类问题么……题目已经很简单了 |
18 Liu6 OP @TimePPT en 是的 我用的 svm 但是 我数据处理的不是很好 精度不高 主要是 一列是中文 加特征 或者 其他方法 我不知道 怎么选择 萌新 没什么经验 面对中文 应该怎么办 |
19 TimePPT PRO @Liu6 算力足够试试 RoBERTa 中文预训练模型? https://www.jiqizhixin.com/articles/2019-09-05-6 |
21 misaki321 2019-0-10 10:49:16 +08:00 svm 已经不适合这类题目了 用词向量+神经网络 |
22 Liu6 OP @misaki321 神经网络一开始有考虑 但是 我 个人觉得 最根本的原因是 数据处理的不好 我把中文 进行了 label 编码 了 我觉得这个是主要原因 我就一直不知道 中文 应该怎么处理 |
23 xwhxbg 2019-10-10 15:46:57 +08:00 bert 中文,把最后一层替换输出就行了,既不用分词也不用手动词向量,更不用手工提取特征 |
24 xwhxbg 2019-10-10 16:50:07 +08:00 首先震惊于这个比赛奖励居然是 100w,其次发现这是个训练赛,不知所以。。。 我用 bert 随便跑了一个 epoch,validation acc 0.91 看排行榜基本能进前 50 了。。。 https://colab.research.google.com/drive/1j9cBSsitjm2igaj50u9pwtu56XY3uBYg |