爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答

爬虫每天传一次到 hdfs 能用 flume 吗?已经配好了 flume 为了论文多点内容也想尽量用上 但发现 flume 好像设滚动的话会一直产生新文件 设滚动时间长在时间到之前好像又是一直是 tmp 状态 有办法可以使 csv 文件每天通过 flume 传一次到 hdfs 吗?还是只能设置定时任务到时间 put 一次呢?感谢解答
1 xcc880 Apr 5, 2021 尝试下 HDFS Sink 参数 hdfs.idleTimeout, 即文件多少时间内没更新就会 close. |
2 chennuo Apr 6, 2021 面向 JY coding 么 |
3 wpf375516041 Apr 6, 2021 所以你论文里面怎么写,跟 flume 能不能有什么关系,你说改了源码不是更好 |