Spark

求助广大网友

2023-05-26T09:53:23Z

get_json_object(regexp_replace(regexp_replace(regexp_replace(split(regexp_replace(content, "\":\"", "\"::\""), "::")(1), "\{"", "{"), ""\}", "}"), "\\", ""), "$.score")

有大佬知道如何转义为 spark sql 的格式？

真的深入了解开源项目是动手实现--《Spark Core 精简版》

2022-08-13T06:46:43Z

看了许利杰老师的这本书，老师在理论层面讲的比较清楚了，读起来也容易理解，但看完但总是感觉还差点什么。于是动手起了个项目，定了个小目标：实现 RDD 的逻辑。

目前 RDD 的 MVP 已经完成，最大的收获是彻底理解了几个费解的问题：

1 ，Stage 的切分原理，为什么要这么做

2 ，Shuffle 是如何实现的，write/read 是如何衔接

3 ，Partition 为何如此的重要

有兴趣的同学一起 github 交个朋友吧，项目地址 https://github.com/changzhiwin/spark-core-analysis ，特点：

1 ，聚焦在 RDD 层面（这是 Spark 的根本）

2 ，入门明确，代码量小（保留逻辑），容易上手运行（运行起来，理解代码就容易了）

求助几个 Spark 问题

2022-06-29T04:14:14Z

Q1: Someone handed you this dataset (~1GB), and you discovered that it’s over 1,000 tiny files. var df = spark.read.format("orc").load(clean_tracker_cstt_path) ○ Using Spark, please show how you can improve storage efficiency, and explain why this is important. ○ After improving storage efficiency, please explain impact on loading and using dataset in Spark.

Q2: Given the schema below, use Spark 2.x Dataframe API to give count of events per day for the last 7 days.

root |-- action_id: integer (nullable = true) |-- receive_time: timestamp (nullable = true) |-- uuid: string (nullable = true)

Q3: You have calculated the Daily Event Count above using Spark API. Now please find the Min, Max, Mean, and Standard Deviation of Daily Count by using Scala. Only built-in Scala functions may be used. Please format the answer with 2 decimal places, e.g. “The Average Daily Count from Last 7 Days is x.xx”.

spark 做内容推荐，希望大佬给一些思路上的指导

2022-03-02T10:21:56Z

公司准备做一个推荐功能，从文章库中根据用户阅读记录推荐相关的文章。这个文章库保存了所有子公司的文章，更新频率比较高，所以没有使用计算两两相似度的方式。

目前使用 spark 做 demo 实现如下：

1. submit 应用时传递用户 id

2. 将该用户的最后阅读的 5 篇文章合并为一条长内容

3. 获取最新的 500 篇文章

4. 用长内容与最新的 500 条生成一个 DateFrame 做余弦相似度计算，得到最相似的 topN

5. 定时或者实时触发 submit

虽然能跑，但是总感觉哪里不对。同时对如何实现批量为户计算推荐内容也没有好思路，难道传用户 id 数组然后是循环跑上述流程吗

有没有不错的 SparkStreaming+Kafka 的开源项目可以用来入门和进阶？

2021-12-29T09:12:52Z

最好能直接对标企业开发需求不是纯算子使用框架搭建的那种

Spark 解析复杂 xml，数据如何映射到多表中

2021-09-01T09:29:51Z

需求：利用 Spark 解析 xml 文件，xml 结构最大深度有 8 层，数据有复杂的关联关系，处理后会插入到 20 多张表中。由于使用工具解析后的 DataFrame 结构过长，简单截取了一部分如下：

目前没有好的思路，就是获取每一列元素依次遍历提取出所有需要的元素，但是想到要遍历 8 层眼泪都要流下来了：

// 层层对象遍历 val identifiers = row.get(0).asInstanceOf[Row].get(0).asInstanceOf[Row].get(0).asInstanceOf[Row].get(0) // 解析数组 println(identifiers.asInstanceOf[mutable.WrappedArray[AnyRef]](0))

就以图示中的结构来说，数据不算复杂，但是完整的结构实在是令人神伤，贴了图恐怕会占据整个页面。另外最终要插入的 20 多张表中十几张是关联表。初次使用 Spark 处理数据，求大家给点意见和思路，万分感谢！

spark 大数据离线分析爬虫存到 csv 有的列是长度不固定的 list 请问应该怎么存到 hive？直接存 list 吗？该怎么分析呢？

2021-04-08T13:50:59Z

完全没有头绪另目前自己定的流程是爬虫-》 hdfs-》通过 scala 预处理后存 hive-》 scala 分析-》 mysql-》可视化请问这个流程有什么问题吗？看其他项目处理的数据都没有 list 我是因为那列有的是空有的有三四个数据然后就直接存的 list 该怎么处理呢？我也没能查到其他人有类似的处理流程。。。

PayPal 招资深大数据工程师啦 - 技术栈： Spark, Scala, Java , Python 等

2020-10-27T06:27:12Z

加入 PayPal 是什么样的体验？

• 轻松愉快的工作氛围，众多优秀以及 nice 的小伙伴 • 超长的假期 —— 每年 15 天年假起，每工作满 1 年加一天（最多 20 天）；除此以外，工作满 5 年还将获得额外的 4 周带薪假期！以及 15 天带薪病假等等等。 • 包容、多元以及国际化的公司文化 • 市值 2000 亿美元，全民持股，股票激励，薪酬不输 996 公司的“福报”。work-life balance，生活不应只有加班。

PayPal 的大数据组会做什么？

At PayPal Global Data Science(GDS) team, we develop machine learning platform and AI applications to improve PayPal’s global business. Machine learning and AI is one of the core competitive advantage of PayPal, which significantly reduced payment risk loss, brought million dollars’ revenue and expanded to multiple domains rapidly. As an engineer in GDS, you will work closely with analytical team, understand the requirement with cutting-edge algorithm, contribute to the core platform, make the research work to a real product. We are looking for strong technologists who are passionate to solve machine learning problems and able to continuously deliver AI solutions in scalable way.

这个职位的要求是什么？

Qualifications • BS, MS, or PhD in Computer Science or related technical discipline (or equivalent). • 8+ years’ work experience in software development area with at least 5+ years’ experience in Java programming. • Excellent understanding of computer science fundamentals, data structures, and algorithms. • Excellent problem solving skills, can triage and resolve critical tech issues without supervision. • Expertise required in object-oriented design methodology and application development in Java. • Experience in big data technology such as Hadoop/Spark/Pig/HBASE/Streaming • Mastering at least one scripting language such as Unix Shell/Python/Perl/JS • Hands on web application development skill (HTML5/CSS/JS) is a very big plus • Knowledge on Machine Learning application pipeline is a very big plus • Proven results oriented person with a delivery focus in a high velocity, high quality environment. • Strong communication skills in Oral and Written English. • Working Experience in Multi-national Company is a plus. • Geek style is a big plus.

还有附加！！！！！！！！：

如果有兴趣的小伙伴，同时又有点担心年终奖的损失的话。不用担心！基于面试情况，PayPal 会考虑给予额外奖金或者 Sign-On Bonus 之类减少你的年终奖损失，让你在年底既能轻松搞定新的 Exciting 的工作机会，又能即时得到一些补偿，何乐不为呢？

关于 Spark Task 的疑问

2020-08-04T13:12:30Z

关于上面那个图，ShuffleMapStage 中，有三个 RDD，每个 RDD 有三个分区我看网上文章都是说一个分区对应一个 task，

1.上面那个 ShuffleMapStage 中阶段里是否存在 9 个 Task 。

2.但站在 pipeline 角度上看，应该只有三个 task，每个 RDD 的一个分区组合成一个 task 。

上面两种说法，哪种是正确的呢，被搞糊涂了。谢谢！

有没有在滴滴或者其他网约车公司的同学，请教一个数据量的问题

2020-05-29T13:10:52Z

一台车子如果早上 9 点开始接单 10 个小时会产生多少数据量呢，这些数据量分别都包含什么信息，谢谢解答！

spark 作业求助，剔除空值大于三的行

2020-05-22T08:30:10Z

将缺失值大于 n （ n=3 ）个的数据条目剔除出原始数据集，并输出剔除的条目数量；

有没有大佬能说下 scala 的写法,rdd 处理完多行会挤在一起了，dataframe 写了又不太对

spark 有用 kotlin 写代码的吗？

2020-04-28T07:19:29Z

看了官方好像支持 scala，不支持 kotlin，不知道用 kotlin 方不方便， scala 没学过。

现在写 spark 程序，都是用 scala 吗

2020-04-20T09:25:25Z

spark，kotlin 不被官方支持吗，kotlin 好学， scala 感觉入门不易。

spark 核心构件之 Dependency 宽窄依赖

2019-03-23T04:34:22Z

https://mp.weixin.qq.com/s/QmceOaI7aP1YAmyec-IpmA
spark 作者的抽象能力和架构能力真牛 B

spark 内存管理的实现

2019-01-29T13:04:23Z

https://mp.weixin.qq.com/s/4TqxXO0D8svoZTwBSKfqEQ

spark 源码研究

2019-01-28T11:55:28Z

我建了个公众号专门研究 spark 源码的欢迎大家关注大家可以试读一下 https://mp.weixin.qq.com/s/rjrpRZWj2pyscPHOMF1QCQ

spark straming。submit Python 脚本报错。

2017-11-24T03:11:55Z

spark 2.2.0 默认安装，啥都没动 python 2.7.9 ipython 5.4.1 运行 network_wordcount 例子。跑 scala 脚本成功，但是运行 python 的例子，直接报错： Job aborted due to stage failure: Task 0 in stage 2.0 failed 1 times, most recent failure: Lost task 0.0 in stage 2.0 (TID 1, localhost, executor driver): java.lang.IllegalArgumentException: port out of range:459092027

自己去谷歌了一下，这个 bug 被提交过： https://issues.apache.org/jira/browse/SPARK-7688

但是被认为不是 bug,直接关掉了怎么解决的没说。有达人知道怎么搞么？

CPython， PyPy 和 Scala 在 Spark 平台上的性能对比

2017-02-28T22:18:40Z

http://emptypipes.org/2015/01/17/python-vs-scala-vs-spark/

TLDR: PyPy 很靠谱，现在的新版本就更赞了。

Spark/Scala 的细节讨论：在 map task 里的 map 会得到如何的处理？

2016-09-14T14:26:15Z

按观察看，是都不会生成新的 map task 的，纯粹的本地执行，但哪儿有对应的说明呢？

SPARK 文档查询好费劲

2016-07-23T08:56:07Z

http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.package 在 spark 官方文档上查询函数好费劲.一级筛选只能以 package 为关键词，如果不知道一个函数是哪个 package 的，就无法进行搜索。比如 predict 函数，只能是先搜索 Predict 包然后下面才有 predict 函数。

大家有啥好方法进行 spark 的方法搜索么。

Apache Spark 之间的共享项目配置文件问题

2016-06-24T08:31:56Z

最近做大数据的项目，碰到了一个坑， Running on yarn 的时候有两个模式，一个是 client 一个是 cluster ，但是我的 Big jar 里面需要读 取配置文件，配置文件在本地，所用用 cluster 模式会出现 FilenotfondException , excutor 不知道这个文件的位置，现在想让excutor 知道这个文件的位置和内容

找到了几个参数就是 spark-submit 加上--files 但是似乎没有起到作用，求个正确的姿势。有两个配置文件，一个是 project.propeties ，一个是 parser.properties 用 Scala 搞得，但是 io 只能读取本地文件，这个比较坑，因为 hadoop 上面的文件系统似乎和本地的不一样。

还有一个方法似乎是用 --properties-file 但是这个只能载入配置。来个正确的姿势急等。*

spark-submit --class "app.Runml" --master yarn-cluster --files "/home/expertise/BigData2016/conf/project.properties","/home/expertise/BigData2016/conf/2016.properties" --jar ~/BigData2016/ml-assembly-1.0.jar 出现了 FileNotFond ，但是 client 模式就 ok 。郁闷死了，不想重新改 parser 的代码，这里是读取文件的代码，返回一个 properties ，可以之间 properties.get(你想要的参数)

object Tools { def conf(file: String): Properties = { val properties = new Properties() properties.load(new FileInputStream(file)) properties } }

疑问：spark对于迭代运算场景很有优势，那对于迭代不严重的计算场景呢？

2014-01-02T12:10:30Z

对于汇总n天的log这种扫一次或几次的非严重迭代运算的场景，spark相比于hadoop而言的性能是继续有优势、差不多还是差了？

还有就是除了文档里面机器学习的几个算法，大家在日常还有哪些比较合适的应用场景，以及集群的规模（cpu个数，内存数），希望大家分享。

First Steps with Spark – Screencast #1

2013-06-02T16:00:37Z

把数据放到内存里处理当然会快很多，只是，要多大的内存才够呢？