最佳实践
Databricks Spark 知识库简体中文版
Databricks Spark 知识库
最佳实践
避免使用 GroupByKey
不要将大型 RDD 的所有元素拷贝到请求驱动者
常规故障处理
Job aborted due to stage failure: Task not serializable
缺失依赖
执行 start-all.sh 错误 - Connection refused
Spark 组件之间的网络连接问题
性能 & 优化
一个 RDD 有多少个分区
数据本地性
Spark Streaming
ERROR OneForOneStrategy
Copyright
本文翻译自: http://databricks.gitbooks.io/databricks-spark-knowledge-base/ 著作权归原作者所有。
License
此内容使用的授权许可请查看
这里
。
书籍推荐
Openstack用户指南(简体中文版)
tzivanmoe
•
spark
•
47页
•
2018年7月1日
0
Spark 编程指南简体中文版
aiyanbo
•
spark
•
65页
•
2018年7月1日
150
Git的奇技淫巧
jackfrued
•
git
•
77页
•
2019年5月26日
28
Redux 中文文档
camsong
•
redux
•
69页
•
2018年5月1日
2786
Rust 程序设计语言(第二版 & 2018 edition)
KaiserY
•
rust
•
105页
•
2020年3月6日
机器学习原理
shunliz
•
machine-learning
•
221页
•
2018年6月24日
2
小字
大字
宋体
黑体
白天
护眼
夜晚
封面
简介
Introduction
最佳实践
避免使用 GroupByKey
不要将大型 RDD 的所有元素拷贝到请求驱动者
常规故障处理
Job aborted due to stage failure: Task not serializable
缺失依赖
执行 start-all.sh 错误 - Connection refused
Spark 组件之间的网络连接问题
性能 & 优化
一个 RDD 有多少个分区
数据本地性
Spark Streaming
ERROR OneForOneStrategy