Spark Core & SparkSQL

08 Apr 2021

Spark Core

Spark概述

Spark安装配置

RDD编程

RDD是 Spark 的基石,是实现 Spark 数据处理的核心抽象。
RDD 是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。

RDD(Resilient Distributed Dataset)是 Spark 中的核心概念,它是一个容错、 可以并行执行的分布式数据集。

RDD编程进阶

Spark原理初探

Spark SQL

Spark SQL概述

Spark SQL(Spark on Hive), 源码在Spark中,支持多种数据源,多种优化技术,扩展性好很多

Spark SQL编程

官方文档:http://spark.apache.org/docs/latest/sql-getting-started.html

Spark SQL原理