大数据分类 | shilinlee的博客

Spark系列: 深入理解RDD

RDD的全称是：Resilient Distributed Dataset （弹性分布式数据集），它有几个关键的特性：

RDD是只读的，表示它的不可变性。
可以并行的操作分区集合上的所有元素。
天生具有容错机制的特殊集。
只能通过在稳定的存储器或其他RDD上的确定性操作（转换）来创建。

shilinlee2019/1/28大约 11 分钟

Spark系列: 初识Spark

Spark具有如下几个主要特点:

运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

shilinlee2019/1/18大约 8 分钟