跳至主要內容
Spark系列: 深入理解RDD

RDD的全称是:Resilient Distributed Dataset (弹性分布式数据集),它有几个关键的特性:

  • RDD是只读的,表示它的不可变性。
  • 可以并行的操作分区集合上的所有元素。
  • 天生具有容错机制的特殊集。
  • 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建。

shilinlee大约 11 分钟大数据spark入门RDD
Spark系列: 初识Spark

Spark具有如下几个主要特点:

  • 运行速度快:使用DAG执行引擎以支持循环数据流与内存计算
  • 容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程
  • 通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件
  • 运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

shilinlee大约 8 分钟大数据spark入门