快捷导航
 
大数据处理为何选择spark?
VIEW CONTENTS

大数据处理为何选择spark?

1970-1-1 08:33| 发布者: 智能硬件专家| 查看: 423| 评论: 0
摘要: 大数据处理为何选择Spark,而不是Hadoop?一、基础知识1、Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互 ...
大数据处理为何选择Spark,而不是Hadoop?

 

一、基础知识

1、Spark

      Spark是一个用来实现快速而通用的集群计算的平台。

      在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。

      Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。


 

2、Hadoop

      Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

      用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

      Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

 

 

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣扣群:740041381,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

 

二、大数据处理选择

      Spark和Hadoop都可以进行大数据处理,那如何选择处理平台呢?

 

1.处理速度和性能

      Spark扩展了广泛使用的MapReduce计算模型,支持循环数据流和内存计算。

      Hadoop进行计算时,需要从磁盘读或者写数据,同时整个计算模型需要网络传输,导致MapReduce具有高延迟的弱点。

      据统计,基于Spark内存的计算速度比Hadoop MapReduce快100倍以上,基于磁盘的计算速度也要快10倍以上。

 

2.开发难易度

      Spark提供多语言(包括Scala、Java、Python)API,能够快速实现应用,相比MapReduce更简洁的代码,安装部署也无需复杂配置。使用API可以轻松地构建分布式应用,同时也可以使用Scala和Python脚本进行交互式编程。




Tab标签: 大数据

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

乐居居-让生活更智能!

  • 反馈建议:153890879@qq.com
  • 客服电话:
  • 工作时间:周一到周五

云服务支持

精彩文章,快速检索

关注我们

Copyright乐居居  Powered by©  备案号:湘ICP备15009499号-1