spark是一个高性能的内存处理引擎,提供基于rdd的数据抽象,可以灵活处理分布式数据集。
spark由一系列解决不同种类问题的系统和编程库组成,包括流计算sparkstreaming、sql引擎sparksql、机器学习库mllib和图形计算框架graphx。
spark是一个基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用。pagerank、k-means等算法非常适合内存迭代计算。
火花的整个生态系统都在逐渐完善,比如graphx,sparksql,sparkstreaming,mllib。当spark有了自己的数据仓库,就完全可以媲美hadoop生态系统了。
sparkstreaming是一个基于spark的实时计算框架,它扩展了spark处理大规模流数据的能力。火花流的优点是:
它可以运行在1000个节点上,并实现二阶延迟。
使用基于内存的spark作为执行引擎,具有高效和容错的特点。
可以集成spark的批处理和交互查询。
它为实现复杂算法提供了一个类似于批处理的简单接口。
为此,sparkstreaming受到许多企业的追捧,并广泛应用于生产项目中。但是,在使用过程中也存在一些难题。
原文的详细解释:
专业软件开发,上学的时候专注于java,现在已经从事java开发一年半了。我想转向大数据。
1.先熟悉一下linux环境。大数据的很多技术都部署在linux服务器上,你熟练使用vi编辑文本。
2.部署hadoop,让hdfs和mapreduce运行。
step3deploycityzoo
4.部署hbase了解列存储的表设计方法。
5.掌握蜂巢的使用
6.calculationofsparkflowandstormflow
7.学习sparkmllib,python为数据分析做准备。
有java基础转大数据,需要学习:
1.大数据基础:linux,maven:linux系统管理,shell编程设计,maven部署/配置/仓库,mavenpom。
2.hdfs分布式文件系统
分布式计算模型yarn分布式资源管理器zookeeper分布式协调服务
4.分布式数据库。
5.flumeng分布式数据采集系统sqoop大数据迁移系统。
大数据黄金语言的kafka分布式总线系统。
7.sparkcore大数据计算基石sparksql数据挖掘工具sparkstreaming流计算平台
8.sparkmllib机器学习平台sparkgraphx图形计算平台
9.项目实战
相关:
大数据开发工程师,学什么?
大数据学习有哪些误区?大数据开发和数据分析如何避免学习误区?
大数据基础:linux,maven:linux系统管理,shell编程设计,maven部署/配置/仓库,mavenpom。