Tagged: Hadoop

[转]使用Hadoop和ELK进行业务代码分析 0

[转]使用Hadoop和ELK进行业务代码分析

大数据是计算领域的新高地,它有望提供一种方法来应对二十一世纪不断增长的数据生成。越来越多的大数据爱好者正在涌现,越来越多的公司正在采用各种大数据平台,并希望提出以客户为中心的解决方案,帮助他们在竞争激烈的市场中取得领先地位。虽然最常见的是使用大数据解决方案来推导针对业务收入的分析,但作为IT公司的开发人员,我的方法却略有不同。 以下是Hadoop生态系统用于监控,分析和改进IT公司软件组件的用例。

[转]小白都能看懂的Hadoop架构原理 0

[转]小白都能看懂的Hadoop架构原理

Hadoop 是目前大数据领域最主流的一套技术体系,包含了多种技术,例如 HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)等等。 有些朋友可能听说过 Hadoop,但是却不太清楚它到底是个什么东西,这篇文章就用大白话给各位阐述一下。

[转]Hadoop 生态组件 0

[转]Hadoop 生态组件

虽然流计算对于大数据处理来说越来越重要,但不支持流计算却不会成为 Hadoop 的致命伤。虽然 Hadoop 自身不提供流计算服务,不过主要的流计算组件,如 Storm、Spark Streaming 以及 Flink 本身就属于 Hadoop 生态系统的一部分,因此并不构成太大的问题。 曾有开发者向 AI 前线表示,Hadoop 主要是被 MapReduce 拖累了,其实 HDFS 和 YARN 都还不错。堵俊平则认为 MapReduce 拖累 Hadoop 的说法并不准确,首先 MapReduce 还是有应用场景,只是越来越窄,它仍然适合某些超大规模数据处理的批量任务,且任务运行非常稳定;其次,Hadoop 社区对于 MapReduce 的定位就是进入维护模式, 并不追求任何新的功能或性能演进,这样可以让资源投入到更新的计算框架,比如 Spark、Tez,促进其成熟。