Category: Big Data

[转]比Hive快800倍!大数据实时分析领域黑马开源ClickHouse 0

[转]比Hive快800倍!大数据实时分析领域黑马开源ClickHouse

ClickHouse 是俄罗斯最大的搜索公司 Yandex 推出的大数据存储和开源组件,在 2017 年易观 OLAP 大赛获得黑马冠军之后,得到了大量的媒体曝光和开发者的认同,大家戏称这是俄罗斯送来的“喀秋莎数据库”。本文将深入浅出的讲解 ClickHouse 数据引擎的基本原理和使用场景,是一篇非常好的 ClickHouse 入门之作。

[转]Flink靠什么征服饿了么工程师 0

[转]Flink靠什么征服饿了么工程师

本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解 Storm、Spark、Flink 的优缺点。如何选择一个合适的实时计算引擎?Flink 凭借何种优势成为饿了么首选?本文将带你一一解开谜题。

[汇总]数据分析案例 0

[汇总]数据分析案例

数据分析案例 本文主要用Python爬取拉勾网不同编程语言职位信息 Python、Java 薪资最高,C# 垫底:分析什么编程语言最赚钱!   本文爬取了BOSS直聘网站上Python和Java的招聘信 Python 起薪和均资都高于 Java?!  

0

[转]阿里的程序员们如何解决复杂数据的查询优化问题

数据分布的问题在大数据处理领域由来已久。很不幸,如今流行的大数据处理系统仍然没有很好地解决这个问题。在MaxCompute 2.0全新的优化器中,我们引入了复杂数据分布,添加了分区剪枝、分布上拉、下推以及分布对齐等优化措施。 本文将从数据分布的历史和原理开始,介绍我们的思路和解决办法。

0

[转]手把手教你搭建一个 Elasticsearch 集群

1. 2. 为何要搭建 Elasticsearch 集群 凡事都要讲究个为什么。在搭建集群之前,我们首先先问一句,为什么我们需要搭建集群?它有什么优势呢? 2-1. 高可用性 Elasticsearch 作为一个搜索引擎,我们对它的基本要求就是存储海量数据并且可以在非常短的时间内查询到我们想要的信息。所以第一步我们需要保证的就是 Elasticsearch 的高可用性,什么是高可用性呢?它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是 100%。如果系统在某个时刻宕掉了,比如某个网站在某个时间挂掉了,那么就可以它临时是不可用的。所以,为了保证 Elasticsearch 的高可用性,我们就应该尽量减少 Elasticsearch 的不可用时间。

0

[转]从千亿页面上提取数据所总结的五大经验

如今从网上抓取数据看似非常容易。有许多开源库和框架、可视化抓取工具和数据提取工具,可以很容易地从一个网站上抓取数据。但是,当你想大规模地搜索网站时,很快就会感觉到非常棘手。 本文中,我们将与你分享自2010年以来借助Scrapinghub从一千亿个产品页面上抓取数据时所学到的经验教训,让你深入了解从电子商务店铺大规模提取产品数据时面临的挑战,并与你分享一些应对这些挑战的最佳实践经验。 Scrapinghub成立于2010年,是数据提取公司中的佼佼者之一,也是Scrapy的缔造者——Scrapy是当今最强大、最受欢迎的网络抓取框架。目前,Scrapinghub为全球众多的大型电子商务公司每月抓取超过80亿的页面(其中30亿是产品页面)。

0

[转]上万条评论解读《西虹市首富》是否值得一看

1. 前言 纵观近几年的国产电影市场,“开心麻花“似乎已经成为了票房的保证。从《夏洛特烦恼》、《羞羞的铁拳》到最新上映的《西虹市首富》都引爆了票房。本期我们会根据从猫眼电影网爬取到的上万条评论为你解读《西虹市首富》是否值得一看。

0

[转]IMDB、烂番茄…哪家网站的电影评分更靠谱?

我们在选择看哪一部电影时,通常会考虑很多个因素,比如导演是谁、演员是谁,或者电影的预算是多少。大部分人都是基于影评、预告片做出决定,或者直接根据电影的评分来决定。 出于某些原因,有些人不愿意看影评或预告片,尽管它们比评分提供了更多的信息。

0

[转]Uber开源数据流分析平台AthenaX,日均处理1万亿次数据

Uber公司通过传播各类实时来源数据以实现更加无缝化且令人愉悦的用户体验。具体而言,Uber需要交付 UberEATS 订单的预估交付时间(简称 ETD)、结合即时交通条件得出的指导配送路线以及其间各项重要影响指标。来自Uber的几位优秀的工程师为我们带来这项技术的详细解析。