Category: Big Data

[汇总]数据分析案例 0

[汇总]数据分析案例

数据分析案例 本文主要用Python爬取拉勾网不同编程语言职位信息 Python、Java 薪资最高,C# 垫底:分析什么编程语言最赚钱!   本文爬取了BOSS直聘网站上Python和Java的招聘信 Python 起薪和均资都高于 Java?!  

0

[转]阿里的程序员们如何解决复杂数据的查询优化问题

数据分布的问题在大数据处理领域由来已久。很不幸,如今流行的大数据处理系统仍然没有很好地解决这个问题。在MaxCompute 2.0全新的优化器中,我们引入了复杂数据分布,添加了分区剪枝、分布上拉、下推以及分布对齐等优化措施。 本文将从数据分布的历史和原理开始,介绍我们的思路和解决办法。

0

[转]手把手教你搭建一个 Elasticsearch 集群

1. 2. 为何要搭建 Elasticsearch 集群 凡事都要讲究个为什么。在搭建集群之前,我们首先先问一句,为什么我们需要搭建集群?它有什么优势呢? 2-1. 高可用性 Elasticsearch 作为一个搜索引擎,我们对它的基本要求就是存储海量数据并且可以在非常短的时间内查询到我们想要的信息。所以第一步我们需要保证的就是 Elasticsearch 的高可用性,什么是高可用性呢?它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是 100%。如果系统在某个时刻宕掉了,比如某个网站在某个时间挂掉了,那么就可以它临时是不可用的。所以,为了保证 Elasticsearch 的高可用性,我们就应该尽量减少 Elasticsearch 的不可用时间。

0

[转]从千亿页面上提取数据所总结的五大经验

如今从网上抓取数据看似非常容易。有许多开源库和框架、可视化抓取工具和数据提取工具,可以很容易地从一个网站上抓取数据。但是,当你想大规模地搜索网站时,很快就会感觉到非常棘手。 本文中,我们将与你分享自2010年以来借助Scrapinghub从一千亿个产品页面上抓取数据时所学到的经验教训,让你深入了解从电子商务店铺大规模提取产品数据时面临的挑战,并与你分享一些应对这些挑战的最佳实践经验。 Scrapinghub成立于2010年,是数据提取公司中的佼佼者之一,也是Scrapy的缔造者——Scrapy是当今最强大、最受欢迎的网络抓取框架。目前,Scrapinghub为全球众多的大型电子商务公司每月抓取超过80亿的页面(其中30亿是产品页面)。

0

[转]上万条评论解读《西虹市首富》是否值得一看

1. 前言 纵观近几年的国产电影市场,“开心麻花“似乎已经成为了票房的保证。从《夏洛特烦恼》、《羞羞的铁拳》到最新上映的《西虹市首富》都引爆了票房。本期我们会根据从猫眼电影网爬取到的上万条评论为你解读《西虹市首富》是否值得一看。

0

[转]IMDB、烂番茄…哪家网站的电影评分更靠谱?

我们在选择看哪一部电影时,通常会考虑很多个因素,比如导演是谁、演员是谁,或者电影的预算是多少。大部分人都是基于影评、预告片做出决定,或者直接根据电影的评分来决定。 出于某些原因,有些人不愿意看影评或预告片,尽管它们比评分提供了更多的信息。

0

[转]Uber开源数据流分析平台AthenaX,日均处理1万亿次数据

Uber公司通过传播各类实时来源数据以实现更加无缝化且令人愉悦的用户体验。具体而言,Uber需要交付 UberEATS 订单的预估交付时间(简称 ETD)、结合即时交通条件得出的指导配送路线以及其间各项重要影响指标。来自Uber的几位优秀的工程师为我们带来这项技术的详细解析。

0

[转]利用大数据探索工具快速启动大数据分析

现在大数据已经成为企业信息化热点方向之一,很多企业都已经开始或者准备利用大数据大干一场,降低成本、提升数据价值,从而实现智能决策,但是从以 Hadoop 为代表的大数据技术面世以来,将近 10 年的时间,除了几家大型互联网公司以外,企业能够用好大数据的案例远远没有期望的那么多。据国外一家咨询公司 2015 年统计,只有 27% 的公司认为他们的大数据计划是成功的,而只有 8% 的认为是非常成功的。即便是在 POC 阶段,很多企业的平均成功率才只有 38%。

image.png 0

[转]根据天猫胸罩销售数据分析中国女性胸部大小分布

 本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的。是网络爬虫和数据分析的综合应用项目。本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过SQL语句、Pandas和Matplotlib对数据进行数据可视化分析。我们从分析结果中可以得出很多有的结果,例如,中国女性胸部标准尺寸是多少;胸罩上胸围的销售比例;哪个颜色的胸罩最受女性欢迎。

0

[转]谈爬虫反爬虫套路

  爬虫与反爬虫,是一个很不阳光的行业。 这里说的不阳光,有两个含义。 第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。 第二是,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历。面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。