Category: Big Data

[汇总]数据分析项目 0

[汇总]数据分析项目

Edouard Thomas 开发的一个类似的 开源 AI 博彩机器人项目(https://github.com/edouardthom/ATPBetting)   名为 freqtrade (https://github.com/freqtrade/freqtrade)的开源交易机器人。它使用 Python 构建,并实现了多种机器学习算法   人脸识别库(https://pypi.org/project/face-recognition/),并将其与摄像头的输出连接起来。

[汇总]数据分析经验 0

[汇总]数据分析经验

推荐2个十分好用的pandas数据探索分析神器! PandasGUI 在Jupyter当中使用的小插件名叫ipympl,能够使得matplotlib绘制出来的图表也能够具备交互性的特征,

[汇总]日志系统 0

[汇总]日志系统

用了日志系统新贵Loki,ELK突然不香了! ELK不香了!我用Graylog NewRelic 替代ELK:ClickHouse+Kafka+FlieBeat

[汇总] ElasticSearch经验 0

[汇总] ElasticSearch经验

图解ElasticSearch原理,你可收好了! Elasticsearch 技术分析(九):全文搜索引擎Elasticsearch,这篇文章给讲透了! Elasticsearch 如何做到快速检索 – 倒排索引的秘密 为什么 ElasticSearch 比 MySQL 更适合复杂条件搜索 一次惊心动魄的ElasticSearch集群灾难恢复记!

[转]数据可视化图表选型 0

[转]数据可视化图表选型

常听到一句话,“能用图描述的就不用表,能用表就不用文字”。这句话也直接的表明了:在认知上,大家对于图形的敏感度远比文字高。 但同时我们也面临着这样一些问题: 写 PPT、做 demo 时,心中有万千想法和海量数据想要去展现,但总是最后还是以文字和枯燥的图表堆叠呈现了出来,苦于怎么把这些数据展现的直观、性感、一看就懂。这时候,在心里怎么想和手上怎么画之间,差了一座“理解图表内涵”的桥梁了。

[转]全文搜索引擎选 ElasticSearch 还是 Solr? 0

[转]全文搜索引擎选 ElasticSearch 还是 Solr?

最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了。所以考虑开发一个适配层,如果 Solr 搜索出问题,自动切换到新的搜索–ES。 其实可以通过 Solr 集群或者服务容错等设计来解决该问题。但是先不考虑本身设计的合理性,领导需要开发,所以我开始踏上了搭建 ES 服务的道路,从零开始,因为之前完全没接触过 ES,所以通过本系列来记录下自己的开发过程。

[转]超详细的Elasticsearch高性能优化实践 0

[转]超详细的Elasticsearch高性能优化实践

1. ES 性能调优 ES 的默认配置,是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时,我们需要根据公司要求,进行偏向性的优化。 1-1. 写优化 假设我们的应用场景要求是,每秒 300 万的写入速度,每条 500 字节左右。 针对这种对于搜索性能要求不高,但是对写入要求较高的场景,我们需要尽可能的选择恰当写优化策略。 综合来说,可以考虑以下几个方面来提升写索引的性能: 加大 Translog Flush ,目的是降低 Iops、Writeblock。 增加 Index Refresh 间隔,目的是减少 Segment Merge 的次数。 调整 Bulk 线程池和队列。 优化节点间的任务分布。 优化 Lucene 层的索引建立,目的是降低 CPU...

[转]基于大数据的情绪分析(二) 0

[转]基于大数据的情绪分析(二)

1. 导言 情绪分析使用机器学习算法来确定正面或负面文本内容的方式。情绪分析的示例包括: 快速了解客户评论的基调: 了解客户喜欢或不喜欢的产品或服务。 了解可能影响新客户购买决策的因素。 为企业提供市场意识。 尽早解决问题 了解股市情绪,以获得对金融信号预测的见解 社交媒体监控 品牌/产品/公司人气/声誉/感知监控 不满意的客户检测监控和警报 营销活动监控/分析 客户服务意见监测/分析 品牌情绪态度分析 客户反馈分析 竞争情绪分析 品牌影响者监控

[转]基于大数据的情绪分析(一) 0

[转]基于大数据的情绪分析(一)

1. 导语 社交媒体、电子邮件、聊天、产品评论和推荐的文本挖掘和分析已经成为几乎所有行业垂直行业研究数据模式的宝贵资源,它能够帮助企业获得更多信息、更加了解客户、预测和增强客户体验、量身定制营销活动,并协助做决策。