大数据一直在发展，你准备入行吗？-IT培训网

当前位置 : IT培训网 > IT培训 > 新闻资讯 > 大数据一直在发展，你准备入行吗？

大数据一直在发展，你准备入行吗？

时间：2021-03-20 21:48:24 来源：IT资讯网作者：IT培训网已有：名学员访问该课程

标签(Tag): 数据分析师培训需要多少钱(2)学大数据需要具备什么基础(1)大数据专业需要数学好吗?(1)

同时，京东作为容器技术（Containers）较佳实践者，京东商城首席架构师、基础架构部负责人刘海锋先生受邀进入 CNCF 全球理事会，共同推进该组织及其旗下开源技术的发展与应用。

全球已知规模最大的大数据处理集群，现在各行各业都在发展大数据，对于即将毕业的你，是否想要学习大数据呢，是否想要从事这方面的职业呢？下面我们就来看看吧！

Kafka集群

Uber 拥有世界上最大的 Kafka 集群，每天处理数万亿条消息和几个 PB 的数据。Kafka 现在成了 Uber 技术栈的基石，我们基于这个基石构建了一个复杂的生态系统，为大量不同的工作流提供支持。其中包含了一个用于传递来自乘客和司机 App 事件数据的发布 / 订阅消息总线、为流式分析平台（如 Apache Samza、Apache Flink）提供支持、将数据库变更日志流到下游订阅者，并将各种数据接收到 Uber 的 Hadoop 数据湖中。

Uber 的 Kafka 生态系统

02Hadoop集群Facebook的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。单一HDFS集群中存储容量达21PB，2000个机器每个机器12TB（有几个机器是每个24TB），1200个机器每个有8个处理器核心，800个机器每个有16个核心，每个机器有32GB内存，每个机器有15个map-reduce任务，已配置存储容量总共超过21PB，大于之前大名鼎鼎的雅虎集群（14PB）。

在Hadoop的早期，Facebook就与另外几个互联网巨擘，充分利用这种框架来管理其不断发展的业务。由于每月活跃用户超过4亿个，页面浏览量超过5000亿人次，每个月共享的内容多达250亿则，对于自称能够处理大数据问题的任何技术而言，Facebook是再合适不过的应用环境。Facebook的工程师与雅虎的Hadoop工程小组密切合作，把Hadoop推向更高的可扩展性和性能。Facebook有许多Hadoop集群，其中较大的一个集群用于数据仓库。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点：

每天增加12TB的压缩数据

每天扫描800TB的压缩数据

每天处理25000个MR作业

HDFS里面有6500万个文件

30000个客户机同时访问HDFS NameNde

03Kubernetes集群京东构建了全球最大的Kubernetes集群。早在2014年，京东就率先将 Docker 容器技术大规模应用至生产环境，和大多数刚开始实践容器技术的团队一样，京东也是从 Container as VM 做起。

在2016年初开始实践 Kubernetes，在2017年初基于 Vitess 构建起弹性数据库，并且自研京东“阿基米德”调度系统。

京东商城基础架构团队持续建设“阿基米德”平台，作为支撑京东万亿 GMV 的技术基础设施，阿基米德由大规模容器集群调度、数据库与存储技术平台、组件化微服务平台、商品图片技术平台、异地多活与智能运维、边缘计算平台构成。其中容器技术是所有平台服务的基石。在此过程中，采用容器较大化资源利用，节省数据中心数亿元采购成本。大促之前加机器的历史一去不复返。

京东的容器生态

CNCF 基金会官方确认，京东目前运营着全球较大规模的Docker 集群、Kubernetes 集群，以及最复杂的 Vitess 集群之一，基本实现了“All in Containers”，是目前全球容器化最彻底的互联网企业之一。京东也成为 CNCF 开源项目较大的使用者与贡献者之一。

04Elasticsearch集群滴滴2016年初开始构建 Elasticsearch 平台，如今已经发展到超过 3500+ Elasticsearch 实例，超过 5PB 的数据存储，峰值写入 tps 超过了 2000w/s 的超大规模。是目前国内已知最大的ES集群。

Elasticsearch 在滴滴有着非常丰富的使用场景，例如线上核心的打车地图搜索，客服、运营的多维度查询，滴滴日志服务等近千个平台用户。

先看看滴滴 Elasticsearch 单集群的架构：滴滴在单集群架构的时候，写入和查询就已经通过 Sink 服务和 Gateway 服务管控起来。

1. Sink服务

滴滴几乎所有写入 Elasticsearch 的数据都是经由 kafka 消费入到 Elasticsearch。kafka 的数据包括业务 log 数据、mysql binlog 数据和业务自主上报的数据，Sink 服务将这些数据实时消费入到 Elasticsearch。

最初设计 Sink 服务是想对写入 Elasticsearch 集群进行管控，保护 Elasticsearch 集群，防止海量的数据写入拖垮 Elasticsearch，并将该服务从 Elasticsearch 平台分离出去，成立滴滴 Sink 数据投递平台，可以从 kafka 或者 MQ 实时同步数据到 Elasticsearch、HDFS、Ceph 等多个存储服务。

有了多集群架构后，Elasticsearch 平台可以消费一份 MQ 数据写入多个 Elasticsearch 集群，做到集群级别的容灾，还能通过 MQ 回溯数据进行故障恢复。

2. Gateway 服务

所有业务的查询都是经过 Gateway 服务，Gateway 服务实现了 Elasticsearch 的 http restful 和 tcp 协议，业务方可以通过 Elasticsearch 各语言版本的 sdk 直接访问 Gateway 服务，Gateway 服务还实现了 SQL 接口，业务方可以直接使用 SQL 访问 Elasticsearch 平台。

Gateway 服务最初提供了应用权限的管控，访问记录，限流、降级等基本能力，后面随着平台演进，Gateway 服务还提供了索引存储分离、DSL 级别的限流、多集群灾备等能力。