大数据EMR

首都在线的大数据EMR平台致力于为用户提供大数据管理、租户隔离、可视化、可拖拽的工作流任务调度、开箱即用的大数据存储与分析服务。EMR大数据平台包含Zookeeper、HDFS、YARN、Spark、Flink、Hudi、Presto等大数据处理的主流技术组件，提供了从自动化部署运维、性能优化、资源隔离、资源调度、数据计算任务执行及跟踪等全套解决方案。 EMR平台遵循Hadoop技术路线，为海量（TB/PB级）数据提供分布式处理服务，方便开发者轻松跨越大数据分布式计算环境搭建、运维等繁琐工作，专注于数据分析、数据挖掘、商业智能等应用场景。

产品特点

存算分离

与对象存储服务OSS对接，实现存算分离架构，提升资源利用率，节约成本，简化运维，提升可靠性。

实时计算

可处理实时且流式数据，持续、低时延、事件触发，满足实时推荐、欺诈检测、风控系统等低时延场景。

自主可控

适配信创软、硬件生态，兼容各类国产软硬件，支持其他数据平台平滑迁移。

多租户资源隔离

提供完整的企业级大数据多租户解决方案。可将大数据集群的资源隔离成一个个资源集合，彼此互不干扰。支持物理多租户和逻辑多租户。

弹性扩缩容

可根据业务需求，对底层计算集群进行弹性扩容及缩容。

企业级安全

开源Hadoop基础上的技术增强和安全保障，提供用户认证、用户权限和数据加密等一系列安全机制。

全球布局

基于首都在线全球网络和资源分布，实现全球多区域的快速集群部署。

一站式开发

供大数据组件和一站式工作流工具，满足各类场景的大数据开发任务需求。

产品功能

大数据存储与计算

提供基于Hadoop生态体系的大数据存储与计算服务，用户可轻松运行Hadoop、Spark等大数据组件，实现自主可控并完全兼容开源接口，在安全性、可靠性、可维护性等方面对大数据组件进行企业级特性增强，适配多租户、弹性伸缩、国产化环境自主适配、解耦计算与存储之间的绑定关系。优化湖仓一体化架构，提升读写性能，支撑一体化大数据中心平台建设，为用户提供完全兼容开源Hadoop生态系统接口的大数据存储与计算基础服务。

实时计算Flink

基于Apache Flink构建，进行深度扩展，提供专业的 DataStudio 功能，Flink 多种执行模式及多版本无感知切换，兼容且增强官方 FlinkSQL 语法，提供从 FlinkSQL 开发调试到上线下线的运维监控及 SQL 查询执行能力，使数仓建设及数据治理一体化。平台具备实时应用的作业开发、作业运维、监控告警、集群管理、资源管理等全生命周期能力，内核引擎兼容Apache Flink，拥有FlinkCDC、动态CEP等企业级增值功能，内置丰富上下游连接器，助力客户构建高效、稳定和强大的实时数据应用。

一站式开发工具

一站式开发工具是一个分布式易扩展的可视化DAG工作流任务调度开源系统。工具适用于企业级场景，为企业提供可视化操作任务、工作流和全生命周期数据处理过程的解决方案。该提供概览、项目管理、资源中心、数据质量、数据源管理、安全中心等功能模块。

多租户管理

大数据存储与计算提供企业级大数据多租户管理功能，租户之间的资源隔离，一个租户对资源的使用不影响其它租户，每个租户根据业务需求去配置相关的资源，提高资源利用效率，租户对不同的用户进行严格的访问控制，保证数据和业务的安全。
用户可按照实际使用情况建立多个租户，并在租户空间中创建存储资源及计算资源，实现租户间的资源隔离。

数据备份与恢复

数据备份提供HDFS、Hive 等数据备份和恢复功能。
HDFS数据备份恢复：通过填写IP地址、用户名、密码、目标目录、备份类型来选择HDFS需要备份的数据；通过选择备份分拣存储地址、备份文件存储目录、用户名、密码等信息，进行HDFS数据恢复。
Hive数据备份恢复：通过选择备份类型、表名称、备份路径等信息进行Hive数据的备份或恢复。

应用场景

灵活集群扩展赋能海量数据计算

客户需求

随着运营商、电商等行业客户的业务扩展，其所需处理的数据量呈快速增长趋势。在处理庞大的数据集时，客户对数据分析的时效性有严格要求。

赋能价值

首都在线大数据EMR平台为客户提供了灵活的集群扩展功能，当现有集群规模不再满足业务需求时，可以通过集群扩展来调整节点数量。扩展后的集群能够自动对HDFS上的数据进行重新分配，有效避免了因扩展导致的数据处理不均衡问题。
扩展过程完全自动化，无需人工干预。
在集群需要缩减规模时，系统会根据节点上部署的服务类型智能选择可缩减的节点。
平台支持多种关系型和大数据数据库，并提供MapReduce、Spark、SparkSQL等大数据计算工具。
平台可根据客户的特定需求为客户定制系统架构，并选择合适的大数据计算工具，以确保满足客户对数据处理时效性的需求。