大数据EMR

首都在线的大数据EMR平台致力于为用户提供大数据管理、租户隔离、可视化、可拖拽的工作流任务调度、开箱即用的大数据存储与分析服务。EMR大数据平台包含Zookeeper、HDFS、YARN、Spark、Flink、Hudi、Presto等大数据处理的主流技术组件,提供了从自动化部署运维、性能优化、资源隔离、资源调度、数据计算任务执行及跟踪等全套解决方案。 EMR平台遵循Hadoop技术路线,为海量(TB/PB级)数据提供分布式处理服务,方便开发者轻松跨越大数据分布式计算环境搭建、运维等繁琐工作,专注于数据分析、数据挖掘、商业智能等应用场景。

产品特点

存算分离

与对象存储服务OSS对接,实现存算分离架构,提升资源利用率,节约成本,简化运维,提升可靠性。

实时计算

可处理实时且流式数据,持续、低时延、事件触发,满足实时推荐、欺诈检测、风控系统等低时延场景。

自主可控

适配信创软、硬件生态,兼容各类国产软硬件,支持其他数据平台平滑迁移。

多租户资源隔离

提供完整的企业级大数据多租户解决方案。可将大数据集群的资源隔离成一个个资源集合,彼此互不干扰。支持物理多租户和逻辑多租户。

弹性扩缩容

可根据业务需求,对底层计算集群进行弹性扩容及缩容。

企业级安全

开源Hadoop基础上的技术增强和安全保障,提供用户认证、用户权限和数据加密等一系列安全机制。

全球布局

基于首都在线全球网络和资源分布,实现全球多区域的快速集群部署。

一站式开发

供大数据组件和一站式工作流工具,满足各类场景的大数据开发任务需求。

产品功能

大数据存储与计算

提供基于Hadoop生态体系的大数据存储与计算服务,用户可轻松运行Hadoop、Spark等大数据组件,实现自主可控并完全兼容开源接口,在安全性、可靠性、可维护性等方面对大数据组件进行企业级特性增强,适配多租户、弹性伸缩、国产化环境自主适配、解耦计算与存储之间的绑定关系。优化湖仓一体化架构,提升读写性能,支撑一体化大数据中心平台建设,为用户提供完全兼容开源Hadoop生态系统接口的大数据存储与计算基础服务。

实时计算Flink

基于Apache Flink构建,进行深度扩展,提供专业的 DataStudio 功能,Flink 多种执行模式及多版本无感知切换,兼容且增强官方 FlinkSQL 语法,提供从 FlinkSQL 开发调试到上线下线的运维监控及 SQL 查询执行能力,使数仓建设及数据治理一体化。平台具备实时应用的作业开发、作业运维、监控告警、集群管理、资源管理等全生命周期能力,内核引擎兼容Apache Flink,拥有FlinkCDC、动态CEP等企业级增值功能,内置丰富上下游连接器,助力客户构建高效、稳定和强大的实时数据应用。

一站式开发工具

一站式开发工具是一个分布式易扩展的可视化DAG工作流任务调度开源系统。工具适用于企业级场景,为企业提供可视化操作任务、工作流和全生命周期数据处理过程的解决方案。该提供概览、项目管理、资源中心、数据质量、数据源管理、安全中心等功能模块。

多租户管理

大数据存储与计算提供企业级大数据多租户管理功能,租户之间的资源隔离,一个租户对资源的使用不影响其它租户,每个租户根据业务需求去配置相关的资源,提高资源利用效率,租户对不同的用户进行严格的访问控制,保证数据和业务的安全。
用户可按照实际使用情况建立多个租户,并在租户空间中创建存储资源及计算资源,实现租户间的资源隔离。

数据备份与恢复

数据备份提供HDFS、Hive 等数据备份和恢复功能。
HDFS数据备份恢复:通过填写IP地址、用户名、密码、目标目录、备份类型来选择HDFS需要备份的数据;通过选择备份分拣存储地址、备份文件存储目录、用户名、密码等信息,进行HDFS数据恢复。
Hive数据备份恢复:通过选择备份类型、表名称、备份路径等信息进行Hive数据的备份或恢复。

应用场景

灵活集群扩展赋能海量数据计算

灵活集群扩展赋能海量数据计算

客户需求

随着运营商、电商等行业客户的业务扩展,其所需处理的数据量呈快速增长趋势。在处理庞大的数据集时,客户对数据分析的时效性有严格要求。

赋能价值

  • 首都在线大数据EMR平台为客户提供了灵活的集群扩展功能,当现有集群规模不再满足业务需求时,可以通过集群扩展来调整节点数量。扩展后的集群能够自动对HDFS上的数据进行重新分配,有效避免了因扩展导致的数据处理不均衡问题。
  • 扩展过程完全自动化,无需人工干预。
  • 在集群需要缩减规模时,系统会根据节点上部署的服务类型智能选择可缩减的节点。
  • 平台支持多种关系型和大数据数据库,并提供MapReduce、Spark、SparkSQL等大数据计算工具。
  • 平台可根据客户的特定需求为客户定制系统架构,并选择合适的大数据计算工具,以确保满足客户对数据处理时效性的需求。
实时流数据分析

实时流数据分析

客户需求

随着业务数据量的爆炸性增长和接入设备的增多,用户对日志、监控、交易、地理信息系统、传感器等大数据流的实时分析提出了更高的需求。

赋能价值

  • 首都在线大数据EMR平台配备了Flink和Spark Streaming等组件,专门针对实时数据流的即时性、不确定性,无序性和无限性进行高效快速的处理和分析。
  • 对用户行为数据进行分析,实现实时推荐和优化推荐算法。
信创大数据平台

信创大数据平台

客户需求

信创产业正逐步成为国家安全战略的核心组成部分,产业的发展对关键技术领域全面实现自主可控提出了新的需求。

赋能价值

  • 首都在线大数据EMR平台在国产CPU、数据库、中间件,操作系统等方面完成了适配工作,并在多个项目中得到了实际应用。
  • 在数据中台建设提供了基础支撑,统一了数据的汇聚、存储、计算和治理等产品工具,为数据管理提供了强有力的支持。
构建行业数据中台

构建行业数据中台

客户需求

随着国内政府机构和企业的数字化转型深化,客户对数据的高效处理有新的需求。

赋能价值

  • 首都在线大数据EMR平台通过提供多样化的大数据工具,支持接入不同来源和类型的数据。
  • 平台内置的数据清洗功能能够高效地整合来自各方的分散数据,构建起集中的数据湖,使用户能够轻松地进行数据的统一管理。
  • 对数据湖中的数据进行深入分析,助力企业构建数据中台,从而迅速增强数据的运营和处理能力。