大数据分析及可视化(数据中台—大数据计算)
大数据计算
平台应能够实现业务计算功能,从而应实现流处理服务、批处理&调度服务等功能。
(1)流处理服务:
流处理服务应能够充分满足处理设备和资产的实时数据,以及经离线消息通道集成的数据的需求。应能够基于大规模分布式集群的实时处理能力,并应能够集成可视化的流数据处理任务设计、调试、部署及监控工具。数据中台应可以沉淀一系列通用及领域相关的流计算算子,覆盖多领域核心场景需求。数据开发工程师应能够快速组合出不同的数据处理方案,降低数据开发障碍、缩短数据研发周期。
数据处理服务还应能够实现规则和配置加载、提供相关支持工具等功能。
(2)批处理&调度服务:
批处理又称批计算,是指对平台中离线批量数据的并行计算,过程中会调用数据清洗、聚合、专用算法等平台计算算子,实现数据标准、数据挖掘、应用服务等数据批量处理的功能。
大数据平台应能够提供批处理框架,应包概括但不限于MapReduce和Spark,从而能够分别响应不同的批处理场景。
批计算服务应能够配合调度服务,实现用户的可用性需求。其中,作业是批计算的调度服务的主体,是调度服务中被执行任务的统称。平台提供的调度服务应能够覆盖作业的全生命周期管理,包括但不限于作业的定义、运行监督、结果查询等。
可视化分析
数据中台应能够提供一个数据分析工具,通过可视化、易用性和创新性的方式让企业能够实现敏捷的业务智能分析。可视化数据分析工具应具备但不限于以下内容:
(1)数据准备
用户应能够通过界面的拖动的形式执行数据源的合并、取样、查重、语义矛盾等多种标准数据准备算法,同时应能够支持自定义规整算子的添加以及数据修改。
(2)自助式可视化数据分析工具
应能够连接到一个或多个数据源,同时应支持单数据源的多表连接和多数据源的数据融合,可以轻松的对多源数据进行整合分析而无需任何编码基础。
(3)多种数据源整合
应能够支持企业应用系统及数据仓库、数据集市的多数据源无缝整合,从而实现多个数据维度的交叉分析。业务分析工具还应能够满足多类数据源的接口,且不断补充与增加更多数据源接口,可以覆盖文件、关系型数据库、大数据等业内主流数据类型与数据源,支持的数据源种类应包括但不限于:
◆关系型数据:Oracle、PostgreSQL、MySQL、MongoDB等
◆对象数据:OLap、Box等
◆文件数据:Miscosoft文件、csv、PDF等
◆大数据平台:Hadoop、Impala、Spark等
◆SQL文件:EXASOL、GoogleCloudSQL等
◆编程文件:json、python、R等
◆数据抓取工具:ApacheDrill、Tableau数据提取、ProgressOpenEdge等
(4)可靠的分析性能
分析组件的性能应能够满足数据量和分析效率的要求,同时应能够提供强大的性能调优工具,数据分析工具可以支持存储在平台中PB级数据可靠分析。
可视化业务分析工具关键技术特性应包括但不限于:用户易用性、助式开发、数据的实时定时自动刷新、支持快速实现系统集成、支持订阅式邮件分发等。
组态化数据探索环境
数据中台还应提供多种数据探索服务,以满足用户定制化业务的需求。
平台应能够为数据专家提供兼顾专业性和易用性的自定义模型服务,这种服务应能够在图形化操作界面上使用鼠标进行拖拽即可完成数据挖掘全过程,为业务专家使用提供便捷容易理解的参数设置以及大量的数据挖掘模型。应能够提供通用算子及专业算子,包括I/O类模块、DB操作类模块、数据预处理类模块、统计学模型、机器学习库。
开放式开发者环境
平台应能够提供开放式的开发环境,以实现对自定义模型的补充和扩展,用户能够以开发者认证环境进入,通过半自动工程化模板,帮助开发者聚焦核心代码开发,进一步参与平台建设的渠道,使得互联网行业所提倡的共享、共建、共赢的理念在行业延伸。
平台管理
平台管理功能应主要包括但不限于资源管理、业务监控、平台监控、平台用户管理、权限管理、配置管理、日志管理等。
资源管理:用户在创建时会被赋予默认的资源量以满足基本操作,如需扩展或调整集群的能力,应能够在线进行资源的申请,扩容,管理等操作。
业务监控:应包括监控平台上的业务应用运行情况、平台上的数据云图、数据质量等。
平台监控:应能够对集群进行管理,如添加、删除节点等操作;应能够监控集群的健康情况,对设置的各种指标和系统运行情况进行全面监控;应能够对大数据的多组件进行整合;还应能够对集群出现的问题进行诊断,对出现的问题给出建议解决方案。
用户管理:平台管理的用户分为两大类,一类是平台运维人员,一类是平台之上的应用。平台应能够指定用户的有效期、是否禁用;如果是应用用户应能够限定应用的MAC地址。平台还应提供用户的查询、增加、修改、删除等操作。
权限管理:平台权限管理应能够支持对管理工具的权限管理和对平台数据(包括元数据和业务数据)的权限管理。
配置管理:应能够实现大数据平台的各种组件(Flume、Kafka、Hive、Hbase、HDFS、Spark、yarn、ZooKeeper等)及应用(流计算规则引擎规则配置、预警模型参数配置、调度模块配置、应用告警规则配置、平台监控指标配置、绩效分析指标配置等)的配置项的增加、修改、删除以及查看。
日志管理:系统应能够提供日志记录功能;应能够采集组件接口的日志记录、日志查询等;当应用已部署至某环境时,还应能够通过点击各服务的查看日志按钮查看服务日志详情。
告警管理:系统应能够提供告警功能;
事件管理:即告警服务模块。应能够接收设备上送的事件类信息,能够提供事件的存储,查询,订阅,推送等服务,同时也应支持对接入到平台的实时数据定义产生事件的规则,以满足实时告警,故障分析等业务需求。
安全管理:系统应能够提供安全管理功能,包括但不限于:用户认证、设备认证、应用鉴权、授权管理等内容
版权声明:本文内容由网友提供,该文观点仅代表作者本人。本站(http://www.zengtui.com/)仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3933150@qq.com 举报,一经查实,本站将立刻删除。