大数据学习五大核心技术

学习大数据必须知道的大数据五大核心技术,相信参加过大数据培训和自学过大数据的同学对大数据都有所了解,但是对于大数据的核心技术,参加大数据培训的小伙伴可能比较清楚,但是自学的同学可能就稍差一些,今天我就给大家简单的介绍一下。

一、 数据采集与预处理

于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。

大数据培训

二、 数据存储

Hadoop是一个开放源码的框架,用于离线和大规模的数据分析。HDFS作为其核心存储引擎,在数据存储中得到了广泛的应用。

 在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持压缩选项,显著减少在磁盘上的存储空间。

三、 数据清洗

MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它大大方便了程序员在分布式系统中运行自己的程序,而无需分布式并行编程。

四、 数据查询分析

 Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。

五、 数据可视化

接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流BI平台,如国外敏捷商务平台、Qlikview、Powrerbi、国内小型商务、新兴电子商务等。

在上面的每一个阶段,保障数据的安全是不可忽视的问题。

 


上一篇:
下一篇: