大数据核心技术有哪些大数据技术包括哪些

\u5927\u6570\u636e\u7684\u6838\u5fc3\u6280\u672f\u6709\u54ea\u4e9b

\u5927\u6570\u636e\u6280\u672f\u7684\u4f53\u7cfb\u5e9e\u5927\u4e14\u590d\u6742\uff0c\u57fa\u7840\u7684\u6280\u672f\u5305\u542b\u6570\u636e\u7684\u91c7\u96c6\u3001\u6570\u636e\u9884\u5904\u7406\u3001\u5206\u5e03\u5f0f\u5b58\u50a8\u3001\u6570\u636e\u5e93\u3001\u6570\u636e\u4ed3\u5e93\u3001\u673a\u5668\u5b66\u4e60\u3001\u5e76\u884c\u8ba1\u7b97\u3001\u53ef\u89c6\u5316\u7b49\u30021\u3001\u6570\u636e\u91c7\u96c6\u4e0e\u9884\u5904\u7406\uff1aFlumeNG\u5b9e\u65f6\u65e5\u5fd7\u6536\u96c6\u7cfb\u7edf\uff0c\u652f\u6301\u5728\u65e5\u5fd7\u7cfb\u7edf\u4e2d\u5b9a\u5236\u5404\u7c7b\u6570\u636e\u53d1\u9001\u65b9\uff0c\u7528\u4e8e\u6536\u96c6\u6570\u636e\uff1bZookeeper\u662f\u4e00\u4e2a\u5206\u5e03\u5f0f\u7684\uff0c\u5f00\u653e\u6e90\u7801\u7684\u5206\u5e03\u5f0f\u5e94\u7528\u7a0b\u5e8f\u534f\u8c03\u670d\u52a1\uff0c\u63d0\u4f9b\u6570\u636e\u540c\u6b65\u670d\u52a1\u30022\u3001\u6570\u636e\u5b58\u50a8\uff1aHadoop\u4f5c\u4e3a\u4e00\u4e2a\u5f00\u6e90\u7684\u6846\u67b6\uff0c\u4e13\u4e3a\u79bb\u7ebf\u548c\u5927\u89c4\u6a21\u6570\u636e\u5206\u6790\u800c\u8bbe\u8ba1\uff0cHDFS\u4f5c\u4e3a\u5176\u6838\u5fc3\u7684\u5b58\u50a8\u5f15\u64ce\uff0c\u5df2\u88ab\u5e7f\u6cdb\u7528\u4e8e\u6570\u636e\u5b58\u50a8\u3002HBase\uff0c\u662f\u4e00\u4e2a\u5206\u5e03\u5f0f\u7684\u3001\u9762\u5411\u5217\u7684\u5f00\u6e90\u6570\u636e\u5e93\uff0c\u53ef\u4ee5\u8ba4\u4e3a\u662fhdfs\u7684\u5c01\u88c5\uff0c\u672c\u8d28\u662f\u6570\u636e\u5b58\u50a8\u3001NoSQL\u6570\u636e\u5e93\u30023\u3001\u6570\u636e\u6e05\u6d17\uff1aMapReduce\u4f5c\u4e3aHadoop\u7684\u67e5\u8be2\u5f15\u64ce\uff0c\u7528\u4e8e\u5927\u89c4\u6a21\u6570\u636e\u96c6\u7684\u5e76\u884c\u8ba1\u7b97\u30024\u3001\u6570\u636e\u67e5\u8be2\u5206\u6790\uff1aHive\u7684\u6838\u5fc3\u5de5\u4f5c\u5c31\u662f\u628aSQL\u8bed\u53e5\u7ffb\u8bd1\u6210MR\u7a0b\u5e8f\uff0c\u53ef\u4ee5\u5c06\u7ed3\u6784\u5316\u7684\u6570\u636e\u6620\u5c04\u4e3a\u4e00\u5f20\u6570\u636e\u5e93\u8868\uff0c\u5e76\u63d0\u4f9bHQL(HiveSQL)\u67e5\u8be2\u529f\u80fd\u3002Spark\u542f\u7528\u4e86\u5185\u5b58\u5206\u5e03\u6570\u636e\u96c6\uff0c\u9664\u4e86\u80fd\u591f\u63d0\u4f9b\u4ea4\u4e92\u5f0f\u67e5\u8be2\u5916\uff0c\u5b83\u8fd8\u53ef\u4ee5\u4f18\u5316\u8fed\u4ee3\u5de5\u4f5c\u8d1f\u8f7d\u30025\u3001\u6570\u636e\u53ef\u89c6\u5316\uff1a\u5bf9\u63a5\u4e00\u4e9bBI\u5e73\u53f0\uff0c\u5c06\u5206\u6790\u5f97\u5230\u7684\u6570\u636e\u8fdb\u884c\u53ef\u89c6\u5316\uff0c\u7528\u4e8e\u6307\u5bfc\u51b3\u7b56\u670d\u52a1\u3002

\u5927\u6570\u636e\u6280\u672f\u5305\u62ec\u6570\u636e\u6536\u96c6\u3001\u6570\u636e\u5b58\u53d6\u3001\u57fa\u7840\u67b6\u6784\u3001\u6570\u636e\u5904\u7406\u3001\u7edf\u8ba1\u5206\u6790\u3001\u6570\u636e\u6316\u6398\u3001\u6a21\u578b\u9884\u6d4b\u3001\u7ed3\u679c\u5448\u73b0\u3002

1\u3001\u6570\u636e\u6536\u96c6\uff1a\u5728\u5927\u6570\u636e\u7684\u751f\u547d\u5468\u671f\u4e2d\uff0c\u6570\u636e\u91c7\u96c6\u5904\u4e8e\u7b2c\u4e00\u4e2a\u73af\u8282\u3002\u6839\u636eMapReduce\u4ea7\u751f\u6570\u636e\u7684\u5e94\u7528\u7cfb\u7edf\u5206\u7c7b\uff0c\u5927\u6570\u636e\u7684\u91c7\u96c6\u4e3b\u8981\u67094\u79cd\u6765\u6e90\uff1a\u7ba1\u7406\u4fe1\u606f\u7cfb\u7edf\u3001Web\u4fe1\u606f\u7cfb\u7edf\u3001\u7269\u7406\u4fe1\u606f\u7cfb\u7edf\u3001\u79d1\u5b66\u5b9e\u9a8c\u7cfb\u7edf\u3002
2\u3001\u6570\u636e\u5b58\u53d6\uff1a\u5927\u6570\u636e\u7684\u5b58\u53bb\u91c7\u7528\u4e0d\u540c\u7684\u6280\u672f\u8def\u7ebf\uff0c\u5927\u81f4\u53ef\u4ee5\u5206\u4e3a3\u7c7b\u3002\u7b2c1\u7c7b\u4e3b\u8981\u9762\u5bf9\u7684\u662f\u5927\u89c4\u6a21\u7684\u7ed3\u6784\u5316\u6570\u636e\u3002\u7b2c2\u7c7b\u4e3b\u8981\u9762\u5bf9\u7684\u662f\u534a\u7ed3\u6784\u5316\u548c\u975e\u7ed3\u6784\u5316\u6570\u636e\u3002\u7b2c3\u7c7b\u9762\u5bf9\u7684\u662f\u7ed3\u6784\u5316\u548c\u975e\u7ed3\u6784\u5316\u6df7\u5408\u7684\u5927\u6570\u636e\uff0c
3\u3001\u57fa\u7840\u67b6\u6784\uff1a\u4e91\u5b58\u50a8\u3001\u5206\u5e03\u5f0f\u6587\u4ef6\u5b58\u50a8\u7b49\u3002
4\u3001\u6570\u636e\u5904\u7406\uff1a\u5bf9\u4e8e\u91c7\u96c6\u5230\u7684\u4e0d\u540c\u7684\u6570\u636e\u96c6\uff0c\u53ef\u80fd\u5b58\u5728\u4e0d\u540c\u7684\u7ed3\u6784\u548c\u6a21\u5f0f\uff0c\u5982\u6587\u4ef6\u3001XML \u6811\u3001\u5173\u7cfb\u8868\u7b49\uff0c\u8868\u73b0\u4e3a\u6570\u636e\u7684\u5f02\u6784\u6027\u3002\u5bf9\u591a\u4e2a\u5f02\u6784\u7684\u6570\u636e\u96c6\uff0c\u9700\u8981\u505a\u8fdb\u4e00\u6b65\u96c6\u6210\u5904\u7406\u6216\u6574\u5408\u5904\u7406\uff0c\u5c06\u6765\u81ea\u4e0d\u540c\u6570\u636e\u96c6\u7684\u6570\u636e\u6536\u96c6\u3001\u6574\u7406\u3001\u6e05\u6d17\u3001\u8f6c\u6362\u540e\uff0c\u751f\u6210\u5230\u4e00\u4e2a\u65b0\u7684\u6570\u636e\u96c6\uff0c\u4e3a\u540e\u7eed\u67e5\u8be2\u548c\u5206\u6790\u5904\u7406\u63d0\u4f9b\u7edf\u4e00\u7684\u6570\u636e\u89c6\u56fe\u3002
5\u3001\u7edf\u8ba1\u5206\u6790\uff1a\u5047\u8bbe\u68c0\u9a8c\u3001\u663e\u8457\u6027\u68c0\u9a8c\u3001\u5dee\u5f02\u5206\u6790\u3001\u76f8\u5173\u5206\u6790\u3001T\u68c0\u9a8c\u3001\u65b9\u5dee\u5206\u6790\u3001\u5361\u65b9\u5206\u6790\u3001\u504f\u76f8\u5173\u5206\u6790\u3001\u8ddd\u79bb\u5206\u6790\u3001\u56de\u5f52\u5206\u6790\u3001\u7b80\u5355\u56de\u5f52\u5206\u6790\u3001\u591a\u5143\u56de\u5f52\u5206\u6790\u3001\u9010\u6b65\u56de\u5f52\u3001\u56de\u5f52\u9884\u6d4b\u4e0e\u6b8b\u5dee\u5206\u6790\u3001\u5cad\u56de\u5f52\u3001logistic\u56de\u5f52\u5206\u6790\u3001\u66f2\u7ebf\u4f30\u8ba1\u3001\u56e0\u5b50\u5206\u6790\u3001\u805a\u7c7b\u5206\u6790\u3001\u4e3b\u6210\u5206\u5206\u6790\u3001\u56e0\u5b50\u5206\u6790\u3001\u5feb\u901f\u805a\u7c7b\u6cd5\u4e0e\u805a\u7c7b\u6cd5\u3001\u5224\u522b\u5206\u6790\u3001\u5bf9\u5e94\u5206\u6790\u3001\u591a\u5143\u5bf9\u5e94\u5206\u6790(\u6700\u4f18\u5c3a\u5ea6\u5206\u6790)\u3001bootstrap\u6280\u672f\u7b49\u7b49\u3002
6\u3001\u6570\u636e\u6316\u6398\uff1a\u76ee\u524d\uff0c\u8fd8\u9700\u8981\u6539\u8fdb\u5df2\u6709\u6570\u636e\u6316\u6398\u548c\u673a\u5668\u5b66\u4e60\u6280\u672f\uff1b\u5f00\u53d1\u6570\u636e\u7f51\u7edc\u6316\u6398\u3001\u7279\u5f02\u7fa4\u7ec4\u6316\u6398\u3001\u56fe\u6316\u6398\u7b49\u65b0\u578b\u6570\u636e\u6316\u6398\u6280\u672f\uff1b\u7a81\u7834\u57fa\u4e8e\u5bf9\u8c61\u7684\u6570\u636e\u8fde\u63a5\u3001\u76f8\u4f3c\u6027\u8fde\u63a5\u7b49\u5927\u6570\u636e\u878d\u5408\u6280\u672f\uff1b\u7a81\u7834\u7528\u6237\u5174\u8da3\u5206\u6790\u3001\u7f51\u7edc\u884c\u4e3a\u5206\u6790\u3001\u60c5\u611f\u8bed\u4e49\u5206\u6790\u7b49\u9762\u5411\u9886\u57df\u7684\u5927\u6570\u636e\u6316\u6398\u6280\u672f\u3002
7\u3001\u6a21\u578b\u9884\u6d4b\uff1a\u9884\u6d4b\u6a21\u578b\u3001\u673a\u5668\u5b66\u4e60\u3001\u5efa\u6a21\u4eff\u771f\u3002
8\u3001\u7ed3\u679c\u5448\u73b0\uff1a\u4e91\u8ba1\u7b97\u3001\u6807\u7b7e\u4e91\u3001\u5173\u7cfb\u56fe\u7b49\u3002

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
1、数据采集与预处理：FlumeNG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据；Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。
2、数据存储：Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。
3、数据清洗：MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算。
4、数据查询分析：Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
5、数据可视化：对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。

一、数据采集与预处理

对于各种来源的数据，包括移动互联网数据、社交网络的数据等，这些结构化和非结构化的海量数据是零散的，也就是所谓的数据孤岛，此时的这些数据并没有什么意义，数据采集就是将这些数据写入数据仓库中，把零散的数据整合在一起，对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候，可以写个定时的脚本将日志写入存储系统，但随着数据量的增长，这些方法无法提供数据安全保障，并且运维困难，需要更强壮的解决方案。

Flume NG作为实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理，并写到各种数据接收方(比如文本，HDFS，Hbase等)。Flume NG采用的是三层架构：Agent层，Collector层和Store层，每一层均可水平拓展。其中Agent包含Source，Channel和 Sink，source用来消费（收集）数据源到channel组件中，channel作为中间临时存储，保存所有source的组件信息，sink从channel中读取数据，读取成功之后会删除channel中的信息。

NDC，Netease Data Canal，直译为网易数据运河系统，是网易针对结构化数据库的数据实时迁移、同步和订阅的平台化解决方案。它整合了网易过去在数据传输领域的各种工具和经验，将单机数据库、分布式数据库、OLAP系统以及下游应用通过数据链路串在一起。除了保障高效的数据传输外，NDC的设计遵循了单元化和平台化的设计哲学。

Logstash是开源的服务器端数据处理管道，能够同时从多个来源采集数据、转换数据，然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择，可以在同一时间从众多常用的数据来源捕捉事件，能够以连续的流式传输方式，轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。

Sqoop，用来将关系型数据库和Hadoop中的数据进行相互转移的工具，可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中，也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业（极其容错的分布式并行计算）来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。

流式计算是行业研究的一个热点，流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析，可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈，目前大数据流分析工具有很多，比如开源的strom，spark streaming等。

Strom集群结构是有一个主节点（nimbus）和多个工作节点（supervisor）组成的主从结构，主节点通过配置静态指定或者在运行时动态选举，nimbus与supervisor都是Storm提供的后台守护进程，之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology（包括topology的发布、任务指派、事件处理时重新指派任务等）。supervisor进程等待nimbus分配任务后生成并监控worker（jvm进程）执行任务。supervisor与worker运行在不同的jvm上，如果由supervisor启动的某个worker因为错误异常退出（或被kill掉），supervisor会尝试重新生成新的worker进程。

当使用上游模块的数据进行计算、统计、分析时，就可以使用消息系统，尤其是分布式消息系统。Kafka使用Scala进行编写，是一种分布式的、基于发布/订阅的消息系统。Kafka的设计理念之一就是同时提供离线处理和实时处理,以及将数据实时备份到另一个数据中心，Kafka可以有许多的生产者和消费者分享多个主题，将消息以topic为单位进行归纳；Kafka发布消息的程序称为producer，也叫生产者，预订topics并消费消息的程序称为consumer，也叫消费者；当Kafka以集群的方式运行时，可以由一个服务或者多个服务组成，每个服务叫做一个broker，运行过程中producer通过网络将消息发送到Kafka集群，集群向消费者提供消息。Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker，Consumer使用pull模式从broker订阅并消费消息。Kafka可以和Flume一起工作，如果需要将流式数据从Kafka转移到hadoop，可以使用Flume代理agent，将Kafka当做一个来源source，这样可以从Kafka读取数据到Hadoop。

Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置，那么对这个地方的配置感兴趣的所有的都可以获得变更，省去了手动拷贝配置的繁琐，还很好的保证了数据的可靠和一致性，同时它可以通过名字来获取资源或者服务的地址等信息，可以监控集群中机器的变化，实现了类似于心跳机制的功能。

二、数据存储

Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。

HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统，部署在hdfs上，克服了hdfs在随机读写这个方面的缺点，与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

Phoenix，相当于一个Java中间件，帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。

Yarn是一种Hadoop资源管理器，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成：一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。

Mesos是一款开源的集群管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。

Redis是一种速度非常快的非关系数据库，可以存储键与5种不同类型的值之间的映射，可以将存储在内存的键值对数据持久化到硬盘中，使用复制特性来扩展性能，还可以使用客户端分片来扩展写性能。

Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来，Atlas相当于连接它的客户端，在前端应用看来，Atlas相当于一个DB。Atlas作为服务端与应用程序通讯，它实现了MySQL的客户端和服务端协议，同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节，同时为了降低MySQL负担，它还维护了连接池。Atlas启动后会创建多个线程，其中一个为主线程，其余为工作线程。主线程负责监听所有的客户端连接请求，工作线程只监听主线程的命令请求。

Kudu是围绕Hadoop生态圈建立的存储引擎，Kudu拥有和Hadoop生态圈共同的设计理念，它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu不但提供了行级的插入、更新、删除API，同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储，既可以进行随机读写，也可以满足数据分析的要求。Kudu的应用场景很广泛，比如可以进行实时的数据分析，用于数据可能会存在变化的时序数据应用等。

在数据存储过程中，涉及到的数据表都是成千上百列，包含各种复杂的Query，推荐使用列式存储方法，比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项，显著减少磁盘上的存储。

三、数据清洗

MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算，”Map（映射）”和”Reduce（归约）”，是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统中。

随着业务数据量的增多，需要进行训练和清洗的数据会变得越来越复杂，这个时候就需要任务调度系统，比如oozie或者azkaban，对关键任务进行调度和监控。

Oozie是用于Hadoop平台的一种工作流调度引擎，提供了RESTful API接口来接受用户的提交请求(提交工作流作业)，当提交了workflow后，由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业)，然后向Oozie提交Workflow，Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因，用户程序不必等待作业执行完成（因为有些大作业可能会执行很久(几个小时甚至几天)）。Oozie在后台以异步方式，再将workflow对应的Action提交给hadoop执行。

Azkaban也是一种工作流的控制引擎，可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、认证、调度以及对工作流执行过程中的监控等；Azkaban Executor Server用来调度工作流和任务，记录工作流或者任务的日志。

流计算任务的处理平台Sloth，是网易首个自研流计算平台，旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台，其特点是易用、实时、可靠，为用户节省技术方面（开发、运维）的投入，帮助用户专注于解决产品本身的流计算需求。

四、数据查询分析

Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具，将SQL操作转换为相应的MapReduce jobs，然后在hadoop上面运行。Hive支持标准的SQL语法，免去了用户编写MapReduce程序的过程，它的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。

Hive是为大数据批量处理而生的，Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce，则会有更多的写中间结果。由于MapReduce执行框架本身的特点，过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中，用户只需要创建表，导入数据，编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。

Impala是对Hive的一个补充，可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop，用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据，同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据，从而大大降低了延迟。Impala将整个查询分成一执行计划树，而不是一连串的MapReduce任务，相比Hive没了MapReduce启动时间。

Hive 适合于长时间的批处理查询分析，而Impala适合于实时交互式SQL查询，Impala给数据人员提供了快速实验，验证想法的大数据分析工具，可以先使用Hive进行数据转换处理，之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说：Impala把执行计划表现为一棵完整的执行计划树，可以更自然地分发执行计划到各个Impalad执行查询，而不用像Hive那样把它组合成管道型的map->reduce模式，以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF，能处理的问题有一定的限制。

Spark拥有Hadoop MapReduce所具有的特点，它将Job中间输出结果保存在内存中，从而不需要读取HDFS。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。

Solr用Java编写、运行在Servlet容器（如Apache Tomcat或Jetty）的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口，用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。

Elasticsearch是一个开源的全文搜索引擎，基于Lucene的搜索服务器，可以快速的储存、搜索和分析海量的数据。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

还涉及到一些机器学习语言，比如，Mahout主要目标是创建一些可伸缩的机器学习算法，供开发人员在Apache的许可下免费使用；深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等，常用的机器学习算法比如，贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。

五、数据可视化

对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。主流的BI平台比如，国外的敏捷BI Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数（可点击这里免费试用）等。

在上面的每一个阶段，保障数据的安全是不可忽视的问题。

基于网络身份认证的协议Kerberos，用来在非安全网络中，对个人通信以安全的手段进行身份认证，它允许某实体在非安全网络环境下通信，向另一个实体以一种安全的方式证明自己的身份。

控制权限的ranger是一个Hadoop集群权限框架，提供操作、监控、管理复杂的数据权限，它提供一个集中的管理机制，管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive，Hbase进行细粒度的数据访问控制。通过操作Ranger控制台，管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置，同时权限可与hadoop无缝对接。

首先我们要了解Java语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

大数据

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

大数据技术，简而言之，就是提取大数据价值的技术，是根据特定目标，经过数据收集与存储、数据筛选、算法分析与预测、数据分析结果展示等，为做出正确决策提供依据，其处理的数据量通常是TB级，甚至是PB或EB级的数据，这是传统数据处理手段所无法完成的，其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等，汇集了当前IT领域热门流行的IT技术。
想要成为炙手可热的大数据技术人才，这些大数据的核心技术一定要知晓！

一、大数据基础阶段
大数据基础阶段需掌握的技术有：Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoop mapreduce hdfs yarn等。
1、Linux命令
对于大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开源的大数据软件很受限制，因此，想从事大数据开发相关工作，还需掌握Linux基础操作命令
2、 Redis
Redis是一个key-value存储系统，其出现很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用，它提供了Java，C/C++，C#，PHP，JavaScript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便，大数据开发需掌握Redis的安装、配置及相关使用方法。
二、大数据存储阶段
大数据存储阶段需掌握的技术有：hbase、hive、sqoop等。
1、HBase
HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。
2、Hive
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。
三、大数据架构设计阶段
大数据架构设计阶段需掌握的技术有：Flume分布式、Zookeeper、Kafka等。
1、Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统，其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现！
2、Flume
Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。
3、ZooKeeper
ZooKeeper是Hadoop和Hbase的重要组件，是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等，在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。
四、大数据实时计算阶段
大数据实时计算阶段需掌握的技术有：Mahout、Spark、storm。
1、Spark
Spark是专为大规模数据处理而设计的快速通用的计算引擎，其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求，大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。
2、storm
Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算，Storm用于实时处理，就好比 Hadoop 用于批处理。Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处理数以百万计的消息。
五、大数据数据采集阶段
大数据数据采集阶段需掌握的技术有：Python、Scala。
1、Python与数据分析
Python是面向对象的编程语言，拥有丰富的库，使用简单，应用广泛，在大数据领域也有所应用，主要可用于数据采集、数据分析以及数据可视化等，因此，大数据开发需学习一定的Python知识。
2、Scala
Scala是一门多范式的编程语言，大数据开发重要框架Spark是采用Scala语言设计的，想要学好Spark框架，拥有Scala基础是必不可少的，因此，大数据开发需掌握Scala编程基础知识！
以上只是一些简单的大数据核心技术总结，比较零散，想要学习大数据的同学，还是要按照一定到的技术路线图学习！

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架，主要分为下面几个方面：数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
数据采集有硬件采集，如OBD，有软件采集，如滴滴，淘宝。数据存储就包括NOSQL，hadoop等等。数据清洗包括语议分析，流媒体格式化等等。数据挖掘包括关联分析，相似度分析，距离分析，聚类分析等等。数据可视化就是WEB的了。

澶ф暟鎹牳蹇冩妧鏈湁鍝簺
绛旓細澶ф暟鎹妧鏈殑浣撶郴搴炲ぇ涓斿鏉傦紝鍩虹鐨勬妧鏈寘鍚暟鎹殑閲囬泦銆佹暟鎹澶勭悊銆佸垎甯冨紡瀛樺偍銆佹暟鎹簱銆佹暟鎹粨搴撱佹満鍣ㄥ涔犮佸苟琛岃绠椼佸彲瑙嗗寲绛銆1銆佹暟鎹噰闆嗕笌棰勫鐞嗭細FlumeNG瀹炴椂鏃ュ織鏀堕泦绯荤粺锛屾敮鎸佸湪鏃ュ織绯荤粺涓畾鍒跺悇绫绘暟鎹彂閫佹柟锛岀敤浜庢敹闆嗘暟鎹紱Zookeeper鏄竴涓垎甯冨紡鐨勶紝寮鏀炬簮鐮佺殑鍒嗗竷寮忓簲鐢ㄧ▼搴忓崗璋冩湇鍔★紝鎻愪緵鏁版嵁鍚屾...

澶ф暟鎹鐨鏍稿績鎶鏈鏄粈涔
绛旓細澶ф暟鎹妧鏈殑鏍稿績浣撶郴娑夊強澶氫釜鏂归潰锛鍖呮嫭鏁版嵁閲囬泦涓庨澶勭悊銆佸垎甯冨紡瀛樺偍銆佹暟鎹簱绠＄悊銆佹暟鎹粨搴撱佹満鍣ㄥ涔犮佸苟琛岃绠椾互鍙婃暟鎹彲瑙嗗寲绛銆1. 鏁版嵁閲囬泦涓庨澶勭悊锛欶lumeNG鏄竴绉嶅疄鏃舵棩蹇楁敹闆嗙郴缁燂紝鑳藉鏀寔瀹氬埗澶氱鏁版嵁鍙戦佹柟寮忥紝浠ヤ究鏈夋晥鏀堕泦鏁版嵁銆俍ookeeper鍒欐彁渚涗簡涓涓垎甯冨紡鐨勫崗璋冩湇鍔★紝纭繚鏁版嵁鍚屾銆2. 鏁版嵁瀛樺偍...

澶ф暟鎹鐨鏍稿績鎶鏈湁鍝簺
绛旓細澶ф暟鎹妧鏈殑鏍稿績鍖呮嫭浠ヤ笅鍑犱釜鏂归潰锛1. 鏁版嵁閲囬泦涓庨澶勭悊锛- 鎶鏈FlumeNG琚敤浜庡疄鏃舵棩蹇楁敹闆锛屾敮鎸佽嚜瀹氫箟鏁版嵁鍙戦佹柟锛屼互渚挎湁鏁堟敹闆嗘暟鎹- Zookeeper鎻愪緵鍒嗗竷寮忓簲鐢ㄧ▼搴忓崗璋冩湇鍔★紝纭繚鏁版嵁鍚屾銆2. 鏁版嵁瀛樺偍锛- Hadoop妗嗘灦锛屾棬鍦ㄦ敮鎸佺绾垮拰澶ц妯℃暟鎹鐞嗗垎鏋愶紝鍏禜DFS瀛樺偍寮曟搸宸叉垚涓烘暟鎹瓨鍌ㄧ殑閲嶈閫夋嫨銆- H...

澶ф暟鎹鐨鏍稿績鎶鏈鏄粈涔?鎬庝箞瀛﹀ぇ鏁版嵁姣旇緝鍚堢悊?
绛旓細澶ф暟鎹殑鏍稿績鎶鏈兜鐩栦簡鏁版嵁閲囬泦銆侀澶勭悊銆佸瓨鍌ㄣ佺鐞嗗拰鍒嗘瀽绛夊涓柟闈銆傚湪澶ф暟鎹鍩燂紝涓昏宸ヤ綔鐜妭鍖呮嫭锛1. 澶ф暟鎹噰闆嗭細娑夊強鏅鸿兘浼犳劅灞傦紝鍖呮嫭鏁版嵁浼犳劅绯荤粺銆佺綉缁滈氫俊绯荤粺銆佷紶鎰熼傞厤绯荤粺銆佹櫤鑳借瘑鍒郴缁熷拰杞‖浠惰祫婧愯闂郴缁熺瓑锛屽疄鐜颁簡缁撴瀯鍖栥佸崐缁撴瀯鍖栧拰闈炵粨鏋勫寲娴烽噺鏁版嵁鐨勬櫤鑳借瘑鍒佸畾浣嶃佽窡韪佹帴鍏ャ佷紶杈撱...

澶ф暟鎹骞冲彴鏍稿績鎶鏈
绛旓細澶ф暟鎹牳蹇冩妧鏈兜鐩栦簡涓绯诲垪棰嗗煙锛鍏朵腑鍖呮嫭锛1. 鏁版嵁閲囬泦涓庨澶勭悊锛- Flume锛氬疄鏃舵棩蹇楁敹闆嗙郴缁锛岃兘澶熷畾鍒舵暟鎹彂閫佹柟浠ユ敹闆嗕笉鍚岀被鍨嬬殑鏁版嵁銆- Zookeeper锛氬垎甯冨紡搴旂敤绋嬪簭鍗忚皟鏈嶅姟锛屾彁渚涙暟鎹悓姝ュ姛鑳姐2. 鏁版嵁瀛樺偍锛- Hadoop锛氬紑婧愭鏋讹紝涓撲负绂荤嚎澶勭悊鍜屽ぇ瑙勬ā鏁版嵁鍒嗘瀽璁捐銆- HDFS锛圚adoop Distributed File ...

澶ф暟鎹鐨鏍稿績鎶鏈鏄痏__銆
绛旓細澶ф暟鎹殑鏍稿績鎶鏈兜鐩栦簡鏁版嵁閲囬泦銆侀澶勭悊銆佸瓨鍌ㄧ鐞嗗拰鏁版嵁鎸栨帢绛夊涓柟闈傞鍏堬紝鏁版嵁閲囬泦娑夊強浠庡悇绉嶆暟鎹簮锛屽绀句氦濯掍綋銆佹棩蹇楁枃浠跺拰浼犳劅鍣ㄧ瓑锛岃嚜鍔ㄨ幏鍙栧拰鏁寸悊鏁版嵁銆傚叾娆★紝鏁版嵁棰勫鐞嗗寘鎷竻鐞嗐佽浆鎹㈠拰鏁村悎鏁版嵁锛屼互娑堥櫎鍣０銆佷笉涓鑷存э紝骞剁‘淇濇暟鎹傜敤浜庡悗缁垎鏋愩傛帴鐫锛澶ф暟鎹瓨鍌绠＄悊鎶鏈渶瑕佷娇鐢ㄥ垎甯冨紡瀛樺偍绯荤粺...

澶ф暟鎹垎鏋愭湁鍝簺鏍稿績鎶鏈
绛旓細澶勭悊鍒嗘瀽鎴栧彲瑙嗗寲鐨勬湁鏁堟墜娈点傚ぇ鏁版嵁鎶鏈兘澶熷皢澶ц妯℃暟鎹腑闅愯棌鐨勪俊鎭拰鐭ヨ瘑鎸栨帢鍑烘潵锛屼负浜虹被绀句細缁忔祹娲诲姩鎻愪緵渚濇嵁锛屾彁楂樺悇涓鍩熺殑杩愯鏁堢巼锛岀敋鑷虫暣涓ぞ浼氱粡娴庣殑闆嗙害鍖栫▼搴︺1.澶ф暟鎹敓鍛藉懆鏈 2.澶ф暟鎹妧鏈敓鎬 3.澶ф暟鎹噰闆嗕笌棰勫鐞 4.澶ф暟鎹瓨鍌ㄤ笌绠＄悊 5.澶ф暟鎹绠楁ā寮忎笌绯荤粺 6.澶ф暟鎹垎鏋愪笌鍙鍖 ...

澶ф暟鎹鐨鏍稿績鎶鏈鏄痏__銆
绛旓細澶ф暟鎹殑鏍稿績鎶鏈槸澶ф暟鎹瓨鍌涓庣鐞嗘妧鏈傛嫇灞曠煡璇嗭細鍏蜂綋鏉ヨ锛屽ぇ鏁版嵁瀛樺偍涓庣鐞嗘妧鏈富瑕佸寘鎷簡澶ф暟鎹噰闆嗐佸ぇ鏁版嵁棰勫鐞銆佸ぇ鏁版嵁瀛樺偍涓庣鐞嗐佹暟鎹寲鎺樼瓑鏂归潰銆備负浜嗛珮鏁堝湴澶勭悊鍜屽垎鏋愬ぇ鏁版嵁锛岃繖浜涙妧鏈兘闇瑕侀噰鐢ㄤ竴绯诲垪鐨勮蒋纭欢宸ュ叿鍜屽钩鍙帮紝浠ュ疄鐜版暟鎹殑瀹炴椂浼犺緭銆佸瓨鍌ㄣ佸鐞嗗拰鍒嗘瀽銆傞鍏堬紝澶ф暟鎹噰闆嗘槸鎸囦粠鍚勭鏉ユ簮...

澶ф暟鎹鐨鏍稿績鎶鏈鏄粈涔?鏄暟鎹寲鎺樺悧?
绛旓細鏁版嵁鎸栨帢鏄竴绉嶉氳繃绠楁硶鍜岀粺璁″垎鏋愪粠澶ч噺鏁版嵁涓彁鍙栨ā寮忓拰鍏崇郴锛屼互鎻愪緵鍐崇瓥鏀寔鐨勭瀛︾爺绌躲傚畠鏄澶ф暟鎹垎鏋鐨勬牳蹇冩妧鏈箣涓锛屼絾骞朵笉绛夊悓浜庡ぇ鏁版嵁鐨勫叏閮ㄣ傚ぇ鏁版嵁鎸囩殑鏄棤娉曠敤甯歌杞欢宸ュ叿鍦ㄥ悎鐞嗘椂闂村唴鎹曟崏銆佺鐞嗗拰澶勭悊鐨勬暟鎹泦鍚堬紝鍏剁壒鐐规槸澶ч噺锛圴olume锛夈佸揩閫燂紙Velocity锛夊拰澶氭牱锛圴ariety锛夈傛暟鎹寲鎺樺寘鎷絾涓嶉檺...

澶ф暟鎹涓夊ぇ鏍稿績鎶鏈:鎷挎暟鎹佺畻鏁版嵁銆佸崠鏁版嵁!
绛旓細澶ф暟鎹柟闈㈡牳蹇冩妧鏈湁鍝簺?澶ф暟鎹妧鏈殑浣撶郴搴炲ぇ涓斿鏉,鍩虹鐨勬妧鏈寘鍚暟鎹殑閲囬泦銆佹暟鎹澶勭悊銆佸垎甯冨紡瀛樺偍銆丯oSQL鏁版嵁搴撱佹暟鎹粨搴撱佹満鍣ㄥ涔犮佸苟琛岃绠椼佸彲瑙嗗寲绛夊悇绉嶆妧鏈寖鐣村拰涓嶅悓鐨勬妧鏈眰闈傞鍏堢粰鍑轰竴涓氱敤鍖栫殑澶ф暟鎹鐞嗘鏋,涓昏鍒嗕负涓嬮潰鍑犱釜鏂归潰:鏁版嵁閲囬泦涓庨澶勭悊銆鏁版嵁瀛樺偍銆鏁版嵁娓呮礂銆鏁版嵁鏌ヨ鍒嗘瀽鍜鏁版嵁鍙鍖...

扩展阅读：学大数据学得想哭 ... 大数据与会计就业率 ... 学大数据技术有前途吗 ... 学大数据好找工作吗 ... 大数据考研最佳专业 ... 什么人适合学大数据 ... 女生学大数据靠谱吗 ... 为什么不建议学大数据 ... 大数据真的很难学吗 ...

车视网

大数据核心技术有哪些 大数据技术包括哪些

大数据核心技术有哪些大数据技术包括哪些