大数据三大核心技术:拿数据、算数据、卖数据!

大数据的由来
对于“大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工纳迹碰”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大数据的应用领域
大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。
制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。
金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。
互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。
电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。
能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。
城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。
体育娱乐,大数据可以帮助我们训练球队,决定投拍哪种影视作品,以及预测比赛结果。
安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。
个人生活,大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。
大数据方面核心技术有哪些?
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
数据采集与预处理
对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
Flume NG
Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。
NDC
Logstash
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的“存储库”中。一般常用的存储库是Elasticsearch。Logstash支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web应用、数据存储以及各种AWS服务采集数据。
Sqoop
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop启用了一个MapReduce作业(极其容错的分布式并行计算)来执行任务。Sqoop的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式计算
流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
Zookeeper
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。
数据存储
Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
Phoenix
Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn
Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。
Redis
Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。
Atlas
Atlas是一个位于应用程序与

  • 澶ф暟鎹笁澶ф牳蹇冩妧鏈:鎷挎暟鎹銆绠楁暟鎹銆佸崠鏁版嵁!
    绛旓細澶ф暟鎹柟闈㈡牳蹇冩妧鏈湁鍝簺?澶ф暟鎹妧鏈殑浣撶郴搴炲ぇ涓斿鏉,鍩虹鐨勬妧鏈寘鍚暟鎹殑閲囬泦銆佹暟鎹澶勭悊銆佸垎甯冨紡瀛樺偍銆丯oSQL鏁版嵁搴撱佹暟鎹粨搴撱佹満鍣ㄥ涔犮佸苟琛岃绠椼佸彲瑙嗗寲绛夊悇绉嶆妧鏈寖鐣村拰涓嶅悓鐨勬妧鏈眰闈銆傞鍏堢粰鍑轰竴涓氱敤鍖栫殑澶ф暟鎹鐞嗘鏋,涓昏鍒嗕负涓嬮潰鍑犱釜鏂归潰:鏁版嵁閲囬泦涓庨澶勭悊銆佹暟鎹瓨鍌ㄣ佹暟鎹竻娲椼佹暟鎹煡璇㈠垎鏋愬拰鏁版嵁鍙鍖...
  • 澶ф暟鎹鍒嗘瀽鐨鎶鏈鏈夊摢浜?
    绛旓細绠鍗曡鏈変笁澶ф牳蹇冩妧鏈細鎷挎暟鎹紝绠楁暟鎹紝鍗栨暟鎹銆傞鍏堝仛涓哄ぇ鏁版嵁锛屾嬁涓嶅埌澶ч噺鏁版嵁閮界櫧鎵傜幇鍦ㄧ敱浜庢満鍣ㄥ涔犵殑鍏磋捣锛屼互鍙婁竾閲戞补绠楁硶鐨勫礇璧凤紝瀵艰嚧绠楁硶鍦颁綅涓嬮檷锛屾暟鎹湴浣嶆彁楂樹簡銆備妇涓氫織鐨勪緥瀛愶紝灏卞ソ姣旂敱浜庢暀鑲茬殑鍙戝睍锛屽鑷翠釜浜烘櫤鍔涢噸瑕佹ч檷浣庯紝鏁欒偛鑳屾櫙鍙橀噸瑕佷簡锛屽洜涓轰竴鑸汉鎸夋爣鍑嗘祦绋嬭涓功锛屽氨鑳芥瘮鐗涢】鎳傚緱...
  • 澶ф暟鎹鐨鏍稿績鎶鏈鏄痏__銆
    绛旓細澶ф暟鎹殑鏍稿績鎶鏈兜鐩栦簡鏁版嵁閲囬泦銆侀澶勭悊銆佸瓨鍌ㄧ鐞嗗拰鏁版嵁鎸栨帢绛夊涓柟闈銆傞鍏堬紝鏁版嵁閲囬泦娑夊強浠庡悇绉嶆暟鎹簮锛屽绀句氦濯掍綋銆佹棩蹇楁枃浠跺拰浼犳劅鍣ㄧ瓑锛岃嚜鍔ㄨ幏鍙栧拰鏁寸悊鏁版嵁銆傚叾娆★紝鏁版嵁棰勫鐞嗗寘鎷竻鐞嗐佽浆鎹㈠拰鏁村悎鏁版嵁锛屼互娑堥櫎鍣0銆佷笉涓鑷存э紝骞剁‘淇濇暟鎹傜敤浜庡悗缁垎鏋愩傛帴鐫锛屽ぇ鏁版嵁瀛樺偍绠$悊鎶鏈渶瑕佷娇鐢ㄥ垎甯冨紡瀛樺偍绯荤粺...
  • 澶ф暟鎹鐨鏍稿績鎶鏈鏄粈涔
    绛旓細澶ф暟鎹妧鏈殑鏍稿績浣撶郴娑夊強澶氫釜鏂归潰锛鍖呮嫭鏁版嵁閲囬泦涓庨澶勭悊銆佸垎甯冨紡瀛樺偍銆佹暟鎹簱绠$悊銆佹暟鎹粨搴撱佹満鍣ㄥ涔犮佸苟琛岃绠椾互鍙婃暟鎹彲瑙嗗寲绛銆1. 鏁版嵁閲囬泦涓庨澶勭悊锛欶lumeNG鏄竴绉嶅疄鏃舵棩蹇楁敹闆嗙郴缁燂紝鑳藉鏀寔瀹氬埗澶氱鏁版嵁鍙戦佹柟寮忥紝浠ヤ究鏈夋晥鏀堕泦鏁版嵁銆俍ookeeper鍒欐彁渚涗簡涓涓垎甯冨紡鐨勫崗璋冩湇鍔★紝纭繚鏁版嵁鍚屾銆2. 鏁版嵁瀛樺偍...
  • 澶ф暟鎹鐨鏍稿績鎶鏈鏈夊摢浜
    绛旓細澶ф暟鎹妧鏈殑浣撶郴搴炲ぇ涓斿鏉傦紝鍩虹鐨勬妧鏈寘鍚暟鎹殑閲囬泦銆佹暟鎹澶勭悊銆佸垎甯冨紡瀛樺偍銆佹暟鎹簱銆佹暟鎹粨搴撱佹満鍣ㄥ涔犮佸苟琛岃绠椼佸彲瑙嗗寲绛銆1銆佹暟鎹噰闆嗕笌棰勫鐞嗭細FlumeNG瀹炴椂鏃ュ織鏀堕泦绯荤粺锛屾敮鎸佸湪鏃ュ織绯荤粺涓畾鍒跺悇绫绘暟鎹彂閫佹柟锛岀敤浜庢敹闆嗘暟鎹紱Zookeeper鏄竴涓垎甯冨紡鐨勶紝寮鏀炬簮鐮佺殑鍒嗗竷寮忓簲鐢ㄧ▼搴忓崗璋冩湇鍔★紝鎻愪緵鏁版嵁鍚屾...
  • 澶ф暟鎹鐨鏍稿績鎶鏈鏄粈涔?鎬庝箞瀛﹀ぇ鏁版嵁姣旇緝鍚堢悊?
    绛旓細澶ф暟鎹妧鏈鐨鏍稿績鎶鏈鏄細鍦ㄥぇ鏁版嵁浜т笟涓紝涓昏鐨勫伐浣滅幆鑺傚寘鎷锛氬ぇ鏁版嵁閲囬泦銆佸ぇ鏁版嵁棰勫鐞嗐佸ぇ鏁版嵁瀛樺偍鍜岀鐞嗐澶ф暟鎹鍒嗘瀽鍜屽ぇ鏁版嵁鏄剧ず鍜屽簲鐢ㄧ殑鎸栨帢锛堝ぇ鏁版嵁妫绱佸ぇ鏁版嵁鍙鍖栥佸ぇ鏁版嵁搴旂敤銆佸ぇ鏁版嵁瀹夊叏鎬х瓑锛夈)绠鍗曞湴璇锛屼笁涓鏄暟鎹佹暟鎹佹暟鎹甀.澶ф暟鎹暟鎹鐨勮幏鍙栧拰棰勫鐞嗗ぇ鏁版嵁閲囬泦涓鑸垎涓哄ぇ鏁版嵁鏅鸿兘浼犳劅灞傦紝...
  • 澶ф暟鎹鐨鏍稿績鎶鏈鏈夊摢浜
    绛旓細澶ф暟鎹妧鏈鐨鏍稿績鍖呮嫭浠ヤ笅鍑犱釜鏂归潰锛1. 鏁版嵁閲囬泦涓庨澶勭悊锛- 鎶鏈FlumeNG琚敤浜庡疄鏃舵棩蹇楁敹闆嗭紝鏀寔鑷畾涔夋暟鎹彂閫佹柟锛屼互渚挎湁鏁堟敹闆嗘暟鎹- Zookeeper鎻愪緵鍒嗗竷寮忓簲鐢ㄧ▼搴忓崗璋冩湇鍔★紝纭繚鏁版嵁鍚屾銆2. 鏁版嵁瀛樺偍锛- Hadoop妗嗘灦锛屾棬鍦ㄦ敮鎸佺绾垮拰澶ц妯℃暟鎹鐞嗗垎鏋愶紝鍏禜DFS瀛樺偍寮曟搸宸叉垚涓烘暟鎹瓨鍌ㄧ殑閲嶈閫夋嫨銆- H...
  • 澶ф暟鎹鐨鏍稿績鎶鏈鏄粈涔?鎬庝箞瀛﹀ぇ鏁版嵁姣旇緝鍚堢悊?
    绛旓細澶ф暟鎹鐨鏍稿績鎶鏈娑电洊浜嗘暟鎹噰闆嗐侀澶勭悊銆佸瓨鍌ㄣ佺鐞嗗拰鍒嗘瀽绛夊涓柟闈傚湪澶ф暟鎹鍩燂紝涓昏宸ヤ綔鐜妭鍖呮嫭锛1. 澶ф暟鎹噰闆嗭細娑夊強鏅鸿兘浼犳劅灞傦紝鍖呮嫭鏁版嵁浼犳劅绯荤粺銆佺綉缁滈氫俊绯荤粺銆佷紶鎰熼傞厤绯荤粺銆佹櫤鑳借瘑鍒郴缁熷拰杞‖浠惰祫婧愯闂郴缁熺瓑锛屽疄鐜颁簡缁撴瀯鍖栥佸崐缁撴瀯鍖栧拰闈炵粨鏋勫寲娴烽噺鏁版嵁鐨勬櫤鑳借瘑鍒佸畾浣嶃佽窡韪佹帴鍏ャ佷紶杈撱...
  • 澶ф暟鎹鐨勬暟鎹瀛︿笌鍏抽敭鎶鏈鏄粈涔?
    绛旓細涓鑸潵璇锛屾暟鎹绉戝鐨勮繃绋嬪氨鏄湁鍘熷鏁版嵁閲囬泦锛屾暟鎹澶勭悊鍜屾竻娲楋紝鏁版嵁鎺㈢储寮忓垎鏋愶紝鏁版嵁璁$畻寤烘ā锛屾暟鎹彲瑙嗗寲鍜屾姤琛紝鏁版嵁浜у搧鍜屽喅绛栨敮鎸佺瓑鍐呭锛岃屼紶缁熶俊鎭寲鎶鏈鏄湪缁撴瀯鍖栧拰灏忚妯℃暟鎹笂杩涜璁$畻澶勭悊锛屽ぇ鏁版嵁鏃朵唬鍛紝鏁版嵁鍙樺ぇ浜嗭紝鏁版嵁澶氭簮寮傛瀯浜嗭紝闇瑕佹櫤鑳介娴嬪拰鍒嗘瀽鏀寔浜嗭紝鎵浠鏍稿績鎶鏈绂讳笉寮鏈哄櫒瀛︿範銆...
  • 澶ф暟鎹澶勭悊鎶鏈鏈夊摢浜
    绛旓細澶ф暟鎹澶勭悊鎶鏈湁浠ヤ笅鍐呭锛氫竴銆佹暟鎹寲鎺樻妧鏈 鏁版嵁鎸栨帢鎶鏈槸澶ф暟鎹鐞嗙殑鏍稿績鎶鏈涔嬩竴銆傞氳繃瀵规捣閲忔暟鎹殑鍒嗘瀽锛屾寲鎺樺嚭鏈変环鍊肩殑淇℃伅锛屼负鍐崇瓥鎻愪緵绉戝渚濇嵁銆傛暟鎹寲鎺樻妧鏈寘鎷垎绫汇佽仛绫汇佸叧鑱旇鍒欐寲鎺樼瓑銆備簩銆佷簯璁$畻鎶鏈 浜戣绠楁妧鏈湪澶ф暟鎹鐞嗕腑鍙戞尌鐫閲嶈浣滅敤銆備簯璁$畻閫氳繃缃戠粶灏嗗ぇ閲忕殑鏁版嵁璧勬簮杩涜绠$悊鍜屽鐞嗭紝...
  • 扩展阅读:学大数据学得想哭 ... 大数据真的很难学吗 ... 数据分析三大软件 ... 大数据与会计就业率 ... 什么人适合学大数据 ... 学大数据能考公务员吗 ... 学大数据好找工作吗 ... 大数据女生学难不难 ... 学大数据能挣多少钱 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网