Hadoop大數據平臺開發(fā)與案例分析高級工程師實戰(zhàn)培訓班(上海,1月9-11日)
【舉辦單位】北京曼頓培訓網 www.mdpxb.com 中國培訓資訊網 www.e71edu.com
【咨詢電話】4006820825 010-56133998 13810210257
【培訓日期】2020年1月9-11日
【培訓地點】上海
【培訓對象】各地企事業(yè)單位大數據產業(yè)相關人員,運營商 IT信息化和運維工程師相關人員,金融業(yè)信息化相關人員,或對大數據感興趣的相關人員。
【課程背景】
1.需求理解
Hadoop 設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優(yōu)點,才使得Hadoop 一出現(xiàn)就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。
對電信運營商而言,用戶上網日志包含了大量用戶個性化需求、喜好信息,對其進行分析和挖掘,能更好地了解客戶需求。傳統(tǒng)經營分析系統(tǒng)小型機加關系型數據庫的架構無法滿足對海量非結構化數據的處理需求,搭建基于X86的Hadoop 平臺,引入大數據處理技術的方式,實現(xiàn)高效率、低成本、易擴展的經營分析系統(tǒng)混搭架構成為電信運營商最為傾向的選擇。本課程將全面介紹Hadoop平臺開發(fā)和運維的各項技術,對學員使用該項技術具有很高的應用價值。
【課程架構與設計思路】
(1)培訓架構:
本課程分為三個主要部分:
第一部分:重點講述大數據技術在的應用,使學員對大數據技術的廣泛應用有清晰的認識,在這環(huán)節(jié)當中會重點介紹Hadoop技術在整個大數據技術應用中的重要地位和應用情況。
第二部分:具體對hadoop技術進行模塊化分拆,從大數據文件存儲系統(tǒng)技術和分布式文件系統(tǒng)平臺及其應用談起,介紹Hadoop技術各主要應用工具和方法,以及在運維維護當中的主流做法,使學員全面了解和掌握Hadoop技術的精華。
第三部分:重點剖析大數據的應用案例,使學員在案例當中對該項技術有更深入的感觀印象
(2)設計思路:
本課程采用模塊化教學方法,以案例分析為主線,由淺入深、循序漸進、由理論到實踐操作進行設計。
(3)與企業(yè)的貼合點:
本課程結合企業(yè)轉型發(fā)展及大數據發(fā)展戰(zhàn)略,圍繞企業(yè)大數據業(yè)務及行業(yè)應用市場拓展發(fā)展目標,重點講授Hadoop的應用技術,提升企業(yè)IT技術人員的開發(fā)和運維能力,有很強的貼合度。
【培訓目標】
掌握大數據處理平臺(Hadoop、Spark、Storm)技術架構、以及平臺的安裝部署、運維配置、應用開發(fā);掌握主流大數據Hadoop平臺和Spark實時處理平臺的技術架構和實際應用;利用Hadoop+Spark對行業(yè)大數據進行存儲管理和分析挖掘的技術應用;講解Hadoop生態(tài)系統(tǒng)組件,包括Storm,HDFS,MapReduce,HIVE,HBase,Spark,GraphX,MLib,Shark, ElasticSearch等大數據存儲管理、分布式數據庫、大型數據倉庫、大數據查詢與搜索、大數據分析挖掘與分布式處理技術
【課程大綱】
第一天 上午
第一部分:移動互聯(lián)網、大數據、云計算相關技術介紹
第二部分:大數據的挑戰(zhàn)和發(fā)展方向
理論講授+案例分析
下午
第三部分:大數據文件存儲系統(tǒng)技術和分布式文件系統(tǒng)平臺及其應用
第四部分:Hadoop文件系統(tǒng)HDFS最佳實戰(zhàn)
理論講授+案例分析+小組討論
第二天
上午
第五部分:Hadoop運維管理與性能調優(yōu)
第六部分:NOSQL數據庫Hbase與Redis
理論講授+案例分析+實戰(zhàn)演練
下午
第七部分:類SQL語句工具——Hive
第八部分:數據挖掘SPARK建;A介紹
理論講授+案例分析+實戰(zhàn)演練
第三天
上午
第九部分:Kafka基礎介紹
第十部分:大數據典型應用與開發(fā)案例分析:互聯(lián)網數據運營 理論講授+案例分析
下午
第十一部分:當前數據中心的改造和轉換分析-以國內外運營商、互聯(lián)網公司為例
第十二部分:課程總結與問題答疑
評估培訓
理論講授+案例分析+小組討論
模塊一 移動互聯(lián)網、大數據、云計算相關技術介紹
1、數據中心與云計算技術應用
2、智慧城市與云計算技術應用
3、移動互聯(lián)網、大數據與云計算關聯(lián)技術
4、移動云計算的生態(tài)系統(tǒng)及產業(yè)鏈
5、大數據技術在運營商、金融業(yè)、銀行業(yè)、電子商務行業(yè)、零售業(yè)、制造業(yè)、政務信息化、互聯(lián)網、教育信息化等行業(yè)中的應用實踐
6、國內外主流的大數據解決方案介紹
7、當前大數據解決方案與傳統(tǒng)數據庫方案的剖析比較
8、Cloudera Hadoop 大數據平臺方案剖析
9、開源的大數據生態(tài)系統(tǒng)平臺剖析
模塊二 大數據的挑戰(zhàn)和發(fā)展方向
1、大數據時代的挑戰(zhàn)
■戰(zhàn)略決策能力
■技術開發(fā)和數據處理能力
■組織和運營能力
2、大數據時代的發(fā)展方向
■云計算是基礎設施架構
■大數據是靈魂資產
■分析、挖掘是手段
■發(fā)現(xiàn)和預測是最終目標
3、大數據挖掘在各行業(yè)應用情況
■電信行業(yè)應用及案例分析
■互聯(lián)網行業(yè)應用及案例分析
■金融行業(yè)應用及案例研究
■銷售行業(yè)應用案例分析
課程模塊 課程主題 主要內容及案例和演示
模塊一 移動互聯(lián)網、大數據、云計算相關技術介紹 1、數據中心與云計算技術應用
2、智慧城市與云計算技術應用
3、移動互聯(lián)網、大數據與云計算關聯(lián)技術
4、移動云計算的生態(tài)系統(tǒng)及產業(yè)鏈
5、大數據技術在運營商、金融業(yè)、銀行業(yè)、電子商務行業(yè)、零售業(yè)、制造業(yè)、政務信息化、互聯(lián)網、教育信息化等行業(yè)中的應用實踐
6、國內外主流的大數據解決方案介紹
7、當前大數據解決方案與傳統(tǒng)數據庫方案的剖析比較
8、Cloudera Hadoop 大數據平臺方案剖析
9、開源的大數據生態(tài)系統(tǒng)平臺剖析
模塊二 大數據的挑戰(zhàn)和發(fā)展方向 1、大數據時代的挑戰(zhàn)
■戰(zhàn)略決策能力
■技術開發(fā)和數據處理能力
■組織和運營能力
2、大數據時代的發(fā)展方向
■云計算是基礎設施架構
■大數據是靈魂資產
■分析、挖掘是手段
■發(fā)現(xiàn)和預測是最終目標
3、大數據挖掘在各行業(yè)應用情況
■電信行業(yè)應用及案例分析
■互聯(lián)網行業(yè)應用及案例分析
■金融行業(yè)應用及案例研究
■銷售行業(yè)應用案例分析
模塊三 大數據文件存儲系統(tǒng)技術和分布式文件系統(tǒng)平臺及其應用 1、Hadoop的發(fā)展歷程
■Hadoop大數據平臺架構
■基于Hadoop平臺的PB級大數據存儲管理與分析處理的工作原理與機制
■Hadoop 的核心組件剖析
2、分布式文件系統(tǒng)HDFS
■概述、功能、作用、優(yōu)勢
■應用范疇、應用現(xiàn)狀
■發(fā)展趨勢
3、分布式文件系統(tǒng)HDFS架構及原理
■核心關鍵技術
■設計精髓
■基本工作原理
■系統(tǒng)架構
■文件存儲模式
■工作機制
■存儲擴容與吞吐性能擴展
4、分布式文件系統(tǒng)HDFS操作
■SHELL命令操作
■I/O流式操作
■文件數據讀取、寫入、追加、刪除
■文件狀態(tài)查詢
■數據塊分布機制
■數據同步與一致性
■元數據管理技術
■主節(jié)點與從節(jié)點工作機制
■大數據負載均衡技術
■HDFS大數據存儲集群管理技術
5、Hadoop生態(tài)系統(tǒng)組件
■Storm
■HDFS
■MapReduce
■HIVE
■HBase
■Spark
■GraphX
■MLib
■Shark
模塊四 Hadoop文件系統(tǒng)HDFS最佳實戰(zhàn)
1、HDFS的設計
2、HDFS的概念
■數據塊
■namenode和datanode
■聯(lián)邦HDFS
■HDFS的高可用性
3、命令行接口
4、Hadoop文件系統(tǒng)
5、Java接口
■從Hadoop URL讀取數據
■通過FileSystem API讀取數據
■寫入數據
■目錄
■查詢文件系統(tǒng)
■刪除數據
6、數據流
■剖析文件讀取
■剖析文件寫入
■一致模型
7、通過Flume和Sqoop導入數據
8、通過distcp并行復制
9、Hadoop存檔
■使用Hadoop存檔工具
■不足
模塊五 Hadoop運維管理與性能調優(yōu)
1、第二代大數據處理框架
■Yarn的工作原理及
■DAG并行執(zhí)行機制
■Yarn大數據分析處理案例分析
■Yarn 框架并行應用程序實踐
2、集群配置管理
■Hadoop集群配置
■Hadoop性能調優(yōu)與參數配置
■Hadoop機架感知策略與配置
■Hadoop壓縮機制
■Hadoop任務負載均衡
■Hadoop 集群維護
■Hadoop監(jiān)控管理
3、HDFS的靜態(tài)調優(yōu)技巧
■HDFS 的高吞吐量I/O性能調優(yōu)技巧
■MapReduce/Yarn的并行處理性能調優(yōu)技巧
■Hadoop集群的運行故障剖析,以及解決方案
■基于Hadoop大數據應用程序的性能瓶頸剖析與提
■Hadoop 大數據運維監(jiān)控管理系統(tǒng) HUE 平臺的安裝部署與應用配置
■Hadoop運維管理監(jiān)控系統(tǒng)Ambari平臺的安裝部配置
■Hadoop 集群運維系統(tǒng) Ganglia, Nagios的安裝部署與應用配置
模塊六 NOSQL數據庫Hbase與Redis
1、NOSQL基礎
■CAP理論
■Base與ACID
■NOSQL數據庫存儲類型
鍵值存儲
列存儲
文檔存儲
圖形存儲
2、HBase分布式數據基礎
3、安裝Hbase
4、Hbase應用
■HBase的邏輯數據模型,HBase的表、行、列族、列、單元格、版本、row key排序
■HBase的物理模型,命名空間(表空間)、表模式(Schema)的設計法則
■HBase 主節(jié)點HMaster的工作原理,HMaster的高可用配置,以及性能調優(yōu)
■HBase 從節(jié)點RegionServer(分區(qū)服務節(jié)點)的工作原理,表分區(qū)及存儲I/O高并發(fā)配置,以及性能調優(yōu)
■HBase的存儲引擎工作原理,以及HBase表數據的鍵值存儲結構,以及HFile存儲結構剖析
■HBase表設計與數據操作以及數據庫管理操作
■HBase集群的安裝部署、參數配置和性能優(yōu)化
5、HBase分布式數據庫簡介、發(fā)展歷程、應用場景、工作原理、以及應用優(yōu)勢與不足之處
■HBase分布式數據庫集群的主從式平臺架構和關鍵技術剖析
■HBase偽分布式和物理集群分布式的控制與運行配置
■HBase從節(jié)點RegionServer(分區(qū)服務節(jié)點)的工作原理,表分區(qū)及存儲I/O高并發(fā)配置,以及性能調優(yōu)
■HBase的存儲引擎工作原理,以及HBase表數據的鍵值存儲結構,以及HFile存儲結構剖析
■HBase表設計與數據操作以及數據庫管理操作
■HBase集群的安裝部署、參數配置和性能優(yōu)化
■ZooKeeper分布式協(xié)調服務系統(tǒng)的工作原理、平臺架構、集群部署應用實戰(zhàn)
■ZooKeeper集群的原理架構,以及應用配置
6、Redis內存數據庫介紹,以及業(yè)界應用案例
■Redis內存數據庫集群架構以及核心技術剖析
■Redis 集群的安裝部署與應用開發(fā)實戰(zhàn)
模塊七 類SQL語句工具——Hive
1、安裝Hive
2、示例
3、運行Hive
■配置Hive
■Hive服務
■Metastore
4、Hive與傳統(tǒng)數據庫相比
■讀時模式vs.寫時模式
■更新、事務和索引
5、HiveQL
■數據類型
■操作與函數
6、表
■托管表和外部表
■分區(qū)和桶
■存儲格式
■導入數據
■表的修改
■表的丟棄
7、查詢數據
■排序和聚集
■MapReduce腳本
■連接
■子查詢
■視圖
8、用戶定義函數
■寫UDF
■寫UDAF
模塊八 數據挖掘SPARK建模基礎介紹
1、Spark簡介
■Spark是什么
■Spark生態(tài)系統(tǒng)BDAS
2、Spark架構
■Spark分布式架構與單機多核架構的異同
3、Spark集群的安裝與部署
■Spark的安裝與部署
■Spark集群初試
4、Spark硬件配置
■Spark硬件
■Spark硬件配置流程
模塊九 Kafka基礎介紹
1、Kafka介紹
2、kafka體系結構
3、kafka設計理念簡介
4、kafka通信協(xié)議
5、kafka的偽分布安裝、集群安裝
6、kafka的shell操作、java操作
7、kafka設計理念*
8、kafka producer和consumer開發(fā)
9、Kafka分布式消息訂閱系統(tǒng)的應用介紹、平臺架構、集群部署與配置應用實戰(zhàn)
10、Flume-NG數據采集系統(tǒng)的數據流模型、平臺架構、集群部署與配置應用實戰(zhàn)
11、Hadoop與DBMS之間數據交互工具Sqoop的應用實踐,
12、Sqoop導入導出數據以及Sqoop集群部署與配置
13、Kettle 集群的平臺架構、核心技術、部署配置和應用實戰(zhàn)
14、利用Sqoop實現(xiàn) MySQL 與 Hadoop 集群之間
模塊十 大數據典型應用與開發(fā)案例分析:互聯(lián)網數據運營
1、案例1:貴州數據交易中心
■交易所交易形式:電子交易
■交易所服務:大數據交易、大數據清洗建模分析、大數據定向采購、大數據平臺技術開發(fā)
■大數據交易安全性探討分析
■數據交易中心商業(yè)模式探討分析
2、案例2:大數據應用案例:公共交通線路的智能規(guī)劃
■UrbanInsights:為公交公司提供基于訂閱訪問的大數據工具以及大數據咨詢服務
■Urban Insights數據源、數據收集、數據倉庫、數據分析——設計運營線路
■Urban Insights通過互聯(lián)網數據的運營
3、討論:浙江移動大數據應用與開發(fā)方向
模塊十一 當前數據中心的改造和轉換分析-以國內外運營商、互聯(lián)網公司為例 1、流商業(yè)大數據解決方案比較
2、主流開源云計算系統(tǒng)比較?
3、國內外代表性大數據平臺比較?
4、各廠商最新的大數據產品介紹
5、案例分析
■Facebook的SNS平臺應用
■Google的搜索引擎應用
■Rackspace的日志處理
■Verizon成立精準市場營銷部
■TelefonicaDynamicInsights推出的名為“智慧足跡”的商業(yè)服務
■中國聯(lián)通的“移動通信用戶上網記錄集中查詢與分析支撐系統(tǒng)”
【講師介紹】
張老師,曼頓培訓網(www.mdpxb.com )資深講師。 阿里大數據高級專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有:某電信集團網絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數據數據票據詳單平臺、某大型銀行大數據記錄系統(tǒng)、某大型通信運營商全國用戶上網記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數據應用項目、互聯(lián)網公共數據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。
【費用及報名】
1、費用:培訓費6800元(含培訓費、講義費);如需食宿,會務組可統(tǒng)一安排,費用自理。
2、報名咨詢:4006820825 010-56133998 56028090 13810210257 鮑老師
3、報名流程:電話登記-->填寫報名表-->發(fā)出培訓確認函
4、備注:如課程已過期,請訪問我們的網站,查詢最新課程
5、詳細資料請訪問北京曼頓培訓網:www.mdpxb.com (每月在全國開設四百多門公開課,歡迎報名學習)