Hadoop與Spark大數(shù)據(jù)開發(fā)與案例分析高級(jí)工程師實(shí)戰(zhàn)(北京,7月5-7日)
【舉辦單位】北京曼頓培訓(xùn)網(wǎng) www.mdpxb.com 中國(guó)培訓(xùn)資訊網(wǎng) www.e71edu.com
【咨詢電話】4006820825 010-56133998 13810210257
【培訓(xùn)日期】
北京,2018年7月5-7日;杭州,2018年7月19-21日
深圳,2018年8月9-11日;北京,2018年8月23-25日
【培訓(xùn)地點(diǎn)】北京、杭州、深圳
【培訓(xùn)對(duì)象】各地政府,院校云計(jì)算物聯(lián)網(wǎng)產(chǎn)業(yè)相關(guān)負(fù)責(zé)人,各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員、技術(shù)總監(jiān)、數(shù)據(jù)挖掘負(fù)責(zé)人、數(shù)據(jù)挖掘開發(fā)工程師等
【課程背景】
為貫徹落實(shí)黨中央國(guó)務(wù)院“十三五”規(guī)劃指導(dǎo)精神,實(shí)施網(wǎng)絡(luò)強(qiáng)國(guó)戰(zhàn)略,加快建設(shè)數(shù)字中國(guó);構(gòu)建高效信息網(wǎng)絡(luò),推進(jìn)物聯(lián)網(wǎng)發(fā)展;實(shí)施“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,促進(jìn)多領(lǐng)域融合發(fā)展;實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,加快政府?dāng)?shù)據(jù)開放;加強(qiáng)數(shù)據(jù)安全包含,全面保障信息系統(tǒng)安全;推進(jìn)軍民融合發(fā)展立法。要實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,把大數(shù)據(jù)作為基礎(chǔ)性戰(zhàn)略資源,全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),加快推動(dòng)數(shù)據(jù)資源共享開放和開發(fā)應(yīng)用,助力產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和社會(huì)治理創(chuàng)新。加快政府?dāng)?shù)據(jù)開放共享,促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展。
現(xiàn)如今,大數(shù)據(jù)的應(yīng)用并不僅存在于一些“理工類領(lǐng)域”,它已經(jīng)滲透到我們生活的方方面面,將來,大數(shù)據(jù)在能源、金融、電信、汽車、消費(fèi)等大多數(shù)行業(yè)都有用武之地,行業(yè)發(fā)展?jié)摿薮蟆Hツ,?guó)內(nèi)數(shù)據(jù)創(chuàng)業(yè)已是風(fēng)起云涌,其實(shí),2016才是真正意義上的大數(shù)據(jù)元年。據(jù)IDC預(yù)測(cè),到2020年,大數(shù)據(jù)分析技術(shù)將成為所有國(guó)家經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵動(dòng)力。大數(shù)據(jù)分析及其相關(guān)的市場(chǎng)的復(fù)合年增長(zhǎng)率將達(dá)到26.4%,在2018年全球?qū)l(fā)展到415億美元的規(guī)模。同時(shí),IDC認(rèn)為,到2020年大數(shù)據(jù)分析技術(shù)將成為所有國(guó)家經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵動(dòng)力。然而大數(shù)據(jù)架構(gòu)最火熱的莫過于Hadoop,Spark和Storm這三種
【課程目標(biāo)】
1、了解Hadoop與Spark的歷史及目前發(fā)展的現(xiàn)狀、以及Hadoop與Spark的技術(shù)特點(diǎn),從而把握分布式計(jì)算框架及未來發(fā)展方向,在大數(shù)據(jù)時(shí)代能為企業(yè)的技術(shù)選型及架構(gòu)設(shè)計(jì)提供決策參考。
2、全面掌握Hadoop與Spark的架構(gòu)原理和使用場(chǎng)景,并通過貫穿課程的項(xiàng)目進(jìn)行實(shí)戰(zhàn)鍛煉,從而熟練使用Hadoop進(jìn)行MapReduce程序開發(fā)。課程還涵蓋了分布式計(jì)算領(lǐng)域的常用算法介紹,幫助學(xué)員為企業(yè)在利用大數(shù)據(jù)方面體現(xiàn)自身價(jià)值。
3、深入理解Hadoop與Spark技術(shù)架構(gòu),對(duì)Hadoop與Spark運(yùn)作機(jī)制有清晰全面的認(rèn)識(shí),可以獨(dú)立規(guī)劃及部署生產(chǎn)環(huán)境的Hadoop與Spark集群,掌握Hadoop與Spark基本運(yùn)維思路和方法,對(duì)Hadoop與Spark集群進(jìn)行管理和優(yōu)化。
【培訓(xùn)特色】
■注重應(yīng)用:分析國(guó)內(nèi)實(shí)際情況,結(jié)合國(guó)際、國(guó)內(nèi)成功經(jīng)驗(yàn)。采用實(shí)戰(zhàn)的項(xiàng)目,讓學(xué)員在短時(shí)間內(nèi)掌握Hadoop與Spark的搭建與配置。并進(jìn)行高效的大數(shù)據(jù)清洗和分析。
■形式靈活:互動(dòng)課堂、免費(fèi)技術(shù)沙龍、提供云計(jì)算項(xiàng)目建設(shè)咨詢、大數(shù)據(jù)Hadoop平臺(tái)的搭建。
【課程大綱】
HADOOP模塊
模塊一 Hadoop在云計(jì)算技術(shù)的作用和地位
■傳統(tǒng)大規(guī)模系統(tǒng)存在的問題
■Hadoop概述
■Hadoop分布式文件系統(tǒng)
■MapReduce工作原理
■Hadoop集群剖析
■Hadoop生態(tài)系統(tǒng)對(duì)一種新的解決方案的需求
■Hadoop的行業(yè)應(yīng)用案例分析
■Hadoop在云計(jì)算和大數(shù)據(jù)的位置和關(guān)系
■數(shù)據(jù)開放,數(shù)據(jù)云服務(wù)平臺(tái)(DAAS)時(shí)代
■Hadoop平臺(tái)在數(shù)據(jù)云平臺(tái)(DAAS)上的天然優(yōu)勢(shì)
■數(shù)據(jù)云平臺(tái)(DAAS 平臺(tái))組成部分
■互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)案例
■Hadoop構(gòu)建構(gòu)建游戲云(Web Game Daas)平臺(tái)
模塊二 Hadoop生態(tài)系統(tǒng)介紹和演示
■Hadoop HDFS 和 MapReduce
■Hadoop數(shù)據(jù)庫(kù)之HBase
■Hadoop數(shù)據(jù)倉(cāng)庫(kù)之Hive
■Hadoop數(shù)據(jù)處理腳本Pig
■Hadoop數(shù)據(jù)接口Sqoop和Flume,Scribe DataX
■Hadoop工作流引擎 Oozie
■運(yùn)用Hadoop自下而上構(gòu)建大規(guī)模企業(yè)數(shù)據(jù)倉(cāng)庫(kù)
■暴風(fēng)影音數(shù)據(jù)倉(cāng)庫(kù)實(shí)戰(zhàn)解析
模塊三 Hadoop組件詳解
■Hadoop HDFS 基本結(jié)構(gòu)
■Hadoop HDFS 副本存放策略
■Hadoop NameNode 詳解
■HadoopSecondaryNameNode 詳解
■Hadoop DataNode 詳解
■Hadoop JobTracker 詳解
■Hadoop TaskTracker 詳解
■Hadoop Mapper類核心代碼
■Hadoop Reduce類核心代碼
■Hadoop 核心代碼
模塊四 Hadoop安裝和部署
■Hadoop系統(tǒng)模塊組件概述
■Hadoop試驗(yàn)集群的部署結(jié)構(gòu)
■Hadoop 安裝依賴關(guān)系
■Hadoop 生產(chǎn)環(huán)境的部署結(jié)構(gòu)
■Hadoop集群部署
■Hadoop 高可用配置方法
■Hadoop 集群簡(jiǎn)單測(cè)試方法
■Hadoop 集群異常Debug方法
■Hadoop安裝部署實(shí)驗(yàn)
■Red hat Linux基礎(chǔ)環(huán)境搭建
■Hadoop 單機(jī)系統(tǒng)版本安裝配置
■Hadoop 集群系統(tǒng)版本安裝和啟動(dòng)配置
■使用 Hadoop MapReduce Streaming 快速測(cè)試系統(tǒng)
■Hadoopcore-site,hdfs-site,mapred-site 配置詳解
模塊五 Hadoop集群規(guī)劃
■Hadoop 集群內(nèi)存要求
■Hadoop集群磁盤分區(qū)
■集群和網(wǎng)絡(luò)拓?fù)湟?br />
■集群軟件的端口配置
■針對(duì)NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同組件需求推薦服務(wù)器配置
模塊六 MapReduce 算法原理
■Hadoop MapReduce 算法的原理和優(yōu)化思想
■靈活運(yùn)用MapReduce 實(shí)現(xiàn)算法
■運(yùn)用MapReduce 構(gòu)建數(shù)據(jù)庫(kù)算法
■Select Sort GrougBy Sum Count
■Join 新進(jìn)流失算法
■使用 Y-Smart 快速轉(zhuǎn)換SQL 為MapReduce 代碼
模塊七 編寫MapReduce高級(jí)程序
■使用 Hadoop MapReduce Streaming 編程
■MapReduce流程
■剖析一個(gè)MapReduce程序
■基本MapReduceAPI概念
■驅(qū)動(dòng)代碼 Mapper、Reducer
■Hadoop流
■API 使用Eclipse進(jìn)行快速開發(fā)
■新MapReduce API
■MapReduce的優(yōu)化
■MapReduce的任務(wù)調(diào)度
■MapReduce編程實(shí)戰(zhàn)
■如何利用其他Hadoop相關(guān)技術(shù),包括Apache Hive, Apache Pig,Sqoop和Oozie等
■滿足解決實(shí)際數(shù)據(jù)分析問題的高級(jí)Hadoop API
■Hadoop Streaming 和 Java MapReduce Api 差異。
■MapReduce 實(shí)現(xiàn)數(shù)據(jù)庫(kù)功能
■利用Combiners來減少中間數(shù)據(jù)
■編寫Partitioner來優(yōu)化負(fù)載平衡
■直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
■Hadoop的join操作
■輔助排序在Reducer方的合并
■定制Writables和WritableComparables
■使用SequenceFiles和Avro文件保存二進(jìn)制數(shù)據(jù)
■創(chuàng)建InputFormats OutputFormats
■Hadoop的二次排序
■Hadoop的海量日志分析
■在Map方的合并
模塊八
集成Hadoop到現(xiàn)有工作流
及Hadoop API深入探討
■存儲(chǔ)系統(tǒng)
■利用Sqoop從關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)中導(dǎo)入數(shù)據(jù)到Hadoop
■利用Flume導(dǎo)入實(shí)時(shí)數(shù)據(jù)到Hadoop
■ToolRunner介紹、使用MRUnit進(jìn)行測(cè)試
■使用Configure和Close方法來進(jìn)行Map/Reduce設(shè)置和關(guān)閉
■使用FuseDFS和Hadoop訪問HDFS
■使用分布式緩存(Distributed Cache)
■直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
■利用Combiners來減少中間數(shù)據(jù)
■編寫Partitioner來優(yōu)化負(fù)載平衡
模塊九 使用Hive和Pig開發(fā)及技巧
■Hive和Pig基礎(chǔ)
■Hive的作用和原理說明
■Hadoop倉(cāng)庫(kù)和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的協(xié)作關(guān)系
■Hadoop/Hive倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)流
■Hive 部署和安裝
■Hive Cli 的基本用法
■HQL基本語法
■運(yùn)用Pig 過濾用戶數(shù)據(jù)
■使用JDBC 連接Hive進(jìn)行查詢和分析
■使用正則表達(dá)式加載數(shù)據(jù)
■HQL高級(jí)語法
■編寫UDF函數(shù)
■編寫UDAF自定義函數(shù)
■基于Hive腳本內(nèi)嵌Streaming 編程
模塊十 Hbase安裝和使用
Hbase 安裝部署
Hbase原理和結(jié)構(gòu)
■Hbase 運(yùn)維和管理
使用Hbase+Hive 提供 OLAP SQL查詢能力
使用Hbase+Phoenix提供 OLTP SQL能力
■基于Hbase 的時(shí)間序列數(shù)據(jù)庫(kù) OpenTsDb 結(jié)構(gòu)解析
模塊十一 Hadoop2.0 集群探索
■Hadoop2.0 HDFS 原理
■Hadoop2.0 Yarn 原理
■Hadoop2.0 生態(tài)系統(tǒng)
■基于Hadoop2.0 構(gòu)建分布式系統(tǒng)
模塊十二
Hadoop企業(yè)級(jí)別案例解析
■Hadoop 結(jié)構(gòu)化數(shù)據(jù)案例
■Hadoop 非結(jié)構(gòu)化案例
■Hbase 數(shù)據(jù)庫(kù)案例
■Hadoop 視頻分析案例
■利用大數(shù)據(jù)分析改進(jìn)交通管理
■區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用案例
■銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺(tái)
■廣東移動(dòng)省公司請(qǐng)賬單系統(tǒng)
■上海電信網(wǎng)絡(luò)優(yōu)化
■某通信運(yùn)營(yíng)商全國(guó)用戶上網(wǎng)記錄
■浙江臺(tái)州市智能交通系統(tǒng)
■移動(dòng)廣州詳單實(shí)時(shí)查詢系統(tǒng)
■跨區(qū)域?qū)崟r(shí)視頻監(jiān)控系統(tǒng)
模塊十三
RedHadoop 企業(yè)版本
■運(yùn)用RedHadoop快速構(gòu)建服務(wù)集群
■運(yùn)用RedHadoop DW 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)
■基于RedHadoop Hive構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)
■靈活運(yùn)用 Hive 加速游戲數(shù)據(jù)倉(cāng)庫(kù)
■基于Pig+OpenCV大規(guī)模圖像人臉識(shí)別
模塊十四
Spark
生態(tài)介紹
■Mapreduce、storm和spark模型的比較和使用場(chǎng)景介紹
■Spark產(chǎn)生背景
■Spark(內(nèi)存計(jì)算框架)
■SparkSteaming(流式計(jì)算框架)
■Spark SQL(ad-hoc)
■Mllib(MachineLearning)
■GraphX(bagel將被代)
■DlinkDB介紹
■SparkR介紹
模塊十五
Spark
安裝部署
■Spark安裝簡(jiǎn)介
■Spark的源碼編譯
■Spark Standalone安裝
■Spark應(yīng)用程序部署工具spark-submit
■Spark的高可用性部署
模塊十六
Spark
運(yùn)行架構(gòu)和解析
■Spark的運(yùn)行架構(gòu)
■基本術(shù)語
■運(yùn)行架構(gòu)
■Spark on Standalone運(yùn)行過程
■Spark on YARN 運(yùn)行過程
■Spark運(yùn)行實(shí)例解析
■Spark on Standalone實(shí)例解析
■Spark on YARN實(shí)例解析
■比較 Standalone與YARN模式下的優(yōu)缺點(diǎn)
模塊十七
Spark
scala編程
■Scala基本語法與高階語法
■Scala基本語法
■Scala開發(fā)環(huán)境搭建
■Scala開發(fā)Spark應(yīng)用程序
■使用java編程
■使用scala編程
■使用python編程
【講師介紹】
張老師,曼頓培訓(xùn)網(wǎng)(www.mdpxb.com )資深講師。 阿里大數(shù)據(jù)高級(jí)專家,國(guó)內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對(duì)HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實(shí)際項(xiàng)目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運(yùn)維方面積累了豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn)。近年主要典型的項(xiàng)目有:某電信集團(tuán)網(wǎng)絡(luò)優(yōu)化、中國(guó)移動(dòng)某省移動(dòng)公司請(qǐng)賬單系統(tǒng)和某省移動(dòng)詳單實(shí)時(shí)查詢系統(tǒng)、中國(guó)銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺(tái)、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運(yùn)營(yíng)商全國(guó)用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項(xiàng)目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(Web Game Daas)平臺(tái)項(xiàng)目等。
【費(fèi)用及報(bào)名】
1、費(fèi)用:培訓(xùn)費(fèi)6800元(含培訓(xùn)費(fèi)、講義費(fèi));如需食宿,會(huì)務(wù)組可統(tǒng)一安排,費(fèi)用自理。
2、報(bào)名咨詢:4006820825 010-56133998 56028090 13810210257 鮑老師
3、報(bào)名流程:電話登記-->填寫報(bào)名表-->發(fā)出培訓(xùn)確認(rèn)函
4、備注:如課程已過期,請(qǐng)?jiān)L問我們的網(wǎng)站,查詢最新課程
5、詳細(xì)資料請(qǐng)?jiān)L問北京曼頓培訓(xùn)網(wǎng):www.mdpxb.com (每月在全國(guó)開設(shè)四百多門公開課,歡迎報(bào)名學(xué)習(xí))