大數(shù)據(jù)建模與分析挖掘應(yīng)用實(shí)戰(zhàn)(北京,7月8-10日)
【舉辦單位】北京曼頓培訓(xùn)網(wǎng) www.mdpxb.com 中國(guó)培訓(xùn)資訊網(wǎng) www.e71edu.com
【咨詢電話】4006820825 010-56133998 13810210257
【培訓(xùn)日期】
北京,2018年7月8-10日;杭州,2018年7月22-24日
深圳,2018年8月12-14日;北京,2018年8月26-28日
【培訓(xùn)地點(diǎn)】北京、杭州、深圳
【培訓(xùn)對(duì)象】
1.大數(shù)據(jù)分析應(yīng)用開發(fā)工程師
2.大數(shù)據(jù)分析項(xiàng)目的規(guī)劃咨詢管理人員
3.大數(shù)據(jù)分析項(xiàng)目的IT項(xiàng)目高管人員
4.大數(shù)據(jù)分析與挖掘處理算法應(yīng)用工程師
5.大數(shù)據(jù)分析集群運(yùn)維工程師
6.大數(shù)據(jù)分析項(xiàng)目的售前和售后技術(shù)支持服務(wù)人員
【課程背景】
大數(shù)據(jù)建模與分析挖掘技術(shù)已經(jīng)逐步地應(yīng)用到新興互聯(lián)網(wǎng)企業(yè)(如電子商務(wù)網(wǎng)站、搜索引擎、社交網(wǎng)站、互聯(lián)網(wǎng)廣告服務(wù)提供商等)、銀行金融證券企業(yè)、電信運(yùn)營(yíng)等行業(yè),給這些行業(yè)帶來(lái)了一定的數(shù)據(jù)價(jià)值增值作用。
■本次課程面向有一定的數(shù)據(jù)分析挖掘算法基礎(chǔ)的工程師,帶大家實(shí)踐大數(shù)據(jù)分析挖掘平臺(tái)的項(xiàng)目訓(xùn)練,系統(tǒng)地講解數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、挖掘模型建立、大數(shù)據(jù)分析與挖掘算法應(yīng)用在業(yè)務(wù)模型中,結(jié)合主流的Hadoop與Spark大數(shù)據(jù)分析平臺(tái)架構(gòu),實(shí)現(xiàn)項(xiàng)目訓(xùn)練。
■結(jié)合業(yè)界使用最廣泛的主流大數(shù)據(jù)平臺(tái)技術(shù),重點(diǎn)剖析基于大數(shù)據(jù)分析算法與BI技術(shù)應(yīng)用,包括分類算法、聚類算法、預(yù)測(cè)分析算法、推薦分析模型等在業(yè)務(wù)中的實(shí)踐應(yīng)用,并根據(jù)講師給定的數(shù)據(jù)集,實(shí)現(xiàn)兩個(gè)基本的日志數(shù)據(jù)分析挖掘系統(tǒng),以及電商(或內(nèi)容)推薦系統(tǒng)引擎。
■本課程基本的實(shí)踐環(huán)境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。
■學(xué)員需要準(zhǔn)備的電腦最好是i7三代及以上CPU,8GB及以上內(nèi)存,硬盤空間預(yù)留50GB(可用移動(dòng)硬盤),基本的大數(shù)據(jù)分析平臺(tái)所依賴的軟件包和依賴庫(kù)等,講師已經(jīng)提前部署在虛擬機(jī)鏡像(VMware鏡像),學(xué)員根據(jù)講師的操作任務(wù)進(jìn)行實(shí)踐。
■本課程采用技術(shù)原理與項(xiàng)目實(shí)戰(zhàn)相結(jié)合的方式進(jìn)行教學(xué),在講授原理的過(guò)程中,穿插實(shí)際的系統(tǒng)操作,本課程講師也精心準(zhǔn)備的實(shí)際的應(yīng)用案例供學(xué)員動(dòng)手訓(xùn)練。
【培訓(xùn)目標(biāo)】
1.本課程讓學(xué)員充分掌握大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)、大數(shù)據(jù)分析的基本理論、機(jī)器學(xué)習(xí)的常用算法、國(guó)內(nèi)外主流的大數(shù)據(jù)分析與BI商業(yè)智能分析解決方案、以及大數(shù)據(jù)分析在搜索引擎、廣告服務(wù)推薦、電商數(shù)據(jù)分析、金融客戶分析方面的應(yīng)用案例。
2.本課程強(qiáng)調(diào)主流的大數(shù)據(jù)分析挖掘算法技術(shù)的應(yīng)用和分析平臺(tái)的實(shí)施,讓學(xué)員掌握主流的基于大數(shù)據(jù)Hadoop和Spark的大數(shù)據(jù)分析平臺(tái)架構(gòu)和實(shí)際應(yīng)用,并用結(jié)合實(shí)際的生產(chǎn)系統(tǒng)案例進(jìn)行教學(xué),掌握基于Hadoop、spark大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)分布式系統(tǒng)平臺(tái)應(yīng)用,以及商業(yè)和開源的數(shù)據(jù)分析產(chǎn)品加上Hadoop平臺(tái)形成大數(shù)據(jù)分析平臺(tái)的應(yīng)用剖析。。
3.讓學(xué)員掌握常見的機(jī)器學(xué)習(xí)算法,深入講解業(yè)界成熟的大數(shù)據(jù)分析挖掘與BI平臺(tái)的實(shí)踐應(yīng)用,并以客戶分析系統(tǒng)、日志分析和電商推薦系統(tǒng)為案例,串聯(lián)常用的數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用教學(xué)。
【培訓(xùn)特色】
定制授課+ 實(shí)戰(zhàn)案例訓(xùn)練+ 互動(dòng)咨詢討論,共3天
【課程大綱】
模塊一 Spark ML基礎(chǔ)入門
1.1 Spark介紹
1.2 Spark ML介紹
1.3 課程的基礎(chǔ)環(huán)境
1.4 Spark SparkSession
1.5 Spark Datasets操作
1.6 Datasets操作的代碼實(shí)操
模塊二 Spark ML
Pipelines(ML管道)
2.1 Pipelines的主要概念
2.2 Pipelines實(shí)例講解
2.3 ML操作的代碼實(shí)操
2.4 使用 ML Pipeline 構(gòu)建機(jī)器學(xué)習(xí)工作流案例展示
2.5 實(shí)例的代碼實(shí)操聲
模塊三 Spark ML數(shù)學(xué)基礎(chǔ)
3.1 ML矩陣向量計(jì)算
3.2 分類效果評(píng)估指標(biāo)及ML實(shí)現(xiàn)詳解
3.3 交叉-驗(yàn)證方法及ML實(shí)現(xiàn)詳解
3.4 實(shí)例的代碼實(shí)操
3.5 特征的提取及ML實(shí)現(xiàn)詳解
3.6特征的轉(zhuǎn)換及ML實(shí)現(xiàn)詳解
3.7 特征的選擇及ML實(shí)現(xiàn)詳解
3.8 實(shí)例的代碼實(shí)操
模塊四 Spark ML特征的提取、轉(zhuǎn)換和選擇
4.1 線性回歸算法
4.2 邏輯回歸算法
4.3 ML回歸算法參數(shù)詳解
4.4 ML實(shí)例
4.5 實(shí)例的代碼實(shí)操
模塊五 Spark ML線性回歸/邏輯回歸算法
5.1 決策樹算法
5.2 隨機(jī)森林算法
5.3 GDBT算法
5.4 ML樹模型參數(shù)詳解
5.5 ML實(shí)例
5.6 實(shí)例的代碼實(shí)操
模塊六 Spark ML決策樹/隨機(jī)森林/GBDT算法
6.1 KMeans聚類算法
6.2 ML KMeans模型參數(shù)詳解
6.3 ML實(shí)例
6.4 實(shí)例的代碼實(shí)操
模塊七 Spark ML KMeans聚類算法
7.1 LDA主題聚類算法
7.2 ML LDA主題聚類模型參數(shù)詳解
7.3 ML實(shí)例
7.4 實(shí)例的代碼實(shí)操
模塊八 Spark ML LDA主題聚類算法
8.1 協(xié)同過(guò)濾推薦算法
8.2 ML協(xié)同過(guò)濾分布式實(shí)現(xiàn)邏輯
8.3 ML協(xié)同過(guò)濾源碼開發(fā)
8.4 實(shí)現(xiàn)實(shí)例
8.5 實(shí)例的代碼實(shí)操
模塊九 Spark ML協(xié)同過(guò)濾推薦算法
9.1 案例背景
9.2 架構(gòu)設(shè)計(jì)
9.3 數(shù)據(jù)準(zhǔn)備
9.4 模型訓(xùn)練
9.5 模型預(yù)測(cè)
9.6 腳本封裝
模塊十 項(xiàng)目實(shí)踐
大型案例:基于Spark的推薦模型開發(fā)
模塊十一
培訓(xùn)總結(jié)
項(xiàng)目方案的課堂討論,討論實(shí)際業(yè)務(wù)中的分析需求,剖析各個(gè)環(huán)節(jié)的難點(diǎn)、痛點(diǎn)、瓶頸,啟發(fā)出解決之道;完成講師布置的項(xiàng)目案例,鞏固學(xué)過(guò)的大數(shù)據(jù)分析挖掘處理平臺(tái)技術(shù)知識(shí)以及應(yīng)用技能
【講師介紹】
張老師,曼頓培訓(xùn)網(wǎng)(www.mdpxb.com)資深講師。阿里大數(shù)據(jù)高級(jí)專家,國(guó)內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對(duì)HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進(jìn)行了多年的深入的研究,更主要的是這些技術(shù)在大量的實(shí)際項(xiàng)目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運(yùn)維方面積累了豐富的項(xiàng)目實(shí)施經(jīng)驗(yàn)。近年主要典型的項(xiàng)目有:某電信集團(tuán)網(wǎng)絡(luò)優(yōu)化、中國(guó)移動(dòng)某省移動(dòng)公司請(qǐng)賬單系統(tǒng)和某省移動(dòng)詳單實(shí)時(shí)查詢系統(tǒng)、中國(guó)銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺(tái)、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運(yùn)營(yíng)商全國(guó)用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項(xiàng)目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(Web Game Daas)平臺(tái)項(xiàng)目等。
【費(fèi)用及報(bào)名】
1、費(fèi)用:培訓(xùn)費(fèi)6800元(含培訓(xùn)費(fèi)、講義費(fèi));如需食宿,會(huì)務(wù)組可統(tǒng)一安排,費(fèi)用自理。
2、報(bào)名咨詢:4006820825 010-56133998 56028090 13810210257 鮑老師
3、報(bào)名流程:電話登記-->填寫報(bào)名表-->發(fā)出培訓(xùn)確認(rèn)函
4、備注:如課程已過(guò)期,請(qǐng)?jiān)L問(wèn)我們的網(wǎng)站,查詢最新課程
5、詳細(xì)資料請(qǐng)?jiān)L問(wèn)北京曼頓培訓(xùn)網(wǎng):www.mdpxb.com (每月在全國(guó)開設(shè)四百多門公開課,歡迎報(bào)名學(xué)習(xí))