大數(shù)據建模與分析挖掘應用實戰(zhàn)(北京,7月8-10日)
【舉辦單位】北京曼頓培訓網 www.mdpxb.com 中國培訓資訊網 www.e71edu.com
【咨詢電話】4006820825 010-56133998 13810210257
【培訓日期】
北京,2018年7月8-10日;杭州,2018年7月22-24日
深圳,2018年8月12-14日;北京,2018年8月26-28日
【培訓地點】北京、杭州、深圳
【培訓對象】
1.大數(shù)據分析應用開發(fā)工程師
2.大數(shù)據分析項目的規(guī)劃咨詢管理人員
3.大數(shù)據分析項目的IT項目高管人員
4.大數(shù)據分析與挖掘處理算法應用工程師
5.大數(shù)據分析集群運維工程師
6.大數(shù)據分析項目的售前和售后技術支持服務人員
【課程背景】
大數(shù)據建模與分析挖掘技術已經逐步地應用到新興互聯(lián)網企業(yè)(如電子商務網站、搜索引擎、社交網站、互聯(lián)網廣告服務提供商等)、銀行金融證券企業(yè)、電信運營等行業(yè),給這些行業(yè)帶來了一定的數(shù)據價值增值作用。
■本次課程面向有一定的數(shù)據分析挖掘算法基礎的工程師,帶大家實踐大數(shù)據分析挖掘平臺的項目訓練,系統(tǒng)地講解數(shù)據準備、數(shù)據建模、挖掘模型建立、大數(shù)據分析與挖掘算法應用在業(yè)務模型中,結合主流的Hadoop與Spark大數(shù)據分析平臺架構,實現(xiàn)項目訓練。
■結合業(yè)界使用最廣泛的主流大數(shù)據平臺技術,重點剖析基于大數(shù)據分析算法與BI技術應用,包括分類算法、聚類算法、預測分析算法、推薦分析模型等在業(yè)務中的實踐應用,并根據講師給定的數(shù)據集,實現(xiàn)兩個基本的日志數(shù)據分析挖掘系統(tǒng),以及電商(或內容)推薦系統(tǒng)引擎。
■本課程基本的實踐環(huán)境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。
■學員需要準備的電腦最好是i7三代及以上CPU,8GB及以上內存,硬盤空間預留50GB(可用移動硬盤),基本的大數(shù)據分析平臺所依賴的軟件包和依賴庫等,講師已經提前部署在虛擬機鏡像(VMware鏡像),學員根據講師的操作任務進行實踐。
■本課程采用技術原理與項目實戰(zhàn)相結合的方式進行教學,在講授原理的過程中,穿插實際的系統(tǒng)操作,本課程講師也精心準備的實際的應用案例供學員動手訓練。
【培訓目標】
1.本課程讓學員充分掌握大數(shù)據平臺技術架構、大數(shù)據分析的基本理論、機器學習的常用算法、國內外主流的大數(shù)據分析與BI商業(yè)智能分析解決方案、以及大數(shù)據分析在搜索引擎、廣告服務推薦、電商數(shù)據分析、金融客戶分析方面的應用案例。
2.本課程強調主流的大數(shù)據分析挖掘算法技術的應用和分析平臺的實施,讓學員掌握主流的基于大數(shù)據Hadoop和Spark的大數(shù)據分析平臺架構和實際應用,并用結合實際的生產系統(tǒng)案例進行教學,掌握基于Hadoop、spark大數(shù)據平臺的數(shù)據挖掘和數(shù)據倉庫分布式系統(tǒng)平臺應用,以及商業(yè)和開源的數(shù)據分析產品加上Hadoop平臺形成大數(shù)據分析平臺的應用剖析。。
3.讓學員掌握常見的機器學習算法,深入講解業(yè)界成熟的大數(shù)據分析挖掘與BI平臺的實踐應用,并以客戶分析系統(tǒng)、日志分析和電商推薦系統(tǒng)為案例,串聯(lián)常用的數(shù)據挖掘技術進行應用教學。
【培訓特色】
定制授課+ 實戰(zhàn)案例訓練+ 互動咨詢討論,共3天
【課程大綱】
模塊一 Spark ML基礎入門
1.1 Spark介紹
1.2 Spark ML介紹
1.3 課程的基礎環(huán)境
1.4 Spark SparkSession
1.5 Spark Datasets操作
1.6 Datasets操作的代碼實操
模塊二 Spark ML
Pipelines(ML管道)
2.1 Pipelines的主要概念
2.2 Pipelines實例講解
2.3 ML操作的代碼實操
2.4 使用 ML Pipeline 構建機器學習工作流案例展示
2.5 實例的代碼實操聲
模塊三 Spark ML數(shù)學基礎
3.1 ML矩陣向量計算
3.2 分類效果評估指標及ML實現(xiàn)詳解
3.3 交叉-驗證方法及ML實現(xiàn)詳解
3.4 實例的代碼實操
3.5 特征的提取及ML實現(xiàn)詳解
3.6特征的轉換及ML實現(xiàn)詳解
3.7 特征的選擇及ML實現(xiàn)詳解
3.8 實例的代碼實操
模塊四 Spark ML特征的提取、轉換和選擇
4.1 線性回歸算法
4.2 邏輯回歸算法
4.3 ML回歸算法參數(shù)詳解
4.4 ML實例
4.5 實例的代碼實操
模塊五 Spark ML線性回歸/邏輯回歸算法
5.1 決策樹算法
5.2 隨機森林算法
5.3 GDBT算法
5.4 ML樹模型參數(shù)詳解
5.5 ML實例
5.6 實例的代碼實操
模塊六 Spark ML決策樹/隨機森林/GBDT算法
6.1 KMeans聚類算法
6.2 ML KMeans模型參數(shù)詳解
6.3 ML實例
6.4 實例的代碼實操
模塊七 Spark ML KMeans聚類算法
7.1 LDA主題聚類算法
7.2 ML LDA主題聚類模型參數(shù)詳解
7.3 ML實例
7.4 實例的代碼實操
模塊八 Spark ML LDA主題聚類算法
8.1 協(xié)同過濾推薦算法
8.2 ML協(xié)同過濾分布式實現(xiàn)邏輯
8.3 ML協(xié)同過濾源碼開發(fā)
8.4 實現(xiàn)實例
8.5 實例的代碼實操
模塊九 Spark ML協(xié)同過濾推薦算法
9.1 案例背景
9.2 架構設計
9.3 數(shù)據準備
9.4 模型訓練
9.5 模型預測
9.6 腳本封裝
模塊十 項目實踐
大型案例:基于Spark的推薦模型開發(fā)
模塊十一
培訓總結
項目方案的課堂討論,討論實際業(yè)務中的分析需求,剖析各個環(huán)節(jié)的難點、痛點、瓶頸,啟發(fā)出解決之道;完成講師布置的項目案例,鞏固學過的大數(shù)據分析挖掘處理平臺技術知識以及應用技能
【講師介紹】
張老師,曼頓培訓網(www.mdpxb.com)資深講師。阿里大數(shù)據高級專家,國內資深的Spark、Hadoop技術專家、虛擬化專家,對HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術進行了多年的深入的研究,更主要的是這些技術在大量的實際項目中得到廣泛的應用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經驗。近年主要典型的項目有:某電信集團網絡優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據數(shù)據票據詳單平臺、某大型銀行大數(shù)據記錄系統(tǒng)、某大型通信運營商全國用戶上網記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據應用項目、互聯(lián)網公共數(shù)據大云(DAAS)和構建游戲云(Web Game Daas)平臺項目等。
【費用及報名】
1、費用:培訓費6800元(含培訓費、講義費);如需食宿,會務組可統(tǒng)一安排,費用自理。
2、報名咨詢:4006820825 010-56133998 56028090 13810210257 鮑老師
3、報名流程:電話登記-->填寫報名表-->發(fā)出培訓確認函
4、備注:如課程已過期,請訪問我們的網站,查詢最新課程
5、詳細資料請訪問北京曼頓培訓網:www.mdpxb.com (每月在全國開設四百多門公開課,歡迎報名學習)