“Spark大數(shù)據(jù)挖掘工具M(jìn)llib實(shí)戰(zhàn)(機(jī)器學(xué)習(xí))”培訓(xùn)(北京,12月21-22日)
【舉辦單位】北京曼頓培訓(xùn)網(wǎng) www.mdpxb.com 中國(guó)培訓(xùn)資訊網(wǎng) www.e71edu.com
【咨詢(xún)電話】4006820825 010-56133998 13810210257
【培訓(xùn)日期】2017年12月21-22日
【培訓(xùn)地點(diǎn)】北京
【培訓(xùn)對(duì)象】
1,系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、資深開(kāi)發(fā)人員。
2,牽涉到大數(shù)據(jù)實(shí)時(shí)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人。
3,政府機(jī)關(guān),金融保險(xiǎn)、移動(dòng)和互聯(lián)網(wǎng)等大數(shù)據(jù)來(lái)源單位的負(fù)責(zé)人。
4,高校、科研院所牽涉到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項(xiàng)目負(fù)責(zé)人。
【課程背景】
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)切實(shí)地迎來(lái)了一個(gè)大數(shù)據(jù)的時(shí)代。大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,對(duì)大數(shù)據(jù)的實(shí)時(shí)分析已經(jīng)成為一個(gè)非常重要且緊迫的需求。目前對(duì)大數(shù)據(jù)的實(shí)時(shí)分析工具,業(yè)界公認(rèn)最佳為Spark。Spark是一個(gè)開(kāi)源集群運(yùn)算框架,最初是由加州大學(xué)柏克利分校AMPLab所開(kāi)發(fā),Spark使用了內(nèi)存內(nèi)運(yùn)算技術(shù),在內(nèi)存上的運(yùn)算速度比Hadoop MapReduce的運(yùn)算速度快上100倍,即便是在磁盤(pán)上運(yùn)行也能快10倍。
為解決廣大系統(tǒng)設(shè)計(jì)人員深入研究與開(kāi)發(fā)大數(shù)據(jù)挖掘和實(shí)時(shí)分析的需要,培訓(xùn)中心特舉辦“Spark大數(shù)據(jù)挖掘工具M(jìn)Llib實(shí)戰(zhàn)”培訓(xùn)班,本課程主要講解Spark MLlib,Spark MLlib是一種高效、快速、可擴(kuò)展的分布式計(jì)算框架,實(shí)現(xiàn)了常用的機(jī)器學(xué)習(xí),如:聚類(lèi)、分類(lèi)、回歸等算法。講解各個(gè)算法的理論、詳細(xì)展示Spark源碼實(shí)現(xiàn),最后均會(huì)通過(guò)實(shí)例進(jìn)行解析實(shí)戰(zhàn),幫助大家真正從理論到實(shí)踐全面掌握Spark MLlib分布式機(jī)器學(xué)習(xí)和大數(shù)據(jù)挖掘方法。
【課程目標(biāo)】
1, 全面了解大數(shù)據(jù)實(shí)時(shí)處理技術(shù)的相關(guān)知識(shí)。
2,學(xué)習(xí)Spark的核心技術(shù)方法以及應(yīng)用特征。
3,深入使用MLLib在大數(shù)據(jù)挖掘和實(shí)時(shí)分析中的使用。
4,掌握MLlib相關(guān)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具的使用。
【學(xué)員基礎(chǔ)】
1,對(duì)IT系統(tǒng)設(shè)計(jì)有一定的理論與實(shí)踐經(jīng)驗(yàn)。
2,對(duì)數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)實(shí)時(shí)處理有一定的基礎(chǔ)知識(shí)。
【培訓(xùn)要點(diǎn)】
互聯(lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具有豐富地理空間信息的移動(dòng)數(shù)據(jù)和涉及網(wǎng)絡(luò)的各類(lèi)評(píng)論,成為了海量信息的多種形式。當(dāng)數(shù)據(jù)以成百上千TB不斷增長(zhǎng)的時(shí)候,我們?cè)趦?nèi)部交易系統(tǒng)的歷史信息之外,需要一種基于大數(shù)據(jù)實(shí)時(shí)分析的決策模型和技術(shù)支持。
大數(shù)據(jù)通常具有:數(shù)據(jù)體量(Volume)巨大,數(shù)據(jù)類(lèi)型(Variety)繁多,價(jià)值(Value)密度低,處理速度(Velocity)快等四大特征。如何有效管理和高效處理這些大數(shù)據(jù)已成為當(dāng)前亟待解決的問(wèn)題。大數(shù)據(jù)實(shí)時(shí)處理意味著更嚴(yán)峻的挑戰(zhàn),更好地管理和處理這些數(shù)據(jù)也將會(huì)獲得意想不到的收獲。
Spark生態(tài)系統(tǒng)(BDAS項(xiàng)目)已經(jīng)發(fā)展成一個(gè),包含多個(gè)子項(xiàng)目的集合,包括Spark SQL、Spark Streaming、GraphX、MLlib等,本課程主要講解Spark MLlib,Spark MLlib是一種高效、快速、可擴(kuò)展的分布式計(jì)算框架;實(shí)現(xiàn)了常用的機(jī)器學(xué)習(xí),如:聚類(lèi)、分類(lèi)、回歸等算法。本次培訓(xùn)將循序漸進(jìn)從Spark的基礎(chǔ)知識(shí)、矩陣向量的基礎(chǔ)知識(shí)開(kāi)始,然后再透徹講解各個(gè)算法的理論、詳細(xì)展示Spark源碼實(shí)現(xiàn),最后均會(huì)通過(guò)實(shí)例進(jìn)行解析實(shí)戰(zhàn),幫助大家真正從理論到實(shí)踐全面掌握Spark MLlib分布式機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。
本課程教學(xué)過(guò)程中還提供了案例分析來(lái)幫助學(xué)員了解如何用MLLib工具來(lái)解決具體的問(wèn)題,并介紹了從大數(shù)據(jù)中挖掘出有價(jià)值的信息的關(guān)鍵。
本課程不是一個(gè)泛泛的理論性、概念性的介紹課程,而是針對(duì)問(wèn)題討論解決方案的深入課程。教師對(duì)于上述領(lǐng)域有深入的理論研究與實(shí)踐經(jīng)驗(yàn),在課程中將會(huì)針對(duì)這些問(wèn)題與學(xué)員一起進(jìn)行研究,在關(guān)鍵點(diǎn)上還會(huì)在實(shí)驗(yàn)環(huán)境中演示、實(shí)踐,以加深對(duì)于這些解決方案的理解。通過(guò)本課程學(xué)習(xí),希望推動(dòng)Spark相關(guān)的項(xiàng)目開(kāi)發(fā)上升到一個(gè)新水平。
【課程大綱】
第一講 Spark大數(shù)據(jù)實(shí)時(shí)處理技術(shù)
1)大數(shù)據(jù)處理技術(shù)
2)Spark實(shí)時(shí)處理技術(shù)
3)Spark生態(tài)系統(tǒng)BDAS
4)Spark架構(gòu)分析
第二講 Spark安裝配置及監(jiān)控
1)Ubuntu環(huán)境的準(zhǔn)備
2)Hadoop2.X和Scala
3)搭建Spark開(kāi)發(fā)環(huán)境
4)Idea編譯和運(yùn)行
5)Spark監(jiān)控管理
第3講 Scala編程語(yǔ)言和分布式計(jì)算模型
1) Scala編程語(yǔ)言
2) 操作基本數(shù)據(jù)類(lèi)型
3)Spark計(jì)算模型和RDD
4)Transformation及Actions算子
5)Spark MLlib矩陣向量
第四講 Spark MLlib線性回歸和邏輯回歸算法
1)線性回歸算法
2)線性回歸代碼實(shí)例
3)邏輯回歸算法
4)邏輯回歸回歸代碼實(shí)例
5)線性回歸和邏輯回歸代碼實(shí)操
第五講 Spark MLlib貝葉斯分類(lèi)算法
1) 貝葉斯分類(lèi)算法原理
2) Spark貝葉斯分類(lèi)源碼
3) Spark貝葉斯分類(lèi)代碼示例
4) 貝葉斯分類(lèi)代碼實(shí)操
第六講 Spark MLlib決策樹(shù)算法
1) 決策樹(shù)算法原理
2) Spark決策樹(shù)算法源碼
3) Spark決策樹(shù)算法代碼示例
4) 決策樹(shù)代碼實(shí)操
第七講 Spark MLlib聚類(lèi)算法
1) K-Means聚類(lèi)算法原理
2) Spark K-Means聚類(lèi)算法源碼
3) SparkK-Means聚類(lèi)代碼示例
4) 聚類(lèi)算法代碼實(shí)操
第八講 Spark MLlib關(guān)聯(lián)規(guī)則算法
1) FPGrowth關(guān)聯(lián)規(guī)則算法原理
2) FPGrowth關(guān)聯(lián)規(guī)則算法源碼
3) FPGrowth關(guān)聯(lián)規(guī)則代碼示例
4) 關(guān)聯(lián)規(guī)則代碼實(shí)操
第九講 Spark MLlib個(gè)性化推薦算法
1) 協(xié)同過(guò)濾推薦算法原理
2) Spark協(xié)同過(guò)濾推薦源碼
3) Spark協(xié)同過(guò)濾推薦代碼示例
4) 推薦代碼實(shí)操
第十講 Spark MLlib神經(jīng)網(wǎng)絡(luò)算法
1) 神經(jīng)網(wǎng)絡(luò)算法原理
2) Spark神經(jīng)網(wǎng)絡(luò)算法源碼
3) Spark神經(jīng)網(wǎng)絡(luò)代碼示例
4) 神經(jīng)網(wǎng)絡(luò)代碼實(shí)操
【講師介紹】
楊老師,曼頓培訓(xùn)網(wǎng)(www.mdpxb.com)資深講師。主要研究網(wǎng)絡(luò)信息分析以及云計(jì)算相關(guān)技術(shù),長(zhǎng)期從事通信網(wǎng)管系統(tǒng)、網(wǎng)絡(luò)信息處理、商務(wù)智能(BI)以及電信決策支持系統(tǒng)的研究開(kāi)發(fā)工作,主持和參與了多個(gè)國(guó)家和省部級(jí)基金項(xiàng)目,具有豐富的工程實(shí)踐及軟件研發(fā)經(jīng)驗(yàn)。
【費(fèi)用及報(bào)名】
1、費(fèi)用:培訓(xùn)費(fèi)5500元(含培訓(xùn)費(fèi)、講義費(fèi));如需食宿,會(huì)務(wù)組可統(tǒng)一安排,費(fèi)用自理。
2、報(bào)名咨詢(xún):4006820825 010-56133998 56028090 13810210257 鮑老師
3、報(bào)名流程:電話登記-->填寫(xiě)報(bào)名表-->發(fā)出培訓(xùn)確認(rèn)函
4、備注:如課程已過(guò)期,請(qǐng)?jiān)L問(wèn)我們的網(wǎng)站,查詢(xún)最新課程
5、詳細(xì)資料請(qǐng)?jiān)L問(wèn)北京曼頓培訓(xùn)網(wǎng):www.mdpxb.com (每月在全國(guó)開(kāi)設(shè)四百多門(mén)公開(kāi)課,歡迎報(bào)名學(xué)習(xí))