作者簡介
Mohammed Guller
他是美國數據分析平台公司Glassbeam的首席架構師,主要工作是帶領開發高階預測分析系統。身為大數據和Spark的專家,他常受邀到許多大數據研討會演講。對於建立新產品、巨量資料分析、以及機器學習有著無比的熱情。
過去20年來,Mohammed成功地從概念到發佈,開發出許多創新科技產品。在加入Glassbeam公司前,他是TrustRecs.com的創辦人,這間公司是他任職於IBM五年後創立的。而在加入IBM前,他也在許多高科技新創公司帶領開發新產品。
Mohammed擁有美國加州大學柏克萊分校的商業管理碩士學位,以及印度古吉拉特大學RCC的電腦軟體碩士學位。
CHAPTER 01──大數據技術
Hadoop
資料序列化
分欄式儲存
訊息系統
NoSQL
分散式SQL查詢引擎
總結
CHAPTER 02──Scala程式設計
函數式程式設計
Scala基礎
可獨立執行的Scala應用程式
總結
CHAPTER 03── Spark核心
總覽
高階架構
應用程式的執行
資料來源
應用程式介面
惰性操作
快取
Spark 工作
共用變數
總結
CHAPTER 04──使用Spark Shell進行互動式資料分析
起手式
REPL指令
將Spark Shell作為Scala Shell使用
數值分析
日誌分析
總結
CHAPTER 05──撰寫Spark應用程式
Spark中的Hello World
編譯並執行應用程式
監控應用程式
應用程式除錯
總結
CHAPTER 06──Spark Streaming
Spark Streaming簡介
應用程式介面
完整的Spark Streaming應用程式
總結
CHAPTER 07──Spark SQL
Spark SQL簡介
效能
應用程式
應用程式介面
內建函數
使用者自訂函數與使用者自訂彙整函數
互動式分析範例
使用Spark SQL JDBC伺服器進行互動式分析
總結
CHAPTER 08──Spark機器學習
介紹機器學習
Spark機器學習函式庫
MLlib函式庫概觀
The MLlib API
MLlib應用程式範例
Spark ML
Spark ML應用程式範例
總結
CHAPTER 09──Spark圖學處理
圖形簡介
GraphX簡介
GraphX API
總結
CHAPTER 10──叢集管理器
獨立叢集管理器
Apache Mesos
YARN
總結
CHAPTER 11──監控
監控獨立叢集
監控Spark應用程式
總結