本書獲台灣
IBM
推薦
身處於資訊爆炸的時代,數據無時無刻不間斷產生,大型購物網站的會員資料、工廠大規模的感測器數據…等等,當要處理的資料規模達到大數據等級時,就不再是單機的
R
或
Python
可以應付得來的。
Apache Spark
是一套分散式和高擴展性的資料分析系統,在大數據分析乃至於計器學習的應用上佔有一席之地。為了因應資料量爆炸性的成長,Spark
也不斷擴充其功能模組,提供更具效率的資料分析與處理流程,也因此造成許多開發者對於
Spark
各個功能模組的用法與差異並不了解,對於新的功能模組也不得其門而入。
徹底了解Apache Spark
2.x中的新功能,建構全自動化的機器學習流程
本書由標準
Apache Spark
模組開始,將一一介紹記憶體管理、二進位處理、快取感知計算和程式碼生成,加快在
Spark
上的執行效率。並整合整合
H2O
和
Deeplearning4j,進行目前當紅的機器學習應用,以及運用
Jupyter
筆記本、Zeppelin、Docker
和
Kubernetes
在雲端架構上使用
Spark。書中使用支援度高且運算快的原生語言
Scala
來開發,並深入探討
Apache Spark
2.x
的細節以及提供實際的範例作為教學如:從
MQTT
接收
IoT
洗衣機的串流數據、道路安全數據中使用機器學習來做分類、使用深度學習來處理軸承的震動感測器數據的異常偵測…等等。
而最重要的,本書作者
Romeo Kienzler
做為
IBM Watson IoT worldwide
團隊的首席資料科學家,期許以業界的觀點,透過理論與實作帶領讀者進入大數據與機器學習的世界。你還將徹底了解
Apache Spark
2.x
中的新功能,特別是使用
SparkML
建構全自動化的機器學習流程,讓你對
Spark
有完全不同的全新認識。
本書特色
● 來自
IBM Watson IoT worldwide
團隊首席資料科學家的業界親傳
● 處理各種串流:TCP、Flume、Kafka、Twitter、MQTT
● Spark
的強力夥伴-機器學習函式庫:MLlib、SparkML、SystemML
● 最熱門的深度學習:DeepLearning4j、H2O
● Spark
的雲端部署:Docker、Kubernetes、
IBM DataScience Experience