作者簡介
Sebastian Raschka
擁有密西根州立大學(Michigan State University)的博士學位,在那裡,他專攻開發將「計算生物學」(computational biology)與「機器學習」結合使用的方法。2018年的夏天,他加入威斯康辛大學麥迪遜分校(University of Wisconsin-Madison),擔任「統計學」的助理教授。他的研究活動包括開發「新的深度學習架構」來解決生物識別(biometrics)領域的問題。
他引以為傲的成就之一是他的著作《Python機器學習》,這也是Packt和Amazon上的暢銷書。本書在2016年榮獲ACM的最佳計算類別獎項(Best of Computing award),並被翻譯成多種不同語言,包括德文、韓文、中文、日文、俄文、波蘭文和義大利文。
Vahid Mirjalili
是密西根州立大學的機械工程博士,專攻大規模「分子結構」計算模擬的新方法研究。他曾是密西根州立大學「iPRoBe實驗室」的一員,致力於各種機器學習在「電腦視覺」與「生物識別」中的應用專案。在「iPRoBe實驗室」與「學術界」耕耘了多年之後,他最近加入3M公司,成為一位研究科學家,利用他的「專業知識」以及應用機器學習與深度學習的「先進技術」,在各種應用程式中解決真實世界的問題,讓生活變得更好。
前言
第1章:賦予電腦從數據中學習的能力
製作智慧機器,將數據轉成知識
三種不同類型的機器學習
基本術語和符號
建構機器學習系統的準則
使用Python 來做機器學習
小結
第2章:訓練簡單的機器學習分類演算法
類神經元-早期機器學習的驚鴻一撇
以Python 實作感知器學習演算法
適應線性神經元和學習的收斂
小結
第3章:使用scikit-learn巡覽機器學習分類器
選擇一個分類演算法
首次使用scikit-learn-訓練感知器
以邏輯斯迴歸對類別機率塑模
以支援向量機處理最大化分類邊界
使用核心支援向量機解決非線性問題
決策樹學習
k最近鄰-惰式學習演算法
小結
第4章:建置良好的訓練數據集-數據預處理
處理數據遺漏
處理分類數據
將數據集區分為訓練用與測試用
縮放特徵令其具相同比例
選取有意義的特徵
以隨機森林評估特徵的重要性
小結
第5章:透過降維來壓縮數據
以主成分分析對非監督式數據壓縮
利用線性判別分析做監督式數據壓縮
利用核主成分分析處理非線性對應
小結
第6章:學習模型評估和超參數調校的最佳實作
以管線來簡化工作流程
使用k折交叉驗證法來評估模型效能
使用學習曲線和驗證曲線來對演算法除錯
以網格搜尋微調機器學習模型
其他不同的效能指標
處理類別不平衡的狀況
小結
第7章:結合不同模型來做整體學習
從整體中學習
以多數決結合分類器
裝袋法-以自助樣本建立整體分類器
利用適應強化來提升弱學習器效能
小結
第8章:將機器學習應用於情緒分析
準備IMDb影評數據以便進行文字處理
詞袋模型簡介
訓練一個邏輯斯迴歸模型來做文件分類
處理更大的數據-線上演算法與核外學習
小結
第9章:在Web應用程式上嵌入機器學習模型
序列化適合完成的scikit-learn估計器
設定SQLite資料庫來儲存數據
使用Flask來開發Web應用程式
將影評分類器整合到Web應用程式中
將Web應用程式部署到公共伺服器
小結
第10章:以迴歸分析預測連續目標變數
線性迴歸簡介
探索房屋數據集
使用RANSAC找出強固的迴歸模型
評估線性迴歸模型的效能
使用正規化方法做迴歸
將線性迴歸模型轉成曲線-多項式迴歸
使用隨機森林處理非線性關係
小結
第11章:處理未標記的數據-集群分析
使用k-means來集群相似物件
以階層樹的方式組織集群
使用DBSCAN來定位高密度區域
小結
第12章:從零開始實作多層類神經網路
以類神經網路來對複雜函數塑模
分類手寫數字
訓練一個類神經網路
關於類神經網路的收斂
實作類神經網路的幾句提醒
小結