動手做深度強化學習

当前位置: 首页 > 电脑资讯 > 概论/科技趋势 > 動手做深度強化學習

動手做深度強化學習


作者：	Maxim Lapan
出版社：	博碩
出版日期：	2019-11-11
商品库存：	点击查询库存
	以上库存为海外库存属流动性。可选择“空运”或“海运”配送，空运费每件商品是RM14。配送时间：空运约8~12个工作天，海运约30个工作天。（以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品）
市场价格：	RM106.20
本店售价：	RM93.50
用户评价：

购买数量：

详细介绍商品属性商品标记

內容簡介

　　實作現代強化學習方法：深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero…

　　強化學習（RL）的最新發展，結合使用深度學習（DL），在訓練代理人「像人類一樣地」解決複雜問題這方面，取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲，並擊敗了它們，這可以說是讓RL領域發光發熱的重要推手，而世界各地的研究人員正馬不停蹄地研發各種新的想法。

　　《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法，再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外，作者亦詳述如何製作智慧型學習代理人等專業知識，讓讀者在面對一系列艱鉅的真實世界挑戰時，能游刃有餘。本書也會說明如何在網格世界（grid world）環境中實作Q學習、如何讓代理人學會買賣和交易股票，並學習聊天機器人是如何使用自然語言模型與人類對話的。

　　在這本書中，你將學到：
　　・了解結合了RL的DL內容，並實作複雜的DL模型
　　・學習RL的基礎：馬可夫決策過程
　　・評估RL方法，包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等
　　・了解如何在各種環境中處理離散行動空間和連續行動空間　
　　・使用值迭代法來擊敗Atari街機遊戲　
　　・建立屬於自己的OpenAI Gym環境，來訓練股票交易代理人
　　・使用AlphaGo Zero演算法，教你的代理人玩Connect4
　　・探索最新的深度RL研究主題，包括AI驅動的聊天機器人等等

　　下載範例程式檔案：
　　本書的程式碼是由 GitHub 託管，可以在如下網址找到：github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On。

　　下載本書的彩色圖片：
　　我們還提供您一個PDF檔案，其中包含本書使用的彩色螢幕截圖／彩色圖表，可以在此下載：static.packt-cdn.com/downloads/DeepReinforcementLearningHandsOn_ColorImages.pdf。

作者介紹

作者簡介

Maxim Lapan

　　Maxim Lapan是一位深度學習的愛好者，也是一位獨立研究人員。他有15 年的工作經驗，身分是「軟體開發人員」與「系統架構師」，參與的專案從低階的Linux 核心驅動程式開發，到在數千台伺服器上執行的「分散式應用程式」的「設計」與「性能優化」。憑藉著在大數據、機器學習以及大型平行分散式HPC 和非HPC 系統方面的豐富工作經驗，他能用「簡單的句子」與「生動的範例」來解釋複雜事物的關鍵重點。目前他最感興趣的領域是深度學習的實務應用，例如：「深度自然語言處理」和「深度強化學習」。

　　Maxim 和他的家人住在莫斯科，俄羅斯聯邦，他在以色列新創公司擔任資深NLP 開發人員。

前言
第1章：什麼是強化學習？
第2章： OpenAI Gym
第3章：使用PyTorch來做深度學習
第4章：交叉熵法
第5章：表格學習與貝爾曼方程式
第6章：深度Q網路
第7章：DQN擴充
第8章：以強化學習法來做股票交易
第9章：策略梯度－另一個選項
第10章：行動－評論者方法
第11章：非同步優勢行動－評論者
第12章：以強化學習法訓練聊天機器人
第13章：Web導航
第14章：連續行動空間
第15章：信賴域策略－TRPO、PPO與ACKTR
第16章：強化學習中的黑箱優化
第17章：超越無模型方法－想像
第18章：AlphaGo Zero

作者	Maxim Lapan
出版社	博碩
图书书号/ISBN	9789864344307
出版日期	2019-11-11
开本
图书页数	528
图书装订	平裝
图书规格	23 / 單色印刷 / 普級
版次	初版
印张
字数
所属分类

有店 App

当前分类

浏览历史

動手做深度強化學習