懒人听书,完美世界txt全集下载

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

人工智能的新希望-強化學(xué)習(xí)全解

編譯團隊 | Jennifer Zhu 賴小娟張禮俊

創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù)，包含不限于成都做網(wǎng)站、網(wǎng)站設(shè)計、江門網(wǎng)絡(luò)推廣、微信小程序定制開發(fā)、江門網(wǎng)絡(luò)營銷、江門企業(yè)策劃、江門品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等，從售前售中售后，我們都將竭誠為您服務(wù)，您的肯定，是我們最大的嘉獎；創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供江門建站搭建服務(wù)，24小時服務(wù)熱線：028-86922220，官方網(wǎng)址：www.cdcxhl.com

作者 | FAIZAN SHAIKH

很多人說，強化學(xué)習(xí)被認(rèn)為是真正的人工智能的希望。本文將從7個方面帶你入門強化學(xué)習(xí)，讀完本文，希望你對強化學(xué)習(xí)及實戰(zhàn)中實現(xiàn)算法有著更透徹的了解。

介紹

許多科學(xué)家都在研究的一個最基本的問題是“人類如何學(xué)習(xí)新技能?”。理由顯而易見– 如果我們能解答這個問題，人類就能做到很多我們以前沒想到的事情。另一種可能是我們訓(xùn)練機器去做更多的“人類”任務(wù)，創(chuàng)造出真正的人工智能。

雖然我們還沒有上述問題的全部答案，但有一些事情是清楚的。不論哪種技能，我們都是先通過與環(huán)境的互動來學(xué)習(xí)它。無論是學(xué)習(xí)駕駛汽車還是嬰兒學(xué)步，我們的學(xué)習(xí)都是基于與環(huán)境的互動。從這些互動中學(xué)習(xí)是所有關(guān)于學(xué)習(xí)與智力的理論的基礎(chǔ)概念。

強化學(xué)習(xí)

今天我們將探討強化學(xué)習(xí)(Re-inforcement Learning) 一種基于與環(huán)境互動的目標(biāo)導(dǎo)向的學(xué)習(xí)。強化學(xué)習(xí)被認(rèn)為是真正的人工智能的希望。我們認(rèn)為這是正確的說法，因為強化學(xué)習(xí)擁有巨大的潛力。

強化學(xué)習(xí)正在迅速發(fā)展。它已經(jīng)為不同的應(yīng)用構(gòu)建了相應(yīng)的機器學(xué)習(xí)算法。因此，熟悉強化學(xué)習(xí)的技術(shù)會對深入學(xué)習(xí)和使用機器學(xué)習(xí)非常有幫助。如果您還沒聽說過強化學(xué)習(xí)，我建議您閱讀我之前關(guān)于強化學(xué)習(xí)和開源強化學(xué)習(xí)(RL)平臺的介紹文章

(https://www.analyticsvidhya.com/blog/2016/12/getting-ready-for-ai-based-gaming-agents-overview-of-open-source-reinforcement-learning-platforms/)。

如果您已經(jīng)了解了一些強化學(xué)習(xí)的基礎(chǔ)知識，請繼續(xù)閱讀本文。讀完本文，您將會對強化學(xué)習(xí)及實戰(zhàn)中實現(xiàn)算法有著更透徹的了解。

附：下面這些算法實現(xiàn)的講解中，我們將假設(shè)您懂得Python的基本知識。如果您還不知道Python，建議可以先看看這個Python教程

(https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/)。

輕松搞定強化學(xué)習(xí)

(1-4是強化學(xué)習(xí)的步驟，5-7是其他資源)

1. 提出一個強化學(xué)習(xí)的問題
2. 強化學(xué)習(xí) v.s. 其他機器學(xué)習(xí)方法
3. 解決強化學(xué)習(xí)問題的基本框架
4. 用python實現(xiàn)強化學(xué)習(xí)算法
5. 更復(fù)雜的應(yīng)用
6. 強化學(xué)習(xí)的最新進展
7. 其他強化學(xué)習(xí)的資源

1. 提出一個強化學(xué)習(xí)的問題

強化學(xué)習(xí)的目的是學(xué)習(xí)如何做一件事情，以及如何根據(jù)不同的情況選擇不同的行動。它的最終結(jié)果是為了實現(xiàn)數(shù)值回報信號的最大化。強化學(xué)習(xí)并不告訴學(xué)習(xí)者采取哪種行動，而是讓學(xué)習(xí)者去發(fā)現(xiàn)采取哪種行動能產(chǎn)生最大的回報。下面讓我們通過一個孩子學(xué)走路的簡單例子(下圖)來解釋什么是強化學(xué)習(xí)。

上圖：孩子學(xué)走路。

以下是孩子在學(xué)習(xí)走路時要采取的步驟：

首先孩子將觀察你是如何行走的。你用兩條腿，一步一步走。得到這個概念后，孩子試圖模仿你走路的樣子。
但孩子很快發(fā)現(xiàn)，走路之前必須站起來!這是一個試圖走路必經(jīng)的挑戰(zhàn)。所以現(xiàn)在孩子試圖先站起來，雖然經(jīng)歷掙扎和滑倒，但仍然決心站起來。
然后還有另一個挑戰(zhàn)要應(yīng)付：站起來很容易，但要保持站立又是另一項挑戰(zhàn)!孩子揮舞著雙手，似乎是想找到能支撐平衡的地方，設(shè)法保持著站立。
現(xiàn)在孩子開始他/她真正的任務(wù)––走路。這是件說比做容易的事。要記住很多要點，比如平衡體重，決定先邁哪個腳，把腳放在哪里。

這聽起來像一個困難的任務(wù)嗎?實際上站起來和開始走路確實有點挑戰(zhàn)性，但當(dāng)你走熟練了就不會再覺得走路難。不過通過我們的分析，現(xiàn)在的您大概明白了一個孩子學(xué)走路的困難點。

讓我們把上面的例子描述成一個強化學(xué)習(xí)的問題(下圖)。這個例子的“問題”是走路，這個過程中孩子是一個試圖通過采取行動(行走)來操縱環(huán)境(孩子行走的表面)的智能體(agent)。他/她試圖從一個狀態(tài)(即他/她采取的每個步驟)到另一個狀態(tài)。當(dāng)他/她完成任務(wù)的子模塊(即采取幾個步驟)時，孩子將得到獎勵(讓我們說巧克力)。但當(dāng)他/她不能完成走幾步時，他/她就不會收到任何巧克力(亦稱負(fù)獎勵)。這就是對一個強化學(xué)習(xí)問題的簡單描述。

上圖：把小孩子學(xué)走路的過程(圖下方)歸納成一個強化學(xué)習(xí)的問題(圖上方)。

這里我們還推薦一個不錯的對強化學(xué)習(xí)的視頻介紹(https://www.youtube.com/watch?v=m2weFARriE8)。

2. 強化學(xué)習(xí) v.s. 其他機器學(xué)習(xí)方法

強化學(xué)習(xí)是機器學(xué)習(xí)算法的一個大的類型。下圖描述了機器學(xué)習(xí)方法的類型。

上圖：機器學(xué)習(xí)的方法分類：藍(lán)色方框從左到右依次為監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

讓我們來比較一下強化學(xué)習(xí)和其他種類機器學(xué)習(xí)方法：

● 監(jiān)督學(xué)習(xí)(supervised learning)v.s. 強化學(xué)習(xí)：在監(jiān)督學(xué)習(xí)中，有一個外部“監(jiān)督者”(supervisor)?！氨O(jiān)督者”了解環(huán)境，并與智能體共享環(huán)境信息以完成任務(wù)。但這其中存在一些問題，智能體可以通過執(zhí)行許多種不同子任務(wù)的組合來達(dá)到目標(biāo)。所以創(chuàng)建一個“監(jiān)督者””幾乎是不切實際的。例如在象棋游戲中，有成千上萬種走法。因此，創(chuàng)建一個可以下象棋的知識庫是一個單調(diào)乏味的任務(wù)。在這樣的問題中，從經(jīng)驗中學(xué)習(xí)更為可行。這可以說是強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的主要區(qū)別。在監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)中，輸入和輸出之間都存在映射(mapping)。但在強化學(xué)習(xí)中，還存在對智能體進行反饋的獎勵函數(shù)，這在監(jiān)督學(xué)習(xí)中是不存在的。

● 無監(jiān)督學(xué)習(xí)(unsupervised learning) v.s. 強化學(xué)習(xí)：在強化學(xué)習(xí)中，有一個從輸入到輸出的映射。這種映射在無監(jiān)督學(xué)習(xí)中并不存在。在無監(jiān)督學(xué)習(xí)中，主要任務(wù)是找到數(shù)據(jù)本身的規(guī)律而不是映射。例如，如果任務(wù)是向用戶建議新聞文章，則無監(jiān)督學(xué)習(xí)算法將查看該人先前讀過的文章并向他們建議類似的文章。而強化學(xué)習(xí)算法將通過建議少量新聞文章給用戶，從用戶獲得不斷的反饋，然后構(gòu)建一個關(guān)于人們喜歡哪些文章的“知識圖”。

此外，還有第四種類型的機器學(xué)習(xí)方法，稱為半監(jiān)督學(xué)習(xí)(semi-supervised learning)，其本質(zhì)上是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的結(jié)合(利用監(jiān)督學(xué)習(xí)的標(biāo)記信息，利用未標(biāo)記數(shù)據(jù)的內(nèi)在特征)。它類似于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)，不具有強化學(xué)習(xí)具備的反饋機制(獎賞函數(shù))。(譯者注：這里應(yīng)該是原文作者的筆誤，強化學(xué)習(xí)有映射，映射是每一個狀態(tài)對應(yīng)值函數(shù)。而無監(jiān)督學(xué)習(xí)沒有標(biāo)記信息，可以說是沒有映射的。我想這里作者想要表達(dá)的是半監(jiān)督學(xué)習(xí)區(qū)別于強化學(xué)習(xí)的地方是半監(jiān)督學(xué)習(xí)沒有強化學(xué)習(xí)的反饋這個機制。)

3. 解決強化學(xué)習(xí)問題的基本框架

為了了解如何解決強化學(xué)習(xí)問題，我們將分析一個強化學(xué)習(xí)問題的經(jīng)典例子––多搖臂老虎機問題。首先，我們將去回答探索 v.s. 利用的根本問題，然后繼續(xù)定義基本框架來解決強化學(xué)習(xí)的問題。

上圖：賭場里的“老虎機”。

假設(shè)你有很多吐出隨機獎金的老虎機(即投幣式游戲機，見上圖)。

現(xiàn)在你想盡可能快地從老虎機獲得最多的獎金。你會怎么做?

一個幼稚的方法可能是只選擇一個老虎機，并拉一整天的杠桿。聽起來好無聊，但這種方法可能會給你贏點小錢。你也有可能會中大獎(幾率接近0.00000 ... .1)，但大多數(shù)時候你可能只是坐在老虎機面前虧錢。這種方法的正式定義是一種純利用(pureexploitation)的方法。這是我們的最佳選擇嗎?答案是不。

讓我們看看另一種方法。我們可以拉每個老虎機的杠桿，并向上帝祈禱，至少有一個會中獎。這是另一個幼稚的方法，能讓你拉一整天的杠桿，但老虎機們只會給你不那么好的收獲。正式地，這種方法也被正式定義為一種純探索(pureexploration)的方法。

這兩種方法都不是最優(yōu)的方法。我們得在它們之間找到適當(dāng)?shù)钠胶庖垣@得最大的回報。這被稱為強化學(xué)習(xí)的探索與利用困境。

首先，我們要正式定義強化學(xué)習(xí)問題的框架，然后列出可能的解決方法。

馬爾可夫決策過程：

在強化學(xué)習(xí)中定義解法的數(shù)學(xué)框架叫做馬爾可夫決策過程(Markov Decision Process)。它被設(shè)計為：

● 一系列狀態(tài)的集合(Set of states)，S

● 一系列行動的集合(Set of actions)，A

● 獎勵函數(shù)(Reward function)，R

● 策略(Policy)，π

● 價值(Valu)，V

我們必須采取行動(A)從我們的開始狀態(tài)過渡到我們的結(jié)束狀態(tài)(S)。我們采取的每個行動將獲得獎勵(R)。我們的行為可以導(dǎo)致正獎勵或負(fù)獎勵。

我們采取的行動的集合(A)定義了我們的策略(π)，我們得到的獎勵(R)定義了我們的價值(V)。我們在這里的任務(wù)是通過選擇正確的策略來最大化我們的獎勵。所以我們必須對時間t的所有可能的S值最大化。

旅行推銷員問題

讓我們通過另一個例子來進一步說明如何定義強化學(xué)習(xí)問題的框架。

上圖：旅行推銷員的例子。A–F表示地點，之間的連線上的數(shù)字代表在兩個地點間的旅行成本。

這顯示的是旅行推銷員問題。推銷員的任務(wù)是以盡可能低的成本從地點A到地點F。這兩個位置之間的每條連線上的數(shù)字表示旅行這段距離所需花費的成本。負(fù)成本實際上是一些出差的收入。我們把當(dāng)推銷員執(zhí)行一個策略累積的總獎勵定義為價值。

這里，

● 一系列狀態(tài)的集合是那些節(jié)點，即{A，B，C，D，E，F(xiàn)}

● 采取的行動的集合是從一個地方到另一個地方，即{A→B，C→D等}

● 獎勵函數(shù)是節(jié)點的連線上的值，即成本

● 策略是完成任務(wù)的“方式”，即{A - > C - > F}

現(xiàn)在假設(shè)你在位置A，在這個平臺上唯一可見路徑是你下一目的地的(亦稱可觀測的空間)，除此之外所有都是未知的。

當(dāng)然你可以用貪婪算法選擇下一步最有可能的，從{A -> (B, C, D, E)}子集中選出{A -> D}。同樣的你在位置D，想要到達(dá)F，你可以從{D -> (B, C, F)}中選擇，可以看出由于{D -> F}路徑花費最小，選擇此路徑。

到此為止，我們的規(guī)則是{A -> D -> F}，價值為-120.

恭喜你!你剛剛完成了一個強化學(xué)習(xí)算法。這個算法被稱作ε-貪心算法，以貪心方式解決問題?，F(xiàn)在如果你(銷售人員)想要再次從位置A到F，你總是會選擇相同的策略。

其他的旅行方式?

你可以猜測到我們的策略屬于哪一個類別么(例如，純探索vs純開發(fā))?

可以看出我們選擇的并不是最優(yōu)策略，我們必須去一點點“探索”來發(fā)現(xiàn)最優(yōu)策略。在這里我們使用的方法是基于策略的學(xué)習(xí)，我們的任務(wù)是在所有可能策略中發(fā)現(xiàn)最優(yōu)策略。解決這個問題有很多不同的方式，簡單列舉主要類別如下：

● 基于策略，重點是找到最優(yōu)策略

● 基于價值，重點是找到最優(yōu)價值，例如，累計獎勵

● 基于動作，重點是在執(zhí)行每一步動作時，確定什么是最優(yōu)動作

我會嘗試在以后的文章中更深入地講述強化學(xué)習(xí)算法，那時，你們就可以參考這篇強化學(xué)習(xí)算法調(diào)查的文章(https://www.jair.org/media/301/live-301-1562-jair.pdf)。(譯者注：這里是原文作者的一個筆誤。Q-learning，它可以用一個線性函數(shù)作為function approximator, 也可以通過列舉每一個q-state的值來做。用神經(jīng)網(wǎng)絡(luò)來做Q-learning的function approximator應(yīng)該是15年Google Deepmind發(fā)表在Nature的文章開始的，那篇文章中稱該算法為deep-Q-network，后來統(tǒng)稱為deep q learning)

4. 強化學(xué)習(xí)的實踐案例

我們會使用深度Q學(xué)習(xí)算法，Q學(xué)習(xí)是基于策略的，用神經(jīng)網(wǎng)絡(luò)來近似值函數(shù)的學(xué)習(xí)算法。Google使用該算法在Atari游戲中擊敗了人類。

讓我們看看Q學(xué)習(xí)的偽代碼：

初始化價值表‘Q(s,a)’.
觀測到當(dāng)前狀態(tài)點’s’.
基于策略選擇該狀態(tài)下的行動’a’(例如，ε-貪心)
采取行動并觀察獎勵值’r’及新狀態(tài)點’s’
根據(jù)上面描述的公式及參數(shù)，用觀測到的獎勵值及下一狀態(tài)可能的最大獎勵值更新狀態(tài)點新值。
設(shè)置新狀態(tài)，重復(fù)此流程直至到達(dá)最后目標(biāo)點。

Q學(xué)習(xí)算法的簡單描述可以總結(jié)如下：

該圖是Q學(xué)習(xí)算法流程圖

我們先看看什么是Cartpole問題，再繼續(xù)編程提供解決方案

當(dāng)我還是一個小孩的時候，我記得我會撿一根棍子試著用一只手讓它保持平衡。我和我的朋友們一起比賽看誰讓棍子保持平衡的時間最長就可以得到“獎勵”，一塊巧克力!

開始我們的代碼前，我們需要先安裝一些東西，

步驟1:安裝keras-rl庫

從終端運行以下命令：

 
 
  
  git clone https://github.com/matthiasplappert/keras-rl.git   
  cd keras-rl   
  python setup.py install

步驟2:安裝CartPole環(huán)境組件

假設(shè)你已經(jīng)安裝了pip，使用pip命令安裝以下庫

 
 
  
  pip install h5py   
  pip install gym

步驟3:啟動

首先我們要導(dǎo)入所需模塊

 
 
  
  import numpy as np   
  import gym   
     
  from keras.models import Sequential   
  from keras.layers import Dense, Activation, Flatten   
  from keras.optimizers import Adam   
     
  from rl.agents.dqn import DQNAgent   
  from rl.policy import EpsGreedyQPolicy   
  from rl.memory import SequentialMemory

然后設(shè)置相關(guān)變量

 
 
  
  ENV_NAME = 'CartPole-v0'   
     
  # Get the environment and extract the number of actions available in theCartpole problem   
  env = gym.make(ENV_NAME)   
  np.random.seed(123)   
  env.seed(123)   
  nb_actions = env.action_space.n

下一步，我們創(chuàng)建一個簡單的單隱層神經(jīng)網(wǎng)絡(luò)模型。

 
 
  
  model = Sequential()   
  model.add(Flatten(input_shape=(1,) + env.observation_space.shape))   
  model.add(Dense(16))   
  model.add(Activation('relu'))   
  model.add(Dense(nb_actions))   
  model.add(Activation('linear'))   
  print(model.summary())

接下來，配置并編譯我們的代理端。我們將策略設(shè)成ε-貪心算法，并且將存儲設(shè)置成順序存儲方式因為我們想要存儲執(zhí)行操作的結(jié)果和每一操作得到的獎勵。

 
 
  
  policy = EpsGreedyQPolicy()   
  memory = SequentialMemory(limit=50000, window_length=1)   
  dqn = DQNAgent(modelmodel=model, nb_actionsnb_actions=nb_actions, memorymemory=memory,nb_steps_warmup=10,   
  target_model_update=1e-2, policypolicy=policy)   
  dqn.compile(Adam(lr=1e-3), metrics=['mae'])   
     
  dqn.fit(env, nb_steps=5000, visualize=True, verbose=2)

現(xiàn)在測試強化學(xué)習(xí)模型

 
 
  
  dqn.test(env, nb_episodes=5, visualize=True)   
  This will be the output of our model:

這就是模型輸出結(jié)果：

瞧!你構(gòu)建了一個強化模型的雛形!

5. 增加復(fù)雜性

現(xiàn)在你已經(jīng)有了一個強化學(xué)習(xí)的基礎(chǔ)成品，讓我們來進一步的每次增加一點點復(fù)雜度以解決更多的問題。

問題-漢諾塔

對于不知道該游戲的人簡單說明一下——發(fā)明于1883年，由3根桿及一些逐增大小的圓盤(如上圖中所示的3個一樣)從最左邊的桿開始，目標(biāo)是從選擇最小移動次數(shù)將所有圓盤從最左邊移動到最右邊(你可以從維基百科得到更多訊息(https://en.wikipedia.org/wiki/Tower_of_Hanoi))。

如果我們要映射這個問題，從定義狀態(tài)開始：

● 開始狀態(tài) – 3個圓盤都在最左邊桿上(從上到下依次為1、2、3)

● 結(jié)束狀態(tài) – 3個圓盤都在最右邊桿上(從上到下依次為1、2、3)

所有可能的狀態(tài)：

列舉可能的27個狀態(tài)：

圖中(12)3*代表的是圓盤1和圓盤2依次在最左邊桿上(從上到下)，圓盤3在中間桿上，*表示最右邊桿為空

數(shù)字獎勵：

因為我們想以最少步數(shù)來解決問題，我們可以設(shè)定每一步的獎勵為-1。

規(guī)則：

現(xiàn)在，不考慮任何技術(shù)細(xì)節(jié)，我們可以標(biāo)記出在以上狀態(tài)間可能出現(xiàn)的轉(zhuǎn)移。例如從獎勵為-1的狀態(tài)(123)** 到狀態(tài) (23)1*，也可以是到狀態(tài)(23)*1。

同樣地，你看出了上面提到的27個狀態(tài)的每一個都類似于之前銷售人員旅行的示意圖。我們可以根據(jù)之前的經(jīng)驗找出最優(yōu)解決方案選擇不同狀態(tài)和路徑。

問題 - 3 x 3 魔方

當(dāng)我在為你解決這個問題的同時，也想要你自己也做一做。遵照我上面使用的相同步驟，你可以更好的理解和掌握。

從定義開始和結(jié)束狀態(tài)開始，接下來，定義所有可能的狀態(tài)和相應(yīng)的狀態(tài)轉(zhuǎn)移獎勵和規(guī)則。最后，使用相同的方法你可以提供解決魔方問題的方案。

6. 強化學(xué)習(xí)的研究現(xiàn)狀

你已經(jīng)意識到了魔方問題的復(fù)雜度比漢諾塔高了好幾個倍，也明白每次可選擇的操作數(shù)是怎么增長的。現(xiàn)在想想圍棋游戲里面狀態(tài)數(shù)和選擇，行動起來吧!最近谷歌DeepMind創(chuàng)建了一個深度強化學(xué)習(xí)算法打敗了李世石!

隨著近來涌現(xiàn)的深度學(xué)習(xí)成功案例，焦點慢慢轉(zhuǎn)向了應(yīng)用深度學(xué)習(xí)解決強化學(xué)習(xí)問題。李世石被谷歌deepmind開發(fā)的深度強化學(xué)習(xí)算法開打敗的新聞鋪天蓋地襲來。同樣的突破也出現(xiàn)在視頻游戲中，已經(jīng)逼近甚至超出人類級別的準(zhǔn)確性。研究仍然同等重要，不管是行業(yè)還是學(xué)術(shù)界的翹楚都在共同完成這個構(gòu)建更好的自我學(xué)習(xí)機器的目標(biāo)。

圖為李世石與AlphaGo參與圍棋人機大戰(zhàn)中

深度學(xué)習(xí)應(yīng)用的主要領(lǐng)域如下：

● 游戲原理及多智能體交互

● 機器人學(xué)

● 計算機網(wǎng)絡(luò)

● 車輛導(dǎo)航

● 醫(yī)藥學(xué)

● 行業(yè)物流

隨著近期將深度學(xué)習(xí)應(yīng)用于強化學(xué)習(xí)的熱潮，毫無疑問還有許多未探索的事在等待著更多的突破來臨!

其中一條最近的新聞：

7. 其他資源

我希望現(xiàn)在你已經(jīng)對強化學(xué)習(xí)怎么運行有了一個深入的了解。列舉了一些可以幫你探索更多有關(guān)強化學(xué)習(xí)的其他資源：

強化學(xué)習(xí)視頻(https://www.analyticsvidhya.com/blog/2016/12/21-deep-learning-videos-tutorials-courses-on-youtube-from-2016/)
介紹強化學(xué)習(xí)的書籍(https://webdocs.cs.ualberta.ca/~sutton/book/bookdraft2016sep.pdf)
Github上強化學(xué)習(xí)的優(yōu)秀資源(https://github.com/aikorea/awesome-rl)
David Silver強化學(xué)習(xí)課程(https://www.youtube.com/playlist?list=PLV_1KI9mrSpGFoaxoL9BCZeen_s987Yxb)

結(jié)束語

我希望你們能喜歡閱讀這篇文章，如果你們有任何疑慮和問題，請在下面提出。如果你們有強化學(xué)習(xí)的工作經(jīng)驗請在下面分享出來。通過這篇文章我希望能提供給你們一

個強化學(xué)習(xí)的概況，以及算法如何實際實施的，希望對你們有用。

來源：

https://www.analyticsvidhya.com/blog/2017/01/introduction-to-reinforcement-learning-implementation/?winzoom=1

【本文是專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文，微信公眾號“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

分享名稱：人工智能的新希望-強化學(xué)習(xí)全解
瀏覽路徑：http://m.fisionsoft.com.cn/article/ccsjgds.html

新聞中心

其他資訊