單項選擇題一個強化學(xué)習(xí)模型,下列敘述何者為真?()

A.一組可以動態(tài)變化的狀態(tài)(state)。比如圍棋棋盤上的黑白子的分布位置,市場上的每支股票的價格
B.一組可以選取的動作(action)。比如對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數(shù)量
C.一個可以和決策主體(agent)進行交互的環(huán)境。這個環(huán)境會決定每個動作后狀態(tài)如何變化。比如說圍棋博弈中的對手,或者股票市場。在強化學(xué)習(xí)中,為了降低學(xué)習(xí)的代價,很多時后我們會使用一個通過機器模擬的環(huán)境,而不是以真實場景作為環(huán)境
D.回報(reward)規(guī)則。當(dāng)決策主體通過行動狀態(tài)發(fā)生變化時,它會獲得回報或者受到懲罰
E.以上皆是


您可能感興趣的試卷

你可能感興趣的試題

1.單項選擇題以下關(guān)于計算機下棋程序的歷史說法錯誤的是?()

A.1997年,IBM的超級計算機“深藍(lán)”擊敗國際象棋世界冠軍加里卡斯珀羅夫
B.2014年IBM旗下的DeepMind團隊開發(fā)了人工智能圍棋程序AlphaGo
C.2015年10月,AlphaGo擊敗歐洲圍棋世界冠軍樊麾,成為第一個無需讓子即可擊敗圍棋職業(yè)選手的計算機圍棋程序
D.2016年3月,AlphaGo以4:1的成績擊敗圍棋世界冠軍,職業(yè)九段棋手李世乭
E.2017年5月,在中國烏鎮(zhèn)-阿爾法元(AlphaGoZero)以3:0的成績完勝圍棋世界冠軍柯潔

2.單項選擇題關(guān)于數(shù)據(jù)空間(dataspace)的敘述,下列何者錯誤?()

A.顧名思義就是數(shù)據(jù)所在的空間
B.若在生成圖像這個任務(wù)中,數(shù)據(jù)空間就是一些圖像的集合,所以也稱為圖像空間
C.數(shù)據(jù)集里的圖像分布在這空間里,稱為數(shù)據(jù)點
D.數(shù)據(jù)空間里的任何點都是有意義的
E.數(shù)據(jù)在數(shù)據(jù)空間的分布情況稱為數(shù)據(jù)分布

4.單項選擇題關(guān)于時序分段網(wǎng)絡(luò)的描述下列何者為非?()

A.在時間上將一輸入視頻分段
B.從每個片段中隨機選擇光流圖和圖片幀(Frame)
C.對每個片段都使用感知機的框架進行行為識別
D.分段的類別得分進行融合,得到整個視頻的行為類別
E.時序分段網(wǎng)絡(luò)解決長視頻識別的關(guān)鍵在于把視頻沿時間軸分段,使采樣樣本能較為均勻地分布整個時間段

5.單項選擇題關(guān)于深度學(xué)習(xí)視頻行為識別和圖像分類的敘述,下列論述何者錯誤?()

A.GoogleAlphaGo也是奠基于機器學(xué)習(xí),透過計算機運算對手下棋的頻率
B.廣泛應(yīng)用在圖像、影像識別、推薦系統(tǒng)、輔助決策等金融、醫(yī)療、國防民生領(lǐng)域
C.深度學(xué)習(xí)網(wǎng)絡(luò)就像黑盒子(blackbox),人們不容易理解模型中各網(wǎng)絡(luò)層的內(nèi)涵,就無法做出有效的調(diào)整
D.透過CNN模型,你可以輸入一張圖片,得到該圖片屬于哪種類別的結(jié)果,這過程我們把他稱作分類(Classification)
E.行為理解問題一般遵從如下基本過程:特征提取與運動表征、行為識別、高層行為與場景理解