A.一組可以動態(tài)變化的狀態(tài)(state)。比如圍棋棋盤上的黑白子的分布位置,市場上的每支股票的價格
B.一組可以選取的動作(action)。比如對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數(shù)量
C.一個可以和決策主體(agent)進行交互的環(huán)境。這個環(huán)境會決定每個動作后狀態(tài)如何變化。比如說圍棋博弈中的對手,或者股票市場。在強化學(xué)習(xí)中,為了降低學(xué)習(xí)的代價,很多時后我們會使用一個通過機器模擬的環(huán)境,而不是以真實場景作為環(huán)境
D.回報(reward)規(guī)則。當(dāng)決策主體通過行動狀態(tài)發(fā)生變化時,它會獲得回報或者受到懲罰
E.以上皆是
您可能感興趣的試卷
你可能感興趣的試題
A.1997年,IBM的超級計算機“深藍(lán)”擊敗國際象棋世界冠軍加里卡斯珀羅夫
B.2014年IBM旗下的DeepMind團隊開發(fā)了人工智能圍棋程序AlphaGo
C.2015年10月,AlphaGo擊敗歐洲圍棋世界冠軍樊麾,成為第一個無需讓子即可擊敗圍棋職業(yè)選手的計算機圍棋程序
D.2016年3月,AlphaGo以4:1的成績擊敗圍棋世界冠軍,職業(yè)九段棋手李世乭
E.2017年5月,在中國烏鎮(zhèn)-阿爾法元(AlphaGoZero)以3:0的成績完勝圍棋世界冠軍柯潔
A.顧名思義就是數(shù)據(jù)所在的空間
B.若在生成圖像這個任務(wù)中,數(shù)據(jù)空間就是一些圖像的集合,所以也稱為圖像空間
C.數(shù)據(jù)集里的圖像分布在這空間里,稱為數(shù)據(jù)點
D.數(shù)據(jù)空間里的任何點都是有意義的
E.數(shù)據(jù)在數(shù)據(jù)空間的分布情況稱為數(shù)據(jù)分布
A.0
B.0.1
C.1
D.10
E.1000
A.在時間上將一輸入視頻分段
B.從每個片段中隨機選擇光流圖和圖片幀(Frame)
C.對每個片段都使用感知機的框架進行行為識別
D.分段的類別得分進行融合,得到整個視頻的行為類別
E.時序分段網(wǎng)絡(luò)解決長視頻識別的關(guān)鍵在于把視頻沿時間軸分段,使采樣樣本能較為均勻地分布整個時間段
A.GoogleAlphaGo也是奠基于機器學(xué)習(xí),透過計算機運算對手下棋的頻率
B.廣泛應(yīng)用在圖像、影像識別、推薦系統(tǒng)、輔助決策等金融、醫(yī)療、國防民生領(lǐng)域
C.深度學(xué)習(xí)網(wǎng)絡(luò)就像黑盒子(blackbox),人們不容易理解模型中各網(wǎng)絡(luò)層的內(nèi)涵,就無法做出有效的調(diào)整
D.透過CNN模型,你可以輸入一張圖片,得到該圖片屬于哪種類別的結(jié)果,這過程我們把他稱作分類(Classification)
E.行為理解問題一般遵從如下基本過程:特征提取與運動表征、行為識別、高層行為與場景理解
最新試題
數(shù)量歸約中無參數(shù)的方法一般使用()。
在深度學(xué)習(xí)模型訓(xùn)練中,"早停法"(EarlyStopping)策略的應(yīng)用目的是什么()?
在自然語言處理任務(wù)中,哪些技術(shù)適用于改善實體識別和關(guān)系抽取的效果()?
度量泛化能力的好壞,最直觀的表現(xiàn)就是模型的()。
人工智能中的“序列到序列”模型主要用于處理什么類型的數(shù)據(jù)()?
在自然語言處理中,哪些技術(shù)可以用于改善實體識別和文本生成任務(wù)的性能()?
集成學(xué)習(xí)在強化學(xué)習(xí)中的一個常見應(yīng)用是什么()?
反向傳播算法和梯度下降算法在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的主要區(qū)別是什么()?
圖像數(shù)據(jù)標(biāo)注可以用于()算法中。
根據(jù)新數(shù)據(jù)集的大小和數(shù)據(jù)集的相似程度,下列選項不屬于遷移學(xué)習(xí)方法情況的是的是()。