During training, the agent adjusted its Q-values to converge on an optimal policy.
訓練中、エージェントは最適な方策に収束するためにQ値を調整した。
アカウントを持っていませんか? 新規登録
アカウントを持っていますか? ログイン
DiQt(ディクト)
無料
★★★★★★★★★★