To hedge against worst-case scenarios, the research team chose to maximin the policy during training.
最悪のシナリオに備えるため、研究チームは訓練中に期待される最低リターンを最大化するアルゴリズムを採用することを選びました。
アカウントを持っていませんか? 新規登録
アカウントを持っていますか? ログイン
DiQt(ディクト)
無料
★★★★★★★★★★