2,128 followers
https://t.co/ZwWd6gkVHF MDPの最適ポリシーのDPアルゴリズムはスケールしないので、状態空間のerror-drivenな適応的aggregation。また、その場合の error boundの導出。 正直あまり理解できなかった…… #ATVA
https://t.co/ZwWd6gkVHF MDPの最適ポリシーのDPアルゴリズムはスケールしないので、状態空間のerror-drivenな適応的aggregation。また、その場合の error boundの導出。 正直あまり理解できなかった…… #ATVA