AIプログラムとかUnityゲーム開発について

探索や学習などを活用したAI系ゲームを作りたいと思います。

ml-agentsのtennisを2バウンドアウトに変更して学習してみる

なぜかml-agentのサンプルのテニスは、1バウンドがアウトになってて羽子板みたいなプレイになっている
卓球は1バウンドでノーバウンドアウトだが、テニスはノーバウンドまたは1バウンドセーフでアウトなのは2バウンド

ということでHitWall.csを改造して1バウンドOKにして学習してみている(現在進行形)
f:id:yasu9780:20201015195337g:plain

もう120万ステップも学習してるのにプレイが改善されているように見えない
しかもどうもプログラムがバグってる気がする
なんかサーブが変

元のサンプルの学習結果ってどのくらい学習してるんだろう?
SoccerTwosも学習がなかなか進まない。サンプルみたいに動けるのはどのくらいかかるの?
このへんはググってもさっぱり解らないが

GeForce買ってcudaをやりたくなる。

type coreClock CUDAs power perform. 中古価格
RTX2080 1515 2944 215 4460160 6.2万円
RTX2070 1410 2304 175 3248640 4万円
GTX 1080 1607 2560 180 4113920 3万円
GTX 1060※ 1506 1280 120 1927680 1.7万円

CUDA で GPU の 戦闘力の差 を 実感する... - Qiita


CUDA数で考えるとGTX1080と2080は性能は変らないので
中古が3万円で買える1080はコスパがいい
1060だと1.7万円ぐらいだから、コスパは1080が勝る

また画面表示と違ってCUDAの場合PCIe x1もx16も大差ないらしい
(もっと画面表示させてもx1とx16の差はベンチマークで5%ぐらいしか変わらないらしい)

TensorBoard

学習400万ステップまで行ったけど、TensorBoardで学習の様子を確認してみると

f:id:yasu9780:20201015213949p:plain

1回のラリー時間は伸びている
ポリシーロスは良くわかないけど、バリューロスは増えて、次は安定に向かっている
(報酬が増えている間は増えて、安定してくると下がるらしい。安定し始めている?)

エントロピーは減り続けてる(ランダム試行の割合が減っている)

note.com
↑この方の書籍は買ってますけど、新版も出てますね