ml-agentsで3Dballの学習にY軸回転も追加してみる - AIプログラムとかUnityゲーム開発について

強化学習ってのは水族館でのアシカの調教と同じで、うまくやったら餌をやり、失敗したら怒る学習
教師あり学習と違って、アシカがどう動くはアシカに任せて、結果だけで評価する
初期状態では基本的にはランダムに動く
成功したら、その成功に道筋すべての行動に報酬を与えて次回それをやるように強化する（失敗したら逆のことをする）
↑といってランダム行動は忘れない。一回の成功だけで行動は決められないので
報酬の与えかたは過去にたどるにつれて係数をかけて弱めたりするするんだけど、そういう調整はconfigのyamlに定義されている

学習にY軸回転を追加してみる

サンプルのソースを見るとボールを落とさない学習にY軸は使って無くて、X軸とZ軸だけ使ってるんで試しにY軸回転も追加してみた
f:id:yasu9780:20201015141354g:plain

学習にY軸回転が不要ならY軸はほとんど動かさない方に学習が進むかも？
XZ軸とXYZ軸で学習が収束するまでのステップを比較すればどっちが条件として望ましいかの比較もできるかも？
↑比較してみるとXZ軸だけで学習した方が学習進度も早く報酬100に達するのも速かった（XZ軸16.8万steps　XYZ軸18万steps）

修正したのはbrainへステートを渡すCollectObservations()とアクションを定義するonActionReceived()と初期化のOnEpisodeBegin()の三つ

あとY軸を増やしたので、3DBallのAgentにaddされているBehaviorParametersのVector Observationを9にして、VectorActionを3に増やした

    public override void CollectObservations(VectorSensor sensor)
    {
        sensor.AddObservation(gameObject.transform.rotation.z);
        sensor.AddObservation(gameObject.transform.rotation.x);
        sensor.AddObservation(gameObject.transform.rotation.y);
        sensor.AddObservation(ball.transform.position - gameObject.transform.position);
        sensor.AddObservation(m_BallRb.velocity);
    }

    public override void OnActionReceived(float[] vectorAction)
    {
        var actionZ = 2f * Mathf.Clamp(vectorAction[0], -1f, 1f);
        var actionX = 2f * Mathf.Clamp(vectorAction[1], -1f, 1f);
        var actionY = 2f * Mathf.Clamp(vectorAction[2], -1f, 1f);

        if ((gameObject.transform.rotation.z < 0.25f && actionZ > 0f) ||
            (gameObject.transform.rotation.z > -0.25f && actionZ < 0f))
        {
            gameObject.transform.Rotate(new Vector3(0, 0, 1), actionZ);
        }

        if ((gameObject.transform.rotation.x < 0.25f && actionX > 0f) ||
            (gameObject.transform.rotation.x > -0.25f && actionX < 0f))
        {
            gameObject.transform.Rotate(new Vector3(1, 0, 0), actionX);
        }

        if ((gameObject.transform.rotation.y < 0.25f && actionY > 0f) ||
            (gameObject.transform.rotation.y > -0.25f && actionY < 0f))
        {
            gameObject.transform.Rotate(new Vector3(0, 1, 0), actionY);
        }

        if ((ball.transform.position.y - gameObject.transform.position.y) < -2f ||
            Mathf.Abs(ball.transform.position.x - gameObject.transform.position.x) > 3f ||
            Mathf.Abs(ball.transform.position.z - gameObject.transform.position.z) > 3f)
        {
            SetReward(-1f);
            EndEpisode();
        }
        else
        {
            SetReward(0.1f);
        }
    }

    public override void OnEpisodeBegin()
    {
        gameObject.transform.rotation = new Quaternion(0f, 0f, 0f, 0f);
        gameObject.transform.Rotate(new Vector3(1, 0, 0), Random.Range(-10f, 10f));
        gameObject.transform.Rotate(new Vector3(0, 0, 1), Random.Range(-10f, 10f));
        gameObject.transform.Rotate(new Vector3(0, 1, 0), Random.Range(-10f, 10f));
        m_BallRb.velocity = new Vector3(0f, 0f, 0f);
        ball.transform.position = new Vector3(Random.Range(-1.5f, 1.5f), 4f, Random.Range(-1.5f, 1.5f))
            + gameObject.transform.position;
        //Reset the parameters when the Agent is reset.
        SetResetParameters();
    }

処理の流れとしては、