H8−11−12
「自律エージェントの環境適応能力
〜 コミュニケーションによる適応能力の向上 〜 」
中前卓司

[要旨]

 複数の自律エージェント(以下エージェント)が互いに取引を行う系を考える。その系においてはエージェント同士の取引関係のみが相互作用となる。個々のエージェント1つ1つにニューラルネットによる学習能力をつけ、最適な取引方法を学習できるようにすれば、それにより安定した系の状態を作る事ができる。

 今回、系が安定した状態になった後に取引方法のルールを変更し、その変化に各エージェントがどのように対応していくかを調べた。その結果、各エージェントにコミュニケーションという能力を付加しておけば、適応能力が向上することがわかった。適応をより効率よくするための1つの答えとしてコミュニケーションをとるという事の有効性が確かめられたのである。

 この結果から環境変化への適応の中で別の次元の進化が発生(今回の場合コミュニケーション)するのではないかという私の考えを更に強める事ができた。


[本文]

  1. エージェント、取引方法、学習方法の説明

     今回使用したエージェント及びエージェント同士の取引方法、エージェントの学習方法 について述べる。

    1. エージェントと系

       2つの整数x,yで座標を指定できる2次元マップをエージェントが存在する系とする。X,Yで指定できる1つの座標に1つのエージェントが存在できる。エージェントが存在しない座標もある。
       各エージェントはランダムに2次元マップ上を動き回り、座標(x,y)を変化させる事ができる。ただし、既にエージェントが存在する座標には移動できない。2次元マップの大きさは20x20とし、その上に100個のエージェントを配置する。

    2. エージェントと取引

       エージェントを5つのグループに分ける。そのうちの1つを環境に適応でき今回の調査対象となるエージェント(以下適応エージェント)とした。残りの4つを取引を行う事ができるが学習を行う事ができないエージェント(以下取引エージェント)とした。

       4つのグループに分けられた取引エージェントを適応エージェントから見た場合、属するグループの違いが識別できるように4つの取引エージェントにそれぞれ外見的特徴を持たせた。更にその外見的特徴に従い取引方法も異なるようにした。

       取引を行う方法として囚人のジレンマゲームを採用した。囚人のジレンマゲームについて簡単に説明しておく。それぞれのエージェントは取引の際に2つの選択肢を選択することができる。お互いにどちらの選択肢を選択したかにより、個々のエージェントは取引により以下の利得を得ることができる。2つの選択肢を慣習に習いC(Cooperation:協調)、D(Defeat:裏切り)とする。

      エージェントB
      Cを選択Dを選択
      エージェントA Cを選択0.5-2.5
      Dを選択2.5-1.5

      ※ 上記利得表は、エージェントAから見た場合のエージェントAが受け取る利得である。

       取引を行うタイミングは、エージェントが系を移動していく中でエージェント同士が2次元マップ上でお互いに隣接する場合とした。また調査対象を適応エージェントと取引エージェントとの関係のみに絞るため、適応エージェントと取引エージェントの間でのみ取引が発生するように制限をつける。

       適応エージェントの個数は20であり、取引エージェントの個数は総数で80、各グループ毎に20とする。

       取引において各エージェントは決められた利得を得る事ができるが、全てのエージェントが持つ利得が安定した状態になる事を”系が安定した。”と呼ぶ事にする。

    3. 取引エージェント

      4つの取引エージェントは適応エージェントから識別できるようするため、2つの外見的属性を持ちそれぞれの属性値として以下の値を持つ。

      属性大きさ
      取り引きエージェント1
      取り引きエージェント2
      取り引きエージェント3
      取り引きエージェント4

      また、囚人のジレンマゲームによる取引を行う際に4つの取引エージェントはそれぞれ以下の戦略を持ち取引を行う。

      戦略
      取り引きエージェント1裏切り
      取り引きエージェント2しっぺ返し
      取り引きエージェント3しっぺ返し
      取り引きエージェント4しっぺ返し

       戦略とは、取引の際に各エージェントは2つの選択肢を選ぶが、その選択肢を選ぶための基準として今回は簡易に解釈されたい。裏切り戦略とは、裏切りをいつも選択し、しっぺ返し戦略とは、最初協調するが裏切られたら裏切り返す選択をする戦略の事である。(囚人のジレンマゲーム及びその戦略など今回は詳しく述べない。参考文献を参照して頂きたい。)

    4. 適応エージェント

       適応エージェントは、取引エージェントとどのように取引を行えば良いだろうか?裏切り戦略と取引を行う場合は、協調すればするだけ適応エージェントの損になる。しっぺ返し戦略と取引を行う場合は、相手の裏切りを誘発しないように取引エージェントは協調に徹しなければならない。

       つまり、適応エージェントは、取引エージェントの外見的性質を識別し、それぞれどんな戦略を行うエージェントかを学習できれば、裏切りしっぺ返しという2つの戦略に対して適切な選択をする事ができるようになり、系を安定させる事ができる。
       取引エージェントの戦略は適応エージェントに教えられず、外見的属性のみから、最適な選択を行うように学習する事になる。この性質を本論文では”適応する”と称している。

       学習する方法としては、2つの属性に対しそれぞれ2値の属性値しか与えず、その結果(外見から判断できる戦略方法)もまた2値なのでパーセプトロンというニューラルネットワークの1つの手法を採用した。

    5. 取引エージェントの変化

       私が想定するは、ある種の生物の個体が自分の今いる系において最適な状態にいるが、ある時その環境が変化する場合である。私が知りたいことはその変化にどのように対応すれば、種としての存続を安全、確実に保ち続けられる事ができるかである。

       そこで安定した状態になった後に取引エージェントの属性を変え、適応エージェントが学習した系の環境を変化させる事にした。

      ある時間経過後に取引エージェントの戦略を
      戦略 前戦略 後個数
      取引エージェント1裏切りしっぺ返し20
      取引エージェント2しっぺ返し裏切り20
      取引エージェント3しっぺ返ししっぺ返し20
      取引エージェント4しっぺ返ししっぺ返し20

      と変える。この時刻を環境変化時刻と定義する。
       適応エージェントが学習した外見的性質と戦略の関係を変更し、学習した内容があてはまらない環境を作るのである。

       環境変化時刻の前後で裏切りとしっぺ返しを戦略としてとる取引エージェントの比が一定である事に注意されたい。この点は系が安定した状態を作るために重要な点である。適応エージェントが各取引エージェントと取引を行う確率は、2次元マップ上の各エージェントの移動がランダムであるため取引エージェントの数に比例する。よって適応エージェントが最適な取引方法を学習できれば、

      取引エージェントの戦略(左の戦略を持つエージェントの数) 適応エージェントが選択すべき最適戦略 対戦する確率 得る利得
      しっぺ返し60協調3/40.5
      裏切り20裏切り1/4-1.5

      であるため、その和が0となる。つまり系が安定するのである。よって系が安定かどうかを調べれば、適応エージェントが正しく学習できたかどうかも調べる事ができ、エージェントが適応しているかを確認できるのである。

  2. シミュレーション

     これまで述べてきたエージェントを実現し取引を実際にコンピュータ上でシミュレートするためのプログラムを作成しミュレーションを行った結果を示す。

    1. シミュレーションの条件
      1. 学習能力(パーセプトロンの係数)

        学習係数:0.004 しきい値:0.1

      2. 時間の単位

         100個のエージェントが全て移動、取引を1回実行し終わる1つの単位を1サイクルとしこの系の時刻の単位とした。5000サイクル後に環境変化時刻を設定した。

      3. エネルギー

         系が安定したかどうかを全ての適応エージェントの利得の合計が一定であるかどうかにより判断するとしたが、これ以降全ての適応エージェントの利得の合計を単に系のエネルギーと呼ぶ。

      以下のグラフは全て横軸がサイクル、縦軸が系のエネルギーとなっている。

      グラフ.1 学習できるエージェントの安定状態

       学習能力がある適応エージェントの有効性を確かめるために、学習能力がないものと比較したグラフ。エージェントはランダムに2次元マップ上を移動しランダムに取引を行うため、安 定した後も系のエネルギーに若干の変動が見られる。学習できないものは時刻に比例し系のエネルギーは減少している。

      グラフ.2 環境変化時刻での振る舞い

      1. 環境変化がなかった場合
      2. 学習能力を保持した状態で環境変化時刻を向かえた場合
      3. 学習できない状態になって環境変化時刻を向かえた場合

      の3つの場合をグラフにした。
       学習能力がないものは、利得を失っていくだけであるが、学習能力があれば系の環境変化後の環境を再度学習し直し適応できる事がわかる。環境変化時刻後約500サイクルでまた安定した状態になっている。

       
    2. コミュニケーションの導入

       これまで適応エージェントと取引エージェントの間でのみ取引を行うと制限していたが、適応エージェント同士の間でも取引を行う事にする。その取引は適応エージェントと取引エージェント間での取引と異なるようにした。

       適応エージェントは自分が間違った選択をした事を1回記憶できるとする。例えば裏切り戦略を選ばなければならない時に協調を選んだ時がそれにあたる。適応エージェント同士が行う取引を自分が間違えた情報を相手に伝える取引として定める。その場合利得の変化はなく、伝えられた相手はその情報を使用し学習状態のみ変化させる事ができるとする。つまり相手の間違えた情報を使用して、自分は代償を払うことなく学習を行えるのである。この取引を適応エージェントが行うコミュニケーションと呼ぶ。

       実際に現実の生物でも自分の間違えや得した情報を相手に伝え、集団の利益を向上させるための情報伝達=コミュニケーションを行う。ここで導入した取引はコミュニケーションと呼ぶに適した取引であると考える。

        グラフ.3 コミュニケーションの導入

       コミュニケーションを導入すれば、より速く安定した状態を作る事ができた。

       また、コミュニケーションを導入するために間違いを記憶するという機能を適応エージェントに導入した事も何か啓示的であると思われる。知能と記憶の関係についてである。ではあるが今回は深く立ち入らない事にした。

  3. 結論

     自律エージェントの環境適応能力がコミュニケーションにより向上する事がわかった。簡単で粗雑なシミュレーションではあるがコミュニケーションが大事である事がわかった。私は今回のシミュレーションの結果を見て、私自身の考えを更に強めることになった。私自身の考えとは環境変化への適応の中で別の次元の進化が発生するのではないかという事である。今回を例に取れば、適応できる能力があるエージェントが環境の変化に迅速に対応するためにコミュニケーションを利用する事がそれにあたる。

     環境は変化してきた。その変化は生物にとって全て好ましいものではなかったはずである。それでもその全ての変化に生物は適応してきた。だからこそ今種としての人間がいるのである。どうしても適応しなければならない。生物として個々の種を存続させるという事は生物にとって最も重要な使命である。適応しなければならない。その事に対する答えを生物が探求する過程で生物はコミュニケーションを学んだ。
     私は、生物が適応を幾度となく重ねるうちに適応する事への適応方法も学び得たと考えている。

  4. 最後に

     人間は環境への適応能力を失ってはいないだろうか?確かな事は私にはわからない。しかし今回確かめたように(グラフ2参照)、適応能力を失った状態で環境変化を向かえた場合、系のエネルギーは減少していく。何も学習できていない状態より減少幅は大きいのである。しかし、例え適応能力をある程度失っていても、人が人と人との間でコミュニケーションをとる人間である限り、適応する能力、飛躍する可能性をいつも秘めているではないかと考える。
     今インターネット(特にWWW)によりコミュニケーションの方法が大きく変わりつつあると言われる。コンピュータ業界に身を置く私としては、未来への適応のため、大きな飛躍のためにインターネットが大きな役割を担ってくれることを期待している。
     インターネットは環境の変化をもたらすものではない。環境の変化に対するために人間が作り出した1つの知恵、道具として世間一般に広く認識されることを拙に願って止まないのである。

参考文献

1.月刊bit 1995年9月号 「冷たい心でも協調は可能か?」
2.「囚人のジレンマ フォン・ノイマンとゲームの理論」 松浦俊輔他 青土社
3.「ニューロコンピューティングの基礎理論」
        日本工業技術振興協会ニューロコンピュータ研究部会編 海文堂

    以上