チームプレー型AIとは

マルチエージェント環境

人間は混雑した道でも他人とぶつからずに前進できます。サッカーの試合になれば、チームメートや相手選手の動きを見て自分のポジションを取り直します。
このように、複数の意思決定者がいる状況をマルチエージェント環境と呼びます。

図1 混んだ交差点でも人々は互いにぶつからずに道を渡ることができます
図2 サッカーでは敵と味方の状況を見て、自分のプレーを決断していく

既存AIの限界

大規模言語モデルや強化学習モデル、一般的最適化アルゴリズム等の既存のAIや最適化手法はチームワークを学習しないのでマルチエージェント環境においてタスクをうまく解けません。例えば、下図のような倉庫ロボット群による簡単な荷物運搬を考えてみましょう。それぞれのロボットが最短経路を通ろうとすると道の真ん中で衝突してしまいます。

図3 左上のロボットは黄色ブロックに、右下のロボットは緑色ブロックに行きたい状況です。各々が相手の存在を考慮せずに最短パスを通ろうとすると真ん中で衝突してしまいます。

マルチエージェント環境の本質的課題

マルチエージェント環境における意思決定の難しさの本質は「自分の報酬(利得)が自分の行動の他、他者の行動にも依存する」ということです。抽象的に考えると、マルチエージェント環境では、各エージェントは自分の「観測」したものをもとに「行動」を起こし、「報酬」を得ます。例えばサッカーでは、観測は自分の位置から見えた敵と味方の位置、行動はパスやドリブル、報酬はゴール(あるいはゴールへのつながりやすさ)です。多くのマルチエージェント環境では、報酬は各エージェントの「観測」と「行動」の関数であると考えられます。

マルチエージェント環境では、各エージェントは「他のエージェントがどういう行動を取るか」を予測しながら自分の行動を決定しないと高い報酬を得ることはできません。

図4 マルチエージェント環境では、各エージェントは自分の観測をもとに行動を決定します。
報酬は各エージェントの観測と行動の関数と考えることが出来ます。
この例では全エージェントが同じ報酬関数を持っていると仮定しています。

チームプレー型AIが目指す全体最適

マルチエージェント環境でエージェント群がチーム全体として報酬を最大化するには「チームプレー型AI」が必要不可欠です。チームプレー型AIは個々のエージェントを別々に最適化(=個別最適化)するのではなく、全体最適を実現します。

図5 チームプレー型AIを搭載したロボットは道の譲り合いを覚えます。

チームプレー型AIの可能性

我々は将来的にチームプレー型AIを搭載したロボットが物理世界で多くの仕事をこなすと考えています。
チームプレー型AIは今後さまざまな業界でますますその重要性が増してくるでしょう。これを読んでくださっている皆様の中に、自分の業界でどのようにチームプレー型AIが威力を発揮するかを知りたい方はお気軽にご連絡ください。