谷内田真一 ≪がんゲノム情報学≫ Explainable AI（説明可能なAI）の活用による腸内細菌に基づく大腸がんの詳細な分類を実現～大腸がん診断とバイオマーカー同定のパーソナライズを促進～

2023年2月9日
掲載誌 Genome Biology

研究成果のポイント

「説明可能なAI」を利用して個人の腸内細菌パターンを特定し、大腸がん患者をより細かく層別化
ゲーム理論を応用した手法で、健常者と大腸がん患者を明確に判別できることを発見
今後さらにパーソナライズされた大腸がん診断とバイオマーカー同定の実現につながると期待

概要

東京工業大学生命理工学院生命理工学系の山田拓司准教授、Ryza Rynazal（リザ・リナザル）大学院生（修士課程）、大阪大学大学院医学系研究科医学専攻ゲノム生物学教室・がんゲノム情報学の谷内田真一教授らは、「説明可能なAI（用語1）」を活用し、腸内細菌パターンに基づいて大腸がんを詳細に分類する手法を開発した。

現在、腸内細菌データから大腸がんの確率を予測する機械学習モデル（AI）の開発が進んでいる。この場合の機械学習は、腸内環境情報から大腸がんかどうかを判別するモデルと、診断のための細菌バイオマーカーを探索する手法の両方として位置づけられている。

これまでの機械学習モデルでは、大腸がん患者と健常者における腸内細菌群集構造（用語2）の全体的な違いに焦点が当てられることが多く、個々の患者に固有の詳細な腸内細菌群集構造は考慮されていない。そこで研究チームは「説明可能なAI」を利用し、大腸がん患者それぞれに対して「大腸がんらしさ」を表す確率を計算し、その確率に寄与する個人ごとの腸内細菌パターンを見出した。この手法により、大腸がん患者をより詳細なサブグループに層別化することを可能にした。

今回開発した手法は、将来的にはさらにパーソナライズされた大腸がん診断とバイオマーカー同定の実現につながると期待される。

研究の背景

近年の研究により、腸内細菌群集構造の変化と大腸がんの進行との関連が明らかになっている。大腸がん患者におけるフソバクテリウム・ヌクレアタム（Fusobacterium nucleatum）やパルビモナス・ミクラ（Parvimonas micra）などの特定の細菌の存在量の増加は、大腸がん発症との関連性が報告されている。このような便サンプル由来の細菌情報をバイオマーカーとして利用した大腸がん診断方法の開発も進んでいる。

これまでの大腸がんのバイオマーカー探索や疾患予測では、機械学習モデルがすでに利用されている。機械学習の様々なアルゴリズムの中でも、特にRandom Forestは、予測力や得られた結果の説明の簡易さなどから研究でよく使用されている。機械学習を使ったこれまでの研究報告でも、大腸がんバイオマーカーの最有力候補として、従来の研究と同様にフソバクテリウム・ヌクレアタムが挙げられている。

機械学習を用いたこれまでの解析手法では、こうした大腸がんと関連のある細菌の特定に加えて、細菌群集全体を考慮した疾患確率の計算も可能だ。しかしながら、大腸がん確率に寄与するのはどの細菌かを、それぞれの患者について個別に明らかにすることはできていない。大腸がん患者の中には、フソバクテリウム・ヌクレアタムやパルビモナス・ミクラのような、大腸がん患者一般に特徴的な大腸がん関連細菌は多く存在しないが、別の細菌が健常と大腸がんとの区別を示す場合がある。このように、大腸がん患者の間でも「大腸がんらしさ」に寄与する細菌が異なっているが、これまでの方法では患者ごとという解像度で大腸がんの特徴を捉えることができなかった。

研究の手法

そこで、東京工業大学の山田拓司准教授らの研究チームは、「説明可能なAI」を活用し、腸内環境情報からの大腸がん予測において、重要な情報を層別化し取得する手法を開発した（図1）。これは、ゲーム理論（用語3）の「シャプレー値」に由来するSHAP（Shapley Additive Explanations）と呼ばれるフレームワークを利用したものである。シャプレー値とは、ゲーム理論において、どのようにすればチームを構成するプレイヤー同士で公平に配当を分配できるかを示す値である。同様に、本研究では、大腸がん予測における特定の細菌の影響を示すためにSHAPを使用した。

研究の成果

研究チームは、SHAP値を2次元空間に投影することで、健常者と大腸がん患者を明確に判別できることを発見した。さらに、このSHAP値を用いて大腸がん患者をクラスタリング（層別化）した結果、大腸がん患者が4つのサブグループを形成していることが明らかとなった。この事象を異なる国由来の5つの主要な公開大腸がんマイクロバイオームデータセットを用いて検証し、データセット間で一貫した結果を得ることに成功した（図2）。また、大腸がん確率の値が最も高いサブグループは、大腸がんに関連する細菌も多いことを明らかにした（図3）。

図2. 主要な公開大腸がんマイクロバイオームデータセットにおける、SHAP値の2次元空間投影結果。
各データセットで4つの大腸がんサブグループ（クラスタ）が検出された。
クリックで拡大表示します

図3. 各データセットにおけるクラスタ別の大腸がん確率。
クラスタによって確率の範囲が異なっており、あるクラスタは他のクラスタよりも大腸がんになる確率が高いことが示唆される。
クリックで拡大表示します

図4. 研究の概要
クリックで拡大表示します

本研究が社会に与える影響（本研究成果の意義）

細菌と疾患の関連性の研究において、機械学習アルゴリズムの利用により、疾患の診断に向けた研究が増加している。すなわち、本研究により提案されたこの新しい解析手法は、より層別化されたマイクロバイオームデータを探索し、潜在的な疾患サブグループとそれに関連する潜在的バイオマーカーを見つけ出すのに非常に有益である。