自己教師あり学習は糸球体画像から有用な特徴量を抽出し、最低限の教師データで分類モデルの構築を可能にする
大阪大学のプレスリリース
J Am Soc Nephrol. 2024 Oct 9. doi: 10.1681/ASN.0000000514. PMID 39382977
Self-Supervised Learning for Feature Extraction from Glomerular Images and Disease Classification with Minimal Annotations.
Masatoshi Abe, Hirohiko Niioka, Ayumi Matsumoto, Yusuke Katsuma, Atsuhiro Imai, Hiroki Okushima, Shingo Ozaki, Naohiko Fujii, Kazumasa Oka, Yusuke Sakaguchi, Kazunori Inoue, Yoshitaka Isaka, Isao Matsui
概要
これまで、腎病理画像解析AIの開発には大量のラベル付きデータに基づく学習が必要であり、大規模なデータセット作成が困難であることが課題となっていました。
研究グループは、自己教師あり学習を腎病理画像解析に用いることで、少ないラベル付きデータセットから高い精度で疾患部類などが可能であるAIモデルを開発しました。このAIは、糸球体内の構成要素を色分けして可視化でき、ラベル情報なしで形態学的な違いを学習することが確認されました。さらに、このモデルを用いて腎疾患を分類した結果、従来の手法を超える性能を達成しました。特にラベル付きデータが少ない場合にも高い性能を維持しました。自己教師あり学習を用いることで、デジタル病理学における深層学習の応用の効率化が進み、さらなる発展を遂げることが期待されます(図1)。
図1:自己教師あり学習により効率的な病理画像AI開発が可能になる
研究の背景
深層学習は腎生検病理画像解析に有効であるということが知られています。しかし、深層学習モデルを十分に学習させるにはラベルつきデータを大量に集める必要があり、ラベル付きデータが乏しいことが腎生検画像の解析における深層学習の普及を妨げています。
研究の内容
大阪大学医学部附属病院腎臓内科で腎生検を受けた384例のPAS染色画像中の10,423枚の糸球体画像に自己教師あり学習の手法の一つであるDINO(self-distillation with no labels)を適応しました。
DINO学習済みモデルによって生成された特徴マップを可視化するために主成分分析(PCA)※2を用いると、糸球体の構成要素ごとに色が分かれ、異なる組織には異なる主成分の要素が強く出ていることが確認できました(図2)。
図2:自己教師あり学習を用いることで、人間の指示なしで組織学的特徴を抽出
自己教師あり学習および従来手法で抽出した画像特徴の主成分をカラー表示
自己教師あり学習では腎糸球体の構成要素ごとに色が分かれている
そして、DINO学習済みモデルまたは従来のImageNet※3学習済みモデルを用いて分類タスクを学習させ、受信者動作特性曲線下面積(ROC_AUC)※4などの指標を用いて性能を評価しました(図3)。分類タスクとして微小糸球体病変、メサンギウム増殖性糸球体腎炎、膜性腎症、糖尿病性腎症の4疾患分類と、高血圧、蛋白尿、血尿などの臨床パラメータ分類の2つを用いました。
図3:自己教師あり学習により疾患分類性能が向上
疾患分類では、DINO学習済みモデル(ROC_AUC=0.934)がImageNet学習済みモデル(ROC_AUC=0.892)を上回りました。ラベル付きデータが制限された場合、ImageNet学習済みモデルのROC_AUCは0.763[95%信頼区間:0.724-0.802]に低下しましたが、DINO学習済みモデルは優れた性能を維持しました(ROC_AUC=0.882 95%信頼区間:0.862-0.903)。DINO学習済みモデルはいくつかの臨床パラメータにおいてもより高いROC_AUCを示しました。
本研究成果が社会に与える影響(本研究成果の意義)
本研究では自己教師あり学習を腎糸球体分類に適応することで、最小限のラベル付けでも高い性能で疾患分類を行うことができることを示しました。自己教師あり学習を用いることでデジタル病理学における深層学習の応用の効率化が進み、さらなる発展を遂げることが期待されます。
※1 | 自己教師あり学習 ラベルのないデータを使用して、下流のタスク(本研究では疾患分類や臨床パラメータ分類)に有用な表現を得るための機械学習の手法の一つ。 |
---|---|
※2 | 主成分分析(PCA) 多数の変数を持つデータから最も重要な情報を抽出し、より少ない新しい変数(主成分)に要約する統計手法で、データの解釈を容易にする。 |
※3 | ImageNet 画像認識の研究で用いるために設計された大規模な一般画像のデータセット。 |
※4 | 受信者動作特性曲線下面積(ROC_AUC) 横軸に偽陽性率、縦軸に真陽性率をプロットし、曲線が上に凸なほどモデルの性能が高いことを示し、AUC(曲線下の面積)が1に近いほど、モデルの予測力が優れていることを示す。 |