共同研究講座

ゲノム情報学

医療情報とゲノム情報の統合に基づいた高性能な情報処理による意思決定支援AIシステム
  • 機械学習に基づくAIシステムを構成する要素技術の開発
  • 医療情報および検診情報と連携するゲノム情報データベースの構築
  • 複雑なデータの可視化と言語化のための要素技術の開発
  • 生体大量情報処理のためのHPC(高性能計算)技術の開発

機械学習に基づいた統計数理遺伝学向けの形質情報のモデル化とデータの可視化や言語化に向けた解析ソフトウェアの開発

高性能シーケンサ(NGS)や高密度アレイの出力データからゲノム情報(DNA配列変異や転写産物のプロファイル)の抽出を行う処理パイプラインの構築および運用によって疾患に関連するゲノム情報データベースの構築を進めています。医療情報および検診情報を蓄積したデータベース(電子カルテ)との連携を実現するインタフェースを開発して、これらのデータベースの統合を実現する情報処理システムを実現します。

図1

統合された医療情報および検診情報とゲノム情報を対象データとし、機械学習(モデル化と推論)に基づくAI(Artificial Intelligence:人工知能)とHPC(High-Performance Computing:高性能計算)を用いて疾患関連因子や副作用/予後に関する情報の探索とその活用を実現する「意思決定支援AIシステム」の開発を進めています。その際には、因子間の関連や相関を数理モデル(予測式)として抽出し、未知検体に適用してその特性の評価や予測を実現します。また、大量データの網羅的評価を実現するための高性能な情報処理技術(並列分散処理向けアルゴリズムと実装方法)の開発を行って、規模を活かしたデータ駆動型の解析環境の構築を実現します。

図2 機械学習に基づいた統計数理遺伝学向けの形質情報のモデル化

これまでに延べ数千検体の臨床データの処理実績を上げています。そこで得られたゲノム情報を対象として、注目したゲノム配列領域のハプロタイプ(遺伝子型の並び)や特定の転写産物の発現パタンが検体群や医療情報(疾患関連形質)に特異的か否かを統計的に評価する手法を開発して、その一部を応用ソフトウェアとして公開しています。開発した手法を活用して、幅広い疾患(診療科)を対象とした臨床系研究者への情報還元や共同研究を進めています。

図3 データの可視化や言語化に向けた解析ソフトウェア

多種多様な対象データを想定して、機械学習に基づくAIシステムの構築に向けた数理モデル構築技術、情報抽出技術、推論/予測技術、組合わせ論的解析手法、数理遺伝学的解析手法の開発を進めます。また、医療情報や検診情報と連携するゲノム情報データベースの構築に向けたゲノム情報獲得技術とその蓄積技術、転写産物/タンパク質の網羅的プロファイル情報の獲得技術、画像処理による疾患関連形質の定量技術、電子カルテ連携インタフェース、データベース可視化システムの開発を行います。生体大量情報を対象とした高性能計算の実現に向けた並列分散処理技術と実装方法の開発を進めています。