BLOG 研究員ブログ詳細

2021年08月02日 技術情報

ヘルスケア産業に使われるアルゴリズムのトレンドとは?

近年、ビッグデータの分析手法が急速に発展したことで、医療データへの利用可能性も高まっています。
医療現場でのAI技術の応用が進んでおり、法的な問題や責任の所在論などクリアすべき課題は多いものの、議論としてはAIの医師が人間の医師に取って変わるのではないかということさえ、将来的な議論として活発化しています。
いきなりAI医師が診察をすることになる可能性は低いと考えますが、医師がより良い臨床判断を出来るようAIが支援したり、放射線科などの特定の機能分野ではAIが人間の判断の一部をかなりのレベルでサポートすることは予想できます。

今後、ヘルスケア産業ではどのようなAIアルゴリズムが使われていくのでしょうか。本記事では医療分野において、いまどのようなAI技術が必要とされており、それを達成するためのアルゴリズムに関する近年のトレンドの解説を交えながらご説明したいと思います。

臨床データはAI技術と相性が良い

スクリーニングや診断、治療の割り当てなど、臨床における活動からは多くのデータを得ることができます。このデータをAIに学習させることで、新たな診断や治療の発見に生かすことができないかというのがアイデアの根幹になります。

さて、こうした臨床データは、人口統計、診療録、医療機器からの電子記録、健康診断、臨床検査、画像など多岐の形式にわたっています。では、これらデータの中でどのようなデータがAI技術と相性が良いのでしょうか。Jiangらの報告によると、特に診断の段階ではAIに関連する文献のかなりの部分が、診断用画像、遺伝子検査、電気診断のデータに関連していることが明らかとなっています。一方で、直接分析できないような構造化されていないテキストが含まれている、健康診断のメモや臨床検査の結果も主要なデータソースとして扱われることも分かっています。この場合、対応するAIアプリケーションは、まず非構造化テキストを機械で理解できる電子医療記録(EMR)に変換することが必要です。例えば、Karakülahらは、AI技術を用いて症例報告から表現型の特徴を抽出し、先天性異常の診断精度を向上させました。

このことから、医療に用いられるAIは主に二つのカテゴリーに分類されると考えられるでしょう。一つ目のカテゴリーは、画像データや遺伝子データなど構造化されたデータを分析する機械学習技術(ML)です。もうひとつのカテゴリーは、クリニカルノートなどの非構造化のデータから情報を抽出し、構造化された医療データをサポートする自然言語処理技術(NLP)になります。

疾患領域別のAI関連文献のトレンド

続いて、AI関連文献を疾患別に分析した際のトレンドを考えていきます。AI関連の研究は主にがん、神経系疾患、心血管疾患などの特定の疾患に集中する傾向がありそうです。これら三つの疾患には何が共通しているのでしょうか。

一言でいえば、これら三つの疾患はいずれも死因の上位を占めており、かつ良好な予後を得るには早期診断が重要となっていることが共通点でしょう。AI技術の強みである画像診断や遺伝子診断などの解析手順を改善していくことで、早期診断の実現が期待されているのです。また、これらの疾患以外でもAIは使われており、眼球画像データを解析することで先天性白内障の診断を行った例や、網膜眼底写真から糖尿病性網膜症を検出した例が報告されています。

医療分野で用いられているアルゴリズムとそのトレンド

医療分野におけるAIシステムは、構造化されたデータ(画像、電気診断データ、遺伝子データ)を扱うためのMLコンポーネントと、構造化されていないテキストをマイニングするためのNLPコンポーネントを持つ必要があります。近年では、古典的なML技術であるニューラルネットワークが発展し、画像診断と相性の良い深層学習技術が用いられるようになりました。ここでは、医療分野でよく用いられているアルゴリズムとして、古典的なML、MLの現代的な手法である深層学習技術、NLPの3項目についてご説明していきます。

古典的ML

機械学習(Machine Learning=ML)では、データをアルゴリズムに食わせることで、データが持つ特徴を抽出していきます。つまり、患者の特徴や、疾患の基本的情報をデータとして、MLアルゴリズムに入力することでデータ同士の関係性を紐解いていくことになります。
患者の特徴データとしては、一般的に、年齢、性別、病歴などのベースラインデータと、画像診断、遺伝子発現、EPテスト、身体検査の結果、臨床症状、投薬などの疾患固有のデータが含まれるでしょう。疾患の基本的情報には、病気の指標、患者の生存期間、腫瘍の大きさなどの定量的な情報が含まれるでしょう。臨床研究では患者さんの医療結果を収集することがよくありますので、こうした研究で得られた疾患が持つ情報を入力することになります。

なお、MLアルゴリズムは大きく「教師なし学習」と「教師あり学習」の2つに分けられます。教師なし学習は特徴抽出でよく知られていますが、教師あり学習は、患者の特徴(入力)と対象となる結果(出力)の間に何らかの関係を構築することで、予測モデルを構築するのに適しています。最近では、教師なし学習と教師あり学習のハイブリッドとして、半教師あり学習が提案されており、これは特定の被験者について結果が得られない場合に適しています。

教師なし学習と比較して教師あり学習ではより印象に関連した結果が得られるため、筆者が執筆時点でみる限りでは、ヘルスケア分野のAIアルゴリズムとしては教師あり学習を使用することがほとんどでした。教師あり学習のなかではSVMとニューラルネットワークが最も人気があります。これは、3つの主要なデータタイプ(画像、遺伝子、電気診断)に限定しても同様です。

なお、教師あり学習と教師なし学習の違いがピンとこない方は、こちらの記事も参照していただければ嬉しいです。

深層学習(ディープラーニング)

深層学習は古典的なニューラルネットワーク技術を発展させたものです。深層学習の大元のアイデアはニューラルネットワークと同様ですが、これまで計算を収束させることができず多くの層を持てなかった課題をクリアした技術といえます。深層学習ではデータの中にあるより複雑な非線形パターンを探索することができます。医療研究の分野における深層学習の適用は2016年にほぼ倍増しています。深層学習は画像解析と相性が良く、大部分が画像解析に使われているようです。

深層学習は古典的なニューラルネットワーク技術を発展させたものです。深層学習の大元のアイデアはニューラルネットワークと同様ですが、これまで計算を収束させることができず多くの層を持てなかった課題をクリアした技術といえます。深層学習ではデータの中にあるより複雑な非線形パターンを探索することができます。医療研究の分野における深層学習の適用は2016年にほぼ倍増しています。深層学習は画像解析と相性が良く、大部分が画像解析に使われているようです。

深層学習は、古典的なニューラルネットワークとは異なり、より多くの隠れ層を使用することで、さまざまな構造を持つ複雑なデータを扱うことができます。医療分野では、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク、ディープビリーフネットワーク、ディープニューラルネットワークなどの深層学習アルゴリズムが一般的に使用されています。

自然言語処理(NLP)

医療に使われるデータのうち、画像データ、電気診断データ、遺伝子データ等は数値データであり、機械的に理解することができます。したがって、適切な前処理や品質管理プロセスを経て、MLアルゴリズムを直接実行することができるデータです。一方、臨床情報の大部分は、身体検査、臨床検査報告、手術記録、退院記録などのナラティブテキストの形をしており、綺麗に構造化されているデータとはいいがたいのが実情ではないでしょうか。そのため、このデータはそのままではアルゴリズム(コンピュータ・プログラム)に入力することはできません。このような状況を解決する為に、NLPという自然言語処理用のアルゴリズムを用いるのが一般的です。臨床上の意思決定を支援するために、ナラティブテキストから有用な情報を抽出することを目的として用いられています。

NLPパイプラインは、治療方針の決定や副作用の監視など、臨床上の意思決定を支援するために開発されました。NLPパイプラインは、主に(1)テキスト処理と(2)分類のコンポーネントで構成されています。導入例としては、Fiszmanらが、胸部X線のレポートを読み取るためにNLPを導入することで、抗生物質アシスタントシステムが医師に抗感染症治療の必要性を警告するのに役立つことを示しています。


ここまで、とくにヘルスケア産業に焦点をあてて、AI技術の活用状況について例示しました。
個人的には、患者さんの命に直結する産業ですので、もともとかなり科学的なデータに基づいた議論が根付いている産業だと思っています。いまこの瞬間にも新たな治療法を待っている患者さんがいる業界だからこそ、積極的な技術開発が期待されると思います。
それでは、また。


<参考文献>

  1. Artificial intelligence in healthcare: past, present and future. Stroke Vasc Neurol. 2017 Jun 21;2(4):230-243.
  2. Computer based extraction of phenoptypic features of human congenital anomalies from the digital literature with natural language processing techniques. Stud Health Technol Inform. 2014;205:570-4.
  3. An artificial intelligence platform for the multihospital collaborative management of congenital cataracts. Nature biomedical engineering 1.2 (2017): 1-8.
  4. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs. JAMA. 2016 Dec 13;316(22):2402-2410.
  5. Automatic detection of acute bacterial pneumonia from chest X-ray reports. J Am Med Inform Assoc. 2000 Nov-Dec;7(6):593-604.
関連記事
  • 2024年1月5日

    技術情報

    アルゴリズムの仕組みと意味合いを理解する:相関系のアルゴリズム

  • 2023年12月21日

    技術情報

    Geminiとはなにか?メリットとデメリット、Chat-GPTとの違い

  • 2023年5月23日

    技術情報

    チャットGPTとは?メリットとデメリット、産業応用の可能性について

  • 2022年12月17日

    価値創造

    技術情報

    2023年のトレンドを読み解く3つのキーワード

  • 2022年11月7日

    技術情報

    データサイエンティストの最初の疑問「P値に関する疑問のあれこれ」

  • 2021年8月2日

    技術情報

    ヘルスケア産業に使われるアルゴリズムのトレンドとは?

  • 2021年5月25日

    技術情報

    いまさら解説する「教師あり学習」と「教師なし学習」の違い―それぞれの特徴と使い分けの勘所-

  • 2021年3月8日

    技術情報

    Goole Vision APIの精度とは?実際の利用方法を解説

  • 2019年10月20日

    技術情報

    【ニュース解説】因果推論 – 2019年ノーベル経済学賞の何がすごいのか? –