開閉ボタン
ユーザーメニュー
ユーザーメニューコンテンツ
ログイン

  • 会員限定
  • 2020/06/19

医療AI開発の「3つのボトルネック」、なぜニーズはあるのに開発が進まないのか

三津村直貴の“今さら聞けない”テクノロジー講座

ディープラーニングを始めとする人工知能(AI)技術の進化に伴い、医療分野でもAI開発が始まりました。医師が見抜けなかった疾患をIBMのWatsonが見つけたり、早期発見が重要となる眼疾患の発見にグーグルのAIが貢献したり、成果も上がるようになっています。日本でも内視鏡画像の診断AI開発が進んでおり、医療AI開発は世界的なトレンドになっています。こうした医療AIは人手不足が深刻化する日本医療を救う切り札となることを期待されていますが、実は日本の医療用AI開発には大きなボトルネックが存在しています。

フリーライター 三津村直貴

フリーライター 三津村直貴

合同会社Noteip代表。ライター。米国の大学でコンピューターサイエンスを専攻し、卒業後は国内の一部上場企業でIT関連製品の企画・マーケティングなどに従事。退職後はライターとして書籍や記事の執筆、WEBコンテンツの制作に関わっている。人工知能の他に科学・IT・軍事・医療関連のトピックを扱っており、研究機関・大学における研究支援活動も行っている。著書『近未来のコア・テクノロジー(翔泳社)』『図解これだけは知っておきたいAIビジネス入門(成美堂)』、執筆協力『マンガでわかる人工知能(池田書店)』など。

photo
医療AI開発には、いくつかの壁がある
(Photo/Getty Images)


ボトルネック(1)多忙な医師、ラベル付けを行う人員不足

 医療用AI開発のボトルネックの1つ目は、学習データを作る人材が足りていないことです。より厳密に言えば、医療用データのラベル付けを行う人材が足りないのです。ここで言う「データのラベル付け」というのは、AIに学習させるためのデータに「正解情報」を付与する作業(アノテーション)のことです。

 たとえばレントゲン画像を見て画像診断をするAIを作る場合、画像と合わせてレントゲン画像が何の画像であるのかを添えなければ、AIは効率的に学習を進めることができません。誰かしらが画像を見て「この画像は肺炎、この画像は心疾患、この画像は骨折……」のように分類しなければならないということです。問題は、誰がどうやってその情報を添えるのかということです。

 犬種診断AIを作るのであれば、ラベル付けは誰でも良いでしょう。犬種ごとのサンプル画像を見せて、ネットで集めてきたデータを分類してもらえれば良いだけです。

 ところが医療画像となるとそうも行きません。レントゲン写真のサンプル画像を見せられて「似ているものを分類してください」と言われても素人には難しいですし、人の命に関わる分類作業なので適当にラベルを付けられても困ります。この学習データを使ってAIが学び、そのデータでAIの精度が決まるのです。高い精度の学習データが必要となります。となれば、その道のプロである医師にやってもらうほかありません。

 さらに、医師の世界には医用画像診断のプロである「放射線診断専門医」が存在します。この資格を得るためには、医師免許を取得した後に5年間の臨床研修を行い、さらに2年間の部門研修の後に試験をパスしなければなりません。しかも試験を受けるためには一定期間の間に数千件の症例に携わった実績などがなければなりません。医師の中でもエリート中のエリートです。そんなエリート医師に「数万件の医用画像を淡々と分類してください」と頼んで了解をもらうには一体どれだけの報酬を積めば良いのでしょうか?

 また、ただでさえ飽和寸前の画像診断業務を抱える病院からそんな医師を引き抜いてくるのは至難の技です。仮に「スキマ時間にやってください」と頼むにしても、1人や2人では必要なラベル付けが終わるまでに長い時間がかかります。その場合、大勢の医師に依頼をして、少しずつ進めてもらう必要があるでしょう。そうなると別の問題も出てきます。

 医用画像の診断は犬猫の識別と違ってハッキリ分かるものばかりではありません。同じ疾患でも進行状況によって見え方が変わりますし、複数の症状が現れているものや特殊な現れ方のもの、治りかけのものまで含めれば、ラベルの付け方は無数に存在するのです。曖昧なまま学習データを作ると、医療用AIの精度が下がります。基準を統一するために、協力してくれる医師1人ひとりと相談して「この場合はこうしてください」と説明しなければなりません。ちなみに、電子カルテの情報を利用する場合にも基準の統一作業が必要になります。

 関わる医師が増えれば増えるほど、そういったコミュニケーションにかかる手間も増え、コストがかかるようになるのです。こうした学習用データの調整作業は画像診断AI以外にも必要で、一定レベルの医療情報を扱う医療用AIであればどこかで医師の協力が必要となり、作業に対する理解と円滑なコミュニケーションが必要となります。


ボトルネック(2)不足する研究予算

 すでに述べた通り、医療用AIの学習データを作るためには慣れない単純作業を長時間医師にやってもらう必要があります。当然それに見合った報酬が必要になります。読影診断の業務ベースで考えると、時給ベースで1万程度、枚数ベースなら1枚1000円前後かかることも少なくありません。

 もちろん、実際に患者が存在する診断業務ではありませんので、気楽にできることも踏まえてこれより報酬は抑えられるはずですし、ある程度まとまった件数を依頼することでさらに予算が抑えられるでしょう。それでも、AIの学習に数万枚の画像データが必要になることを考えると、画像にラベルをつける作業だけで軽く数百万から数千万はかかる計算になってしまいます。

 しかも、ラベルをつける前に画像データそのものを集めなければなりませんし、アルゴリズムの構築や開発環境の構築、学習と評価、試験運用のプロセスにかかるコストを踏まえれば、億を超えてしまうでしょう。さらに、疾患ごとにラベル付けの作業は必要になるので、AIが診断できる疾患を増やそうとするごとにそのコストがかかるわけです。それだけの研究予算を出してくれる組織はそうそうありません。

 また、研究プロジェクト自体も無数にあるので国もどこに予算を出せば良いのか分からず、十分な予算が出ているプロジェクトもあれば出ていないプロジェクトもあります。使える予算で十分な学習データを用意できるかが決まるため、プロジェクトの明暗がその時点でスパッときれいに分かれてしまうのです。

ボトルネック(3)個人情報保護の壁

 一方で、学習データ自体はある程度の使いまわしができます。そのため、学習データを使ったビジネスを展開する企業も現れるようになり、需要の大きな学習データに関しては安価に手に入るようにもなりました。しかし、医療用の学習データは前述のようにコストがかかる上に症状や病院ごとにデータが分散する上に、個人情報の壁が厚く、どの組織でも簡単に扱えるようなものではありません。

 特に、個人の医療データは個人情報保護法の中でも特別に慎重な扱いが必要な要配慮個人情報として規定されており、個人の同意がなければ利用できません。データを匿名化することで利用できるようになるものの、医療データを扱う病院で法律に準拠した形で匿名化処理を施して研究者に渡すというのは手間とリスクを伴い、その壁を越えて研究者に協力してくれる病院は限られます。これは電子カルテに記載された診断情報と医用画像のラベルをそのまま結び付けられない理由の1つとなっています。

【次ページ】状況を打開する「医療用データベースプラットフォーム構想」

お勧め記事

AI・人工知能・機械学習 ジャンルのセミナー

AI・人工知能・機械学習 ジャンルのトピックス

AI・人工知能・機械学習 ジャンルのIT導入支援情報

PR

ビジネス+IT 会員登録で、会員限定コンテンツやメルマガを購読可能、スペシャルセミナーにもご招待!