医療AIは診断で医療者を超えたのか 50研究をまとめた最新レビュー

論文

2026年に公開された研究(R)では、大規模言語モデルは最初の1つの診断候補を当てる力では医療者に及ばなかった一方、候補を広く挙げる場面では差が小さくなり、AIを使った医療者の診断精度は医療者単独より上がる傾向が示されました。

研究の方法

これは、関連研究を一定の手順で集めて結果をまとめる系統的レビューとメタ分析で、2020年から2025年までの研究を対象に、大規模言語モデル、医療者、そしてAI支援ありの医療者で、診断やトリアージの正確さを比べています。今回の研究では、七つのデータベースから文献を探し、最終的に50研究を組み入れました。

対象になったのは、眼科、放射線科、救急、神経、消化器など幅広い分野の研究です。評価された大規模言語モデルは25種類で、GPT系、Claude系、Gemini系、DeepSeek系、医療向けモデルなどが含まれていました。

このレビューには、現実の診療記録を後から集めた研究だけでなく、人工的に作った症例文や症例報告を使った研究も多く含まれていました。また、選択肢から答えを選ぶ問題形式は除外し、自由に診断候補を出させる研究に絞っていた点も特徴です。

主な結果

まず、最初の1つの診断候補を当てる精度では、全体として医療者の方が上でした。上位3候補まで広げても、まだ医療者優位の傾向が残っていました。

一方で、上位5候補、上位10候補まで広げると差はかなり小さくなり、はっきりした差は確認されませんでした。つまり、AIは「最もありそうな1つを当てる力」ではまだ弱いものの、診断候補を広く挙げる補助役としては近づいている、という結果です。実際、論文の要約では、医療者に対するAIの相対的な診断精度は、最初の1候補で0.89、上位3候補で0.91、上位5候補で1.04、上位10候補で1.17と報告されています。

トリアージ、つまり緊急かどうかを見分けて受診先や優先度を振り分ける力では、AIと医療者の成績はおおむね同程度でした。要約では相対値1.01とされ、大きな差は確認されていません。

もう一つ重要なのは、AIを使った医療者の成績です。AI支援ありの医療者は、医療者単独より診断精度が高い傾向を示しました。最初の1候補でも改善がみられ、上位5候補では改善幅がより大きくなっていました。要約では、AI支援ありの医療者は医療者単独に比べて、最初の1候補で1.13倍、上位3候補で1.11倍、上位5候補で1.42倍の相対的な精度と報告されています。

ただし、どのAIでも同じではありませんでした。モデルごとの差はかなり大きく、あるモデルでは医療者を大きく下回り、別のモデルでは一部の研究で医療者を上回る結果も出ていました。つまり、「AIは医療者より上か下か」を一括りで語るのは難しく、モデル、症例、分野によってかなり結果が揺れることも示されています。

まとめ

このレビューから見えてくるのは、大規模言語モデルは単独で医療者を置き換える段階にはまだ達していない一方で、診断候補を広く出す場面や、医療者の補助として使う場面では役立つ可能性がある、ということです。特に、AI支援ありの医療者で精度が上がる傾向が出ていた点は、今後の使い方を考えるうえで重要です。

ただし、この結論は慎重に読む必要があります。組み入れられた研究の多くは、実際の診療現場そのものではなく、人工的な症例文、症例報告、後ろ向きのデータに依存していました。前向きに実臨床で調べた研究は少なく、研究の質やバイアスの問題、研究どうしのばらつきも大きいと著者らは述べています。

そのため、現時点で言いやすいのは「AI単独の診断はまだ不安定だが、医療者の思考を広げる補助としては期待される」というところまでです。

コメント

タイトルとURLをコピーしました