2026/03/06 掲載

みずほFGの金融特化型LLM、銀行実務テストで正答率89.0％を記録

機密データを扱う金融業務において高い精度と処理速度を両立

ありがとうございます！
いいね！した記事一覧をみる

会員（無料）になると、いいね！でマイページに保存できます。

金融AI

|

タグをもっとみる

みずほフィナンシャルグループは独自に開発した金融に特化した大規模言語モデルが銀行の実務テストにおいて正答率89.0パーセントを記録したと発表した。推論プロセスを用いない条件下で平均回答時間を1秒未満に抑えつつ汎用モデルと同等の精度を実現した。機密データを扱う金融業務において高い精度と処理速度を両立させ専門業務への活用範囲を広げる狙いがある。

（画像：ビジネス+IT）

　近年金融業界では生成AIの導入が進む一方で複雑な金融商品や社内規定を照会する際の回答時間の遅延や計算コストの増加が課題となっている。法規制や企業の方針を踏まえた回答が求められる領域では、汎用モデルによる解釈の揺れが生じやすく期待される品質を安定して得ることが難しい側面もあった。

【画像付き記事全文はこちら】みずほフィナンシャルグループが挑む金融特化型LLM

みずほフィナンシャルグループが挑む金融特化型LLM

（図版：ビジネス+IT）

　こうした背景からみずほフィナンシャルグループでは複雑な推論ステップを経ずに、金融特有の実務知識やコンプライアンス上の留意点を反映できる独自モデルの構築を進めてきた。開発にあたっては一般に公開されている基盤モデルをベースに社内のマニュアルや研修資料そして過去の稟議データなどを集中的に学習させている。

　モデルの回答生成の正誤を分析して得意な領域と不得意な領域を特定したうえで正答を導き出すために必要な金融知識や社内ルールの根拠となる情報を教師データとして付与、回答と根拠の対応関係が学習されるようデータを最適化することで推論プロセスに依存しない高精度な回答を可能にした。

　銀行の実務テストは預金や融資および外国為替などの分野を対象とした多肢選択式で実施された。推論を用いない条件での正答率は89.0パーセントとなり平均回答時間は1秒未満であった。汎用的な言語モデルであるGPT-5.2の推論機能を有効にした設定では正答率89.7パーセントに対して平均回答時間が67.4秒かかっていたため、十分な精度を維持したまま応答時間を大幅に短縮したことになる。

銀行の実務テストで、推論なし条件で正答率89.0%を達成

（図表：みずほフィナンシャルグループプレスリリース）

　外部へデータを送信することなく銀行内のオンプレミス環境ですべての処理を完結できる仕組みを採用、外部のシステムに依存せずに運用できるため機密性の高いデータに対しても汎用モデルと同水準の高度な処理を安全に適用できるとしている。

　同グループは業務特性に応じたAI基盤を段階的に整備する戦略を掲げている。今回の成果を第一段階と位置付け一般的な照会応答や資料作成の支援から運用を始める。次の段階では融資や法務などの各部署に特化した専門データを学習させベテラン担当者と同等の知見を活かした与信判断の支援や稟議書の素案作成といった高度な実務サポートへと適用範囲を広げる計画である。

　最終的には複数の特定領域特化モデルを連携させる協調型エキスパートモデルを構築し部門横断的な判断を支援する体制の確立を目指している。