• 2026/04/04 掲載

NIIが12兆トークン国産LLM、日本語性能でGPT4o越え

オープンモデルとして米OpenAIのgpt-oss-20bを上回る性能

1
会員(無料)になると、いいね!でマイページに保存できます。
国立情報学研究所(NII)は2026年4月3日、新たに開発した国産の大規模言語モデル2種をオープンソースライセンスで公開した。約12兆トークンのデータで学習し、米OpenAIの公開モデルを上回る日本語性能を達成している。研究開発プロジェクトの成果として、モデル本体と併せて学習に利用したデータセットも無償で提供される。
photo
(画像:ビジネス+IT)
 公開された大規模言語モデルは、約86億パラメータを持つ標準モデルと、複数の専門ネットワークを組み合わせて効率を高める仕組みを採用した約320億パラメータのモデルの2種類である。いずれも約12兆トークンの日本語および英語を中心とする良質なテキストデータを用いて学習されている。学習に用いられたデータ量は、同研究所が過去に公開したモデルの約6倍に達する。膨大なテキストを処理させることで、言語の文脈や専門的な知識をより深く理解する基盤を構築した。

 性能評価には既存の言語資源に基づき42種類のタスクを横断的に測定する独自の仕組みが用いられた。評価の結果、公開された両モデルは日本語の理解や生成能力において、米OpenAIが提供するオープンモデル「gpt-oss-20b」や中国のAlibabaのAIモデル「Qwen3-8B」など海外の有力な多言語対応モデルの性能と同等またはそれらを上回る水準を記録した。英語の理解性能を測る国際的な指標でも高い数値を達成しており、言語を問わず高精度な処理が可能である事実を示している。

画像
【図版付き記事はこちら】NIが世界トップクラスの日本語性能を持つ国産LLM「LLM-jp-4」公開I(図版:ビジネス+IT)

 今回の開発は、国立情報学研究所の大規模言語モデル研究開発センターを中心に大学や企業の研究者らが組織横断で参加するプロジェクトによる成果である。同プロジェクトは生成AIの基盤となるモデルの透明性や信頼性を確保することを目的に、開発プロセスや学習データを広く共有する方針を採っている。今回も第三者が入手可能なデータの収集と選別を行い、オープンソースAIの定義に配慮する形で構築されたデータセットをモデルと同時に公開した。モデルが何を学習して出力結果を導き出しているのかという過程を検証できる環境を整え、研究者や企業の独自のAI開発を後押しする。

 同研究所は今後、開発したモデルを活用して生成AIの挙動原理の解明やデータバイアスの抑制に向けた研究を進める。さらに2026年度中にはよりパラメータ数の多い大規模モデルや、実際の業務システムに組み込んで運用しやすい軽量モデルを順次開発して公開する計画を明らかにしている。開発の拠点となるセンターではスーパーコンピューターなどの大規模な計算資源を確保しながら、国内における研究開発の拠点機能を持たせる。特定の海外企業への依存を減らし、国産の大規模言語モデルの技術力を高めることで、日本の産業競争力の強化や社会課題の解決を目指す。

評価する

いいね!でぜひ著者を応援してください

  • 1

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 0

  • 0

  • 0

  • 1

  • 0

関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像