- 会員限定
- 2023/02/10 掲載
近々リリースするGPT4とは? ChatGPT(GPT3.5)よりどこが「パワフルなAI」なのか
GPT4、数カ月内にリリースとの臆測
市場分析、コーディング、記事まとめなどさまざまなタスクをこなせるChatGPT。現在このChatGPTを開発したOpenAIがよりパワフルなAIを近々リリースするのではないかとの臆測が流れ、海外メディア/ソーシャルメディアでは注目の話題となっている。ChatGPTのベースとなっているのは、OpenAIが開発しているGenerative Pre-trained Transformer(GPT)と呼ばれるもので、インターネットで入手可能なデータでトレーニングされたテキスト生成ディープラーニングモデルだ。
開発の歴史をさかのぼると、まずGPT1が発表されたのは2018年。「Improving Language Understanding by Generative Pre-Training」と題された論文で、その詳細が明らかにされた。
GPT1は、ラベル付けされていないデータでトレーニングされた生成言語モデル。分類や感情分析など特定のダウンストリームタスクで調整されたモデルとなる。データセットは、7000冊の未発表書籍によって構成されるBooksCorpusが用いられた。パラメータ数は1億1700万にのぼるという。
GPT1が登場するまで、自然言語処理(NLP)モデルは、教師あり学習により、分類や翻訳など特定のタスク用にトレーニングされていたものがほとんどだった。しかし、教師あり学習では2つの大きな課題が指摘されていた。1つは、教師あり学習がラベル付けされた膨大なデータを必要とする点だ。
現実には、ラベル付けされたデータセットは入手が難しく、モデルの精度向上に限界が見えていた。もう1つは、教師あり学習でトレーニングされた特定のタスクしか実行できないという汎用性の問題が横たわっていた。
GTP1は、こうした課題を念頭に、ラベル付けされていないデータを用い、教師なし学習と教師あり微調整モデルによる学習を通じて、幅広いタスクに対応することを目的に開発された。
結果、モデルが比較された12のタスクのうち9つで、特定タスク向けにトレーニングされた当時最先端の教師ありモデルよりも高いパフォーマンスを示した。
GPT2とは? 膨大なデータセットを活用
2019年の論文で公開されたGPT2は、GPT1よりも大きなデータセットを用い、パラメータも1億1700万の10倍以上となる15億に増えた。GPT1開発のときはBooksCorpusというデータセットが用いられたが、GPT2ではインターネット掲示板Redditからスクレイピングされた40GB分のテキストデータが使用された。
GPT1と同様にGPT2も、ほとんどのタスクで当時存在した先端の教師ありモデルを超えるパフォーマンスを示したが、課題も残された。
高いパフォーマンスを示したタスクの1つが読解だ。ゼロショット設定(AIが特定情報に初めて触れる設定)で、4つのベースモデルのうち3つを上回った。
またフランス語から英語への翻訳タスクでも、ゼロショット設定で当時存在したほとんどの教師なしモデルよりも高いパフォーマンスを示した。ただし、当時最先端とされた教師なしモデルのパフォーマンスを超えることはできなかった。
GPT2の開発では、データセットとパラメータを増やすことがモデルのパフォーマンス向上に寄与することが確認され、GPT3の開発にも影響を及ぼすことになる。
【次ページ】GPT3とChatGPTの違い
関連コンテンツ
関連コンテンツ
PR
PR
PR