「GRPO」はLLMに思考力を与える次世代の強化学習の手法です。
DeepSeekに採用され、LLMトレーニングの計算コストを大幅に削減する革新的なアプローチとして、注目を集めています。
本ウェビナーでは、強化学習「GRPO」のデモを交えて、GPUクラウドの使い方を解説します。
【ウェビナーのポイント】
・DeepSeek-R1に採用された強化学習「GRPO」の仕組みをゼロから解説
・GRPOの強化学習によって、LLMに思考プロセス(Chain of Thought)を学習させるデモ
【ウェビナーの内容】
・LLMに思考力を与える強化学習「GRPO」の解説・デモ
・オンプレよりも安価なGPUクラウド「AIスパコンクラウド」の紹介
【こんな課題を抱える方におすすめ】
・LLMのモデル学習に興味がある方
・ローカルLLMの精度に課題を感じている方
・生成AIのコストやGPUのリソースに課題を感じている方
【特典】希望者にはデモで使用したソースコードをプレゼント!