• 2026/06/27 掲載

Google、Gemini 3.5 Flashに画面操作機能「Computer Use」を統合

Gemini APIなどを通じて自動化エージェントを構築

1
会員(無料)になると、いいね!でマイページに保存できます。
Googleは2026年6月24日、AIモデル「Gemini 3.5 Flash」に、画面を認識して自律的に操作を実行する機能「Computer Use」を統合したと発表した。これまで独立したプレビュー版として提供していた機能を主力軽量モデルに組み込み、開発者はGemini APIなどを通じてブラウザやデスクトップ環境における自動化エージェントを構築できるようになった。
photo
(画像:ビジネス+IT)
 AIエージェントが人間の物理的な入力プロセスを模倣し、画面情報を視覚的に認識しながらOSやアプリケーションを操作する「Computer Use」技術が、Geminiの標準機能として実装された。Google DeepMindの開発した「Gemini 3.5 Flash」は高効率な軽量モデルであり、本機能の統合により、AIが自ら画面の要素を解釈し、マウスクリックやキーボード入力といったアクションを生成して実行環境に引き渡す処理をシームレスに行う。

 従来、同機能は「Gemini 2.5 Computer Use preview」という専用のスタンドアロンモデルで検証が進められていた。別個のAPI上で動作する実験的システムであったため、開発者は複数のモデルを組み合わせる必要があり、システム構造の複雑化や遅延の増大を招いていた。今回のアップデートで、Gemini 3.5 Flashの標準APIにおける組み込みツールとして宣言可能になったことで、単一モデルによるマルチツールコンポジションが実現する。

画像
【図版付き記事はこちら】Google、Gemini 3.5 FlashにPC画面操作のComputer Use標準搭載(画像:ビジネス+IT)

 性能面では、コンピュータ操作のベンチマークである「OSWorld」において、Gemini 3.5 Flashは78.4のスコアを記録した。旧バージョンのGemini 3 Flashの65.1から向上しており、複雑なマルチステップの課題解決に対応する。

 企業の業務プロセス自動化に向けた安全対策も導入した。プロンプトインジェクション攻撃を防ぐための敵対的学習を適用しているほか、機密性の高い操作や不可逆的なアクションを実行する前にユーザーの確認を要求するエンタープライズ向けの保護機能を提供する。

 開発者や企業は、Gemini APIやGoogle Cloudの「Gemini Enterprise Agent Platform」を通じて同機能を利用し、ソフトウェアテストや定型業務の自動化など、多様な環境で機能するエージェントを構築する基盤を整えた。

Googleで見つけやすく

評価する

いいね!でぜひ著者を応援してください

  • 1

会員(無料)になると、いいね!でマイページに保存できます。

共有する

  • 0

  • 0

  • 0

  • 0

  • 0

関連タグ タグをフォローすると最新情報が表示されます

AI・生成AIの関連コンテンツ

あなたの投稿

    PR

    PR

    PR

処理に失敗しました

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

基本情報公開時のサンプル画像
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます

基本情報公開時のサンプル画像