AI / Gemini

Googleが最速・最安のAIモデル「Gemini 3.1 Flash-Lite」をプレビュー公開

2026年3月3日、Google DeepMindはGemini 3シリーズの中で最もコスト効率と処理速度に優れた軽量モデル「Gemini 3.1 Flash-Lite」をプレビュー公開した。

大量のAPIリクエストやリアルタイム処理が求められるアプリケーション向けに設計されており、旧世代のモデルから大幅な速度向上とコスト削減を実現している。

圧倒的なコストパフォーマンスと基本仕様

本モデルは、開発者向けのGoogle AI Studioおよびエンタープライズ向けのVertex AIを通じて提供される。

  • 利用料金: 100万入力トークンあたり0.25ドル、100万出力トークンあたり1.50ドル。より上位のモデルと比較して圧倒的な低コストで運用可能。
  • コンテキストウィンドウ: 最大1,048,576(約100万)の入力トークンに対応し、長文テキスト、画像、音声、動画、PDFファイルの読み込みをサポートする。
  • 最大出力: 一度のリクエストで最大65,536トークンのテキストを出力可能。

処理速度の向上とベンチマーク性能

Gemini 3.1 Flash-Liteは、軽量モデルでありながら高い推論能力とマルチモーダル性能を維持している。

  • レスポンスの高速化: 従来のGemini 2.5 Flashと比較して、最初のトークンが出力されるまでの時間(TTFT)が2.5倍高速化され、出力全体の速度も45%向上している。
  • ベンチマーク結果: 専門的な推論能力を測るGPQA Diamondで86.9%、画像解析等を含むMMMU Proで76.8%を記録し、前世代の大型モデル(Gemini 2.5 Flash等)を上回るスコアを達成している。

タスクに応じて思考を制御する「Thinking levels」

本モデルには、AIの推論の深さを開発者が任意に制御できる機能が標準搭載されている。

  • 推論レベルの4段階調整: タスクに応じて「minimal」「low」「medium」「high」の4段階から思考レベルを選択できる。
  • リソースの最適化: リアルタイム性が求められる単純なタスクでは思考レベルを下げてレイテンシを最小化し、複雑な条件分岐やUI生成を伴うタスクでは思考レベルを上げて精度を高めるといったコントロールが可能である。

想定される主なユースケース

低遅延と低コストという特性から、以下のような高頻度かつ大規模な処理に最適化されている。

  • リアルタイム翻訳とテキスト分類: 膨大なチャットログ、カスタマーサポートのチケット、ユーザーレビューなどを瞬時に翻訳・分類する処理。
  • 構造化データの抽出: 領収書や仕様書などのドキュメントから特定のエンティティを抽出し、JSON形式で安定して出力するパイプライン構築。
  • モデルのルーティング: アプリケーションのフロントエンドでユーザーの入力を最初に受け取り、単純な質問にはそのまま即答し、高度な推論が必要なタスクのみを上位のProモデルへルーティングする「仕分け役(オーケストレーター)」としての活用。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です