Googleが最新のAndroid Benchランキングを公開し、新型のGemini 3.5 FlashがAndroidアプリ開発タスクで6位にとどまったことが明らかになりました。スコアは63.7で、OpenAIのGPT 5.5や自社の旧モデルGemini 3.1 Pro Previewに届かず、1回あたりのコストは$147.1(約2万3千円)と全モデル中最高額です。「速くて安い」を売りにしてきたFlashブランドの位置づけを再評価する必要がある結果と報じられています。

ベンチマーク首位はGPT 5.5、Gemini 3.5 Flashは6位

Android Bench最新版の結果では、OpenAIのGPT 5.5が74点で首位に立ちました。2位タイにはGPT 5.4とGoogle自身の旧モデルGemini 3.1 Pro Preview(2026年2月にテスト)が72.4点で並び、4位にClaude Opus 4.7(68.7点)、5位にClaude Opus 4.6(66.6点)が続きます。

そして問題のGemini 3.5 Flashは63.7点で6位にとどまりました。Googleが2026年のI/Oで「複雑なワークフローを高速・低コストでさばける選択肢」として打ち出した新モデルが、自社の前世代Proにすら後れを取った形です。

モデルスコア平均トークン平均コスト
GPT 5.57464.7$134.2
GPT 5.472.464.2$91.7
Gemini 3.1 Pro Preview72.473.3$47.9
Claude Opus 4.768.790.0$124.3
Claude Opus 4.666.669.5$84.4
Gemini 3.5 Flash63.7355.9$147.1
GLM 5.159.780.2$46.7

「速くて安い」が「最も高い」に——平均355.9トークンの衝撃

注目すべきは、Gemini 3.5 Flashの平均トークン消費量です。1回のベンチマーク実行で平均355.9トークンを使い、これはトップのGPT 5.5の64.7トークンと比べれば約5.5倍に相当します。

Android Headlinesが伝えるところでは、9to5Googleが指摘するかたちでこのトークン浪費がコストに直撃し、1回あたり$147.1(約2万3千円)という、リスト中で最も高額な料金を生んでいます。Flashブランドの代名詞だった「スピード」と「低コスト」が、Android開発タスクに限れば真逆の評価になってしまった格好です。

参考までに、同じGoogleのGemini 3.1 Pro Previewは$47.9(約7,500円)で2位タイの性能を出しており、コスト効率の差は3倍以上に開いています。

「vibe coding」時代の逆風——前世代比9%の性能低下

開発者コミュニティでは、ソフトウェア実装の大部分をAIエージェントに委ねる「vibe coding」が急速に広がっています。Gemini 3.5 Flashは幅広いマルチタスクや汎用エージェントワークフローでは強みを発揮するとされますが、現状のAndroidアプリ開発に限れば弱点として浮上していると報じられています。

具体的には、旧モデルのGemini 3.1 Pro Previewと比べて9%の性能低下が確認されたとのこと。新しいモデルが必ずしも前世代を上回るとは限らない、という事実が数字で示された形です。

なお同記事では、今後のリファインメントや控えるGemini 3.5 Proの登場でスコアが改善する可能性にも触れられています。とはいえ現時点では、Android開発で効率を重視する開発者は旧バージョンのGemini 3.1 Pro Previewや競合モデルに留まる方が合理的という見方が示されています。

現時点でFlashを選ぶ積極的な理由はない

Android向けにAIコーディング支援を選ぶ立場であれば、現時点でGemini 3.5 Flashを採用する積極的な理由は乏しい状況です。スコア・トークン消費・コストの3軸すべてで上位モデルに劣後しており、特にコスト面ではGemini 3.1 Pro Previewと比べて3倍以上の差がついています。

Google自身が運用するAndroid Benchの公表値である点も重く、Gemini 3.5 ProやFlashのチューニング版が出てくるまでは、Gemini 3.1 Pro Previewや競合モデルを使い続けるのが妥当と判断するのが合理的でしょう。今後は、Android Benchで公表されるスコア(特に63.7からの上振れ)、平均トークン量(355.9)、1回あたりコスト($147.1)の3指標が改善するかが注視ポイントになります。

Gemini 3.5 Flashの公式スペックとAPI価格

Gemini 3.5 Flashは2026年5月19日のGoogle I/O 2026で発表された最新のFlash系モデルで、APIの公式価格は以下のとおり公開されています。

項目価格
入力トークン$1.50 / 100万トークン
出力トークン$9.00 / 100万トークン
キャッシュ入力$0.15 / 100万トークン

入力コンテキストは1,048,576トークン、出力は65,536トークンに対応し、出力トークン処理は従来比4倍高速とされています。Google公式ドキュメントでは、Terminal-Bench 2.1で76.2%、GDPval-AAで1656 Elo、MCP Atlasで83.6%を記録し、これら自社指標ではGemini 3.1 Proを上回ったと説明されています。Android開発タスクでは厳しい評価となった一方、長尺の自律エージェントワークフロー全般では強みを発揮するモデルとして位置づけられています。

Android Bench自体の仕組みとタスク構成

ランキングの基盤となっているAndroid Benchは、2026年3月にGoogleが公開したAndroid開発専用のLLM評価フレームワークです。データセット・手法・テストハーネスはGitHubでオープンソース化されています。

評価の流れ

  • inference agentがIssueに対するパッチを生成
  • verifierが生成パッチを適用し、unit testまたはinstrumentation testで合否を検証

タスクセット

  • 人気Androidリポジトリでマージされたプルリクエストから抽出された実タスク100件
  • wearables向けネットワーキングなどドメイン特化シナリオ
  • Jetpack Composeの最新バージョンへの移行

inference agentがパッチを生成し、verifierが適用してテストで合否を判定する2段階方式は、実プロジェクトに由来するAndroid開発の現場感をそのままスコアに反映する構造です。Gemini 3.5 Flashが平均355.9トークンを要した一方で6位という結果になった背景には、こうした実タスク中心の評価設計があると整理されています。

Q&A

Q. Gemini 3.5 FlashはAndroid Benchで何位でしたか? 6位です。スコアは63.7で、首位のGPT 5.5(74点)や旧モデルGemini 3.1 Pro Preview(72.4点)を下回りました。

Q. なぜコストがそんなに高いのですか? 1回あたり平均355.9トークンを消費するためです。これによって1回あたり$147.1(約2万3千円)となり、評価対象のなかで最も高額なモデルになっています。

Q. それでもGemini 3.5 Flashを使うべきケースはありますか? Android Headlinesによると、Gemini 3.5 Flashは幅広いマルチタスクや汎用エージェントワークフローでは強みを発揮するとされており、Androidアプリ開発以外の用途では選択肢になり得ます。一方、Android開発に絞れば、スコア72.4・コスト$47.9(約7,500円)の旧モデルGemini 3.1 Pro Previewが性能とコストのバランスで優位とされています。

出典