面白いSiri AI話ではあるんだけど、正直、結局そこまでか、と思ってしまった話題。
WWDC 2026のキーノートが終わった直後、Appleは報道陣を集めた非公開のテックトークを開催。
登壇したのはCraig Federighi、Siriリードのヴァイス・プレジデントであるMike Rockwell、AIのヴァイス・プレジデントであるAmar Subramanya。テーマは一つ——なぜSiri AIはこれほど時間がかかったのか。

何しろ、2024年のWWDCでApple Intelligenceを発表してから丸2年。2024年のApple Intelligence発表時点でも遅れていたけど、今年に至るまでにもChatGPTは何世代も進化し、Geminiは日常に浸透し、Claudeは毎月のように機能を向上させていく中、一体、いつ使えるようになるんだ?と思っていた方も少なくないはず。AI対応だからという理由で先行購入したiPhoneユーザーもいたはず。
そんな中、Appleが自ら「遅れた理由」を説明するという珍しいテーマでした。
Siriは、一度は完成していた
Rockwell曰く、Appleは2025年の時点で、Siri AIの「第一版」をすでに完成させていたとのこと。
ただ、そのバージョンは、既存のSiriに「tool calling(ツール呼び出し)」という機能を追加したものでした。
tool callingとは、AIアシスタントが外部のアプリや機能を呼び出して答えを取得する仕組みで、たとえば「明日の天気は?」という質問に対して、AIが推測で答えるのではなく、天気アプリのデータを参照して返す——そういう「橋渡し」の機能を提供します。
ChatGPTのプラグイン機能に近い概念で、AIアシスタントを実用的にする上で重要なピースの一つとされています。
tool callingという形であれ、Siriは動いていて機能もしていた。しかしチームはそれをリリースしなかったのは何故か。
「ビジョンを実現していない」という判断
Rockwellはこう語っています。
昨年、私たちは既存のSiriにtool callingを追加した最初のバージョンを実際に構築していました。それは動いていた。でも、私たちが目指すビジョンと体験を本当に実現できているとは感じられなかった。
では、そのビジョンとは何か。Rockwellは3つのポイントを挙げています。
Appleが目指したSiri AIのビジョン — ソース:9to5Mac via Mike Rockwell
- 全デバイス統一:iPhone・iPad・Mac・Apple Watch・Vision Pro・CarPlay・AirPodsで同一のSiri体験
- ネイティブマルチモーダル:テキスト・画像・音声を横断して理解できる設計を最初から組み込む
- プライバシーを設計の根幹に:後付けではなく、アーキテクチャレベルでプライバシーを担保する
既存のSiriは、各デバイスで処理パイプラインとUIが別々に実装されていて、そこにAIを継ぎ足す形では「iPhoneでは動くがMacでは挙動が違う」という体験になり、このため、RockwellはSiriをゼロから作り直すことを選んだと話しています。そして、これが2年かかった理由です。
GoogleとAppleの「本当の関係」
なお、新しいSiri AI、Apple IntelligenceはGeminiベースでの開発、と捉えられていましたが、今回のトークイベントでは独自技術であり、Geminiもインフラも使っていないと説明しています。
私たちはGeminiアプリを使っていない。iOS上で動作するクライアントコードも使っていない。Googleが顧客向けに提供しているモデルも、そのインフラも使っていない。知識ベースとしてGoogle Searchも使っていない。私たちが使っているGoogle Assistantの量はゼロです。
では、Googleとの協業はどういうものなのか?何を使っているのか?
Appleによれば、Googleとの共同開発という形で「Apple Foundation Models(AFM)」と呼ばれる独自モデルファミリーを構築した。このうち最上位の「AFM Cloud Pro」だけが、GoogleクラウドのNPU上で動作する。ただしApple独自の「Private Cloud Compute」アーキテクチャを拡張した形で運用されており、AppleもGoogleもデータの中身を参照できない設計になっている。
つまり、モデルの設計と学習はAppleが行い、最も重い処理だけGoogleのサーバーを間借りして走らせている。「Googleのモデル」ではなく「Googleのインフラで動くAppleのモデル」という位置づけを明確にしています。
Apple Foundation Models(AFM)構成 — ソース:9to5Mac
- AFM Core:端末上で動作する基本モデル(3Bパラメータ)
- AFM Core Advanced:端末上の上位モデル(20Bパラメータ・スパース設計)。マルチモーダル対応
- AFM Cloud:端末で処理しきれない重い要求を担うクラウドモデル
- AFM Cloud Image:高精度な画像生成・編集に特化
- AFM Cloud Pro:エージェント的タスク・複雑な推論を担う最上位モデル。GoogleクラウドのNPU上で動作
💬 軽めインプレ所感
Siri AIがどのような経緯で開発されたのか?とても興味あるテーマだったのですが、このコメントの抜粋を読む限り、少し言い訳が多くないか?とも思ったりしました。
完成品があったけど出さなかった。その理由はビジョンのため。ビジョンとは全デバイス統一とプライバシー。
まあ、そうでしょう。言っていることは理解できる。でも、これは「世界を変える」ビジョンではなく、「追いつくための設計方針」ではないでしょうか。キャッチアップ以上のAI戦略のビジョンはどんなものなんでしょうね。さて。
Federighiの「Googleは使っていない」という発言も技術的には正確な説明だとしても、Googleのインフラを借りて動かしながら強く否定するのは、何か不自然なものも感じます。
Jobsの頃のAppleがスペシャルだったのは、技術の組み合わせ方ではなく、「人々の行動を変えるビジョン」があったことなんですよね。Siri AI開発経緯で出てきたワードには、その種のビジョンは存在しないようにも感じるし、「ChatGPTに追いつく」「プライバシーで差別化する」というのは追いかける人たちのワードじゃないでしょうか。
AppleがAI時代に何者になろうとしているのか。満を持してWWDC26後のインタビューを読み込んでも、あまり見えないのが答えということなのかもしれません。んー。






