WWDC 2018から読む2020年のApple(ITmedia NEWS)

今年のAppleは、はっきりいえば「アクセルゆっくり」なモードだったと言える。噂では、Appleはソフトウェアの品質向上に重点を置き始めており、その結果、特にiOSへの機能実装について、無理にスピードアップすることを止めたようだ。iOS12やmacOS Mojaveはそうした印象が強く、デベロッパーからも、「今回のOSは、まったく新しいAPIの追加が少ない」というコメントを得ている。要はそういうことなのだろう。

Environment Texturing

●アクセルはゆっくり、でも基盤は「しっかり」

 だが、筆者はこれを悪いとは思っていない。スマートフォンの機能は、これからAI的なものを増やす方向に伸びていくだろう。だとすると、小手先の機能を増やすより、基盤をしっかり整備する方が先だ。よほどの機能でないと、ユーザー側も喜ばなくなっているだろう。そのくらいスマホは成熟している。

 そういう意味で、次のジャンプはAI的な基盤整備が進んだ時、そしてハードウェア的に「今のスマホとは大きく違う流れ」を導入できるようになった時である。

 そういう目線で見ると、AppleがじっくりとAIとARを育てたいと思っており、しかもそれが本気である、ということがわかってくる。

 2019年末もしくは2020年(おそらくは後者だろう)には、スマホの次、もしくは補完プラットフォームとして「スマートグラス」的なものが出てくる可能性が高い。その時には、指の依存度を減らしたUIと、ARそのものの技術が必要になってくる。昨年あたりからその基盤整備の傾向は見えていたが、iOS 12で目指しているのは、まさにそういう世界であるように思える。

AppleのAI戦略に感じる不安

 本当にスマホでAIを活用するのであれば、人と「やりたいこと」の間のインタフェースになるのが必然だ。今の音声アシスタントは、特定の「やりたいこと」を声で実行するだけだが、本当に必要な世界は秘書やおかんの代わりのはず。そのためにはAIが「賢くなる」必要があるのだが、具体的に「賢い」とはどういう状態を指すのか。

 おそらく第1段階は、「その人が繰り返しやることを先読みする」ことだろう。生活の中にはルーチンワークが多い。そのルーチンワークは、スマホやPCの中では「特定のアプリ(サービスで)を立ち上げる」「特定の操作をする」ということだと規定できる。その自動化は、いわゆる「スクリプティング」なのだが、いかにスクリプトを書かずにそれをさせるかがAIの仕事になる。要は「ああ、この一連の操作は前にもやった」をピックアップし、適切な命令で操作させることが重要になるのだ。

 これをやるには、2つのアプローチがある。行動を記録し、解析した上で、位置や時間などを手がかりに繰り返しを見つける方法と、人間に指示させて、それを覚えさせる方法だ。Googleは前者を重視しており、Google Mapsや検索などのサービス面では「OSを問わない」展開をしている。一方、AppleはOS=デバイスの両方をやった。

 この展開にはもう少し解説が必要かと思う。

 Appleは「デバイスを売って儲ける会社」であると同時に、「Appleというブランド」を売る会社である。そのため、現在の判断として、プライベートなデータのAI処理(学習ではなく、判断)はハードウェア内で完結し、クラウドにアップロードしたデータも、基本的には中を覗かない。広告で儲ける必要がないので属性情報をまとめる必要がないからだ。そうやって、「我々は信頼できるハードウェアとそのプラットフォームを売っています」という形を採ることで、それをブランド価値に転換しているのだ。

 結果的に、属性に応じた行動マッチングは難しくなる。いや、いつかはできるだろうが、いまやるならクラウド側での情報収集と解析が必須。地図やSNS、検索などのウェブサービスを持つ企に有利であり、Appleには不利だ。だからそこでの精度を、Appleはまだそこまで信じていない。シンプルな時間+付加情報でのサジェスチョンに加え、アプリ側に「繰り返し処理のワークフロー化」を助ける機能を搭載する……正確には、アプリデベロッパーに搭載してもらえるように基盤を整えることで、対応しようとしている。

 スマホ内での操作をすべて記録し、解析できる技術があるなら、こんなことは不要だ。だが、人間の日常的な動きはノイズが多すぎて、低いコストでは解析が難しい。だから当面、AIが「空気を読む」のは難しく、「いままでの操作結果履歴」から繰り返しが必要な行動の傾向を掴む程度が現実的といえる。

 ただし欠点は、やはり「アプリ側の対応が必須」であることだ。アプリベンダー側として、AI処理を助けるための改修が「アプリ(サービス)を売るためにプラス」と判断されればいいが、その価値よりも改修コストの方が大きいと判断されれば、iOS 12で実装される「ショートカット」機能は、さほど有効に働かない可能性が高い。

 iPhone Xへの画面最適化どころか、16:9系の画面への最適化すらAppleから強いられないとやらないデベロッパーが多い状況で、果たして、AIを見据えたアプリ改修は進むのだろうか。少々悲観的に見ている。それが、巨大化した「スマホ」という市場の本質だ。自分で改変すれば終わりである分、強いウェブサービスを持つGoogleFacebookは強い。

●ARKit2の「環境マッピング」に隠された秘密

 ARについて、Appleは順当に外堀を埋めている。ARKit2でできることは素晴らしいが、別にARKit2でなくてもできる。アプリベンダーが独自実装する例もあるし、そもそもHoloLensを含めたMicrosoft系ではすでに搭載されている機能だ。

 だが重要なのは、「iOSデベロッパーが市場にある多数のiOSバイスをターゲットに、階段的にARアプリを学びながら開発していける」点にある。この先にはおそらく、「iOSでのさらなる進化」と「iOS向けアプリが使えるARデバイス」という、2つの階段があるのではないか。そう考えるとわかりやすい。

 機能としてもっとも重要なのは、World Mapの実装による空間のシェアなのだが、テクノロジー的な驚きでいえば「環境マッピングの搭載」が挙げられる。正確には、「環境マップのリアルタイム生成」が驚きだ。

 以下の画像は記事で何回か引用したので、見たことがある方もいるだろう。ARKit1では、机のテクスチャー感や、机の上に置かれた本物のバナナの色や像が器に写り込んでいないが、ARKit2ではそれが映り込んでいる。

・ARKit1での結果。CGの器が机の上に「乗っている」感じが強い。

・ARKit2での結果。環境マッピングによって、現実世界にさらに溶け込みやすく

なった。

 こうした環境マッピングを行うには、自分を中心に、周囲にどのような風景があるのかを記述した情報が必要になる。通常は「環境キューブマップ」と呼ばれる立方体の映像を作る。すべてのシーンがCGである場合、環境キューブマップは自動で生成できる。要は視点を反射する物体の中央として周囲全体をレンダリングした粗い画像があればいいからだ。だが現実世界の場合にはそうはいかない。だから実写合成をする場合には、環境マッピングが行われる物体から見た写真を多数使って環境キューブマップを生成するのが基本だ。

 ARKit2の環境マッピングのすごさは、「物体の周囲全体の映像をスキャンする必要がない」ことにある。環境マップが必要な物体の周囲をなめまわすように動けば、ARでもリアルタイムに環境キューブマップを作れる。だが考えてみて欲しい。そのためだけに「アプリを使い始める前には、周囲をくまなくスキャンしてください」と言えるだろうか?

 そこでアップルは、機械学習を使う。利用者から見た視点、という限られた情報から、環境キューブマップに必要な「周囲全体の映像」を作り出すのである。

 次の画像をご覧いただきたい。本来環境キューブマップは、中央の黒い立方体全体を埋め尽くす映像がいる。だが、カメラから得られているのは、キューブマップの中の「写真が貼られている部分」だけで、黒い部分の映像は得られていないのだ。しかし、機械学習を使って「得られていない部分はどのように補完するとそれっぽく見えるか」を判断して補っていくことで、まさに「それっぽい環境マッピング」を実現するのだ。

・ARKit2での環境キューブマップ生成。実は風景の一部しか取得できておらず、中央のキューブ内の黒い部分は情報がない。右の展開図を見るとよりわかりやすい。

 当然、補完された環境キューブマップはリアルなものではなく、画質が低い。テカテカの完全鏡面に貼ると、非常に強い違和感が出るだろう。だが、光沢のあるソファの皮や曇りのある銀食器、丸く反射するボトルなど、日常生活でよく見る多くの物体で「それっぽい環境マッピング」を実現するなら、これでも十分なのだ。だからAppleは、デモで「曇りのある銀食器」を使っている。

 ここからは予想、というか妄想に近い部分もあるが、これは「ARを備えたスマートグラス」を想定した機能だろう。シースルー型のスマートグラスでは、映像がどうしても完全な塗りつぶしにはならず、ちょっと透ける。だから、CGのレンダリングクオリティも完璧ではなくていい。しかし、完璧でなくても環境マッピングがあれば、色合いや物体の「なじみ」は劇的に上がる。むしろ、シースルーで完璧でない分、粗が目立たなくなり、見た目的なリアリティは上がるかもしれない。

 環境マッピング導入は、そういう部分まで考えて「質の向上に重要」と判断された結果ではないだろうか。

次世代ゲーム機は「ハード+ストリーミング」になる?!

 最後に少し、E3で感じた「予想」を述べておきたい。

 ゲームがハードでなくソフトで語るものだ……というのは昔からそうなのだが、今年はそれを特に感じた。プラットフォーム同士の競争よりも、「その上でゲームを遊ぶ人々のコミュニティをどう構築するか」という点の方に注目が集まっていたように思うからだ。

 そこで思ったのだが、次のゲームハードの時代には、ハード+「ストリーミング型」が基本になるのではないだろうか。ハードを買えば最高の体験ができるが、体験版的に楽しむ、年に1、2度決まったゲームをやる人には、ハードを買う必要がない、という世界になるような気がする。

 ストリーミング・ゲームには画質と遅延、そして通信費という問題がつきまとう。熱心なゲーマーには絶対に許せないものだが、そうでない人には「そこまで問題でもない」レベルになりつつある。特に5G以降はそうだ。

 料金モデルをうまく設定することで、ハードウェアをもたない人にもゲームを広げることができるし、「こんなに面白いものがもっと高品質に楽しめて、負けづらくなる」といった形でハードを押し出していくことも可能になる。高価なゲーミングPCはそうやって売れているが、それがゲーム機+ストリーミングでさらにカジュアルになる、という構図だ。ゲームプラットフォーマーの収益源が「サービス」軸になるとすれば、ハードウエアそのものにこだわる必然性は減る。

 その昔、久夛良木健氏は「ゲームはネットに溶ける」と言った。PS3はそれを目指したものだった。おそらくその姿は、PS5の世代で「一部」実現し、その先であたりまえになっていく。スマートフォンという媒体があることが、その基盤になるのだ。

 だから、次世代機のプラットフォームは「ハード+クラウド」が基本になる……と筆者は予想しておく。答え合わせは1年くらい先になるが、Appleのスマートグラス戦略と合わせ、頭の片隅にでも置いておいてほしい。

[西田宗千佳](メールマガジン『小寺・西田の「金曜ランチビュッフェ」』より)