インタラクションデザイナーである私が
音声が将来のインタラクションモデルになると考える3つの理由

機械とコミュニケーションする手段といえば、かつてはマウスをクリックすることでした。しかし現在では、コンピューターに話しかければ音声で答えてくれる─そんな時代になっています。

インタラクションデザイナーとしての私の仕事は、人間がコンピューターとコミュニケーションできるようにすることです。仕事を始めた頃は、コンピューターとのコミュニケーションは、大部分がマウスをクリックすることで行われていました。グラフィックユーザーインターフェース(GUI)を使い、どこをクリックして、どこにキーボード入力すればいいか、ユーザーを誘導するのが私の役目でした。今はタッチインターフェースも手掛け、タップやスワイプで、小さなモバイルコンピューター(いわゆるスマートフォン)とユーザーがいつでもどこでもやりとりできるようにしています。

将来は、音声ユーザーインターフェース(VUI、音声UI)がインタラクション革命の原動力になりそうです。今までは、ユーザーがGUIの使い方を覚えなくてはなりませんでした。しかし、音声技術を使えば、コンピューターに私たちの言葉を「話して」もらえるようになるのです。

Frogでも音声UIの依頼が増えています。そこで、私はもっと幅広い産業界の視点も知りたいと考え、昨秋ミュンヘンで開催されたAll About Voiceの第2回年次会議に参加しました。音声アプリケーションを開発する169 Labsの主催で、スマートスピーカーの現状から音声アシスタントのパーソナリティー設計まで、テーマは多岐にわたります。この種の会議(最近はバーチャル参加ですが)では、大抵いくつか疑問が提示されます。このときは、「そもそも音声は重要なテーマなのか?」「音声UIは一過性の流行?それとも人と世界のコミュニケーションを根本的に変えるもの?」でした。

結論はといえば『今や音声UIへのパラダイムシフトが目の前に迫り、もう後戻りはできない』ということでした。

世代の要請

今の子どもたちは、スマートフォンや照明、家電までも、話しかけることで操作できる世界に生きています。タッチスクリーンの登場で、コンピューターは以前より直感的に使えるものになりましたが、音声UIの進歩で、そのタッチスクリーンの使い方を覚える必要さえなくなるかもしれない、と私は考えています。会話ができる人なら誰でも、「音声ファースト」の自然なやりとりができるようになるでしょう。ミレニアル世代の最年長層に属する私などは、Amazonの音声アシスタントAlexa搭載の電子レンジに何となく違和感を覚えますが、私たちの子どもの世代は疑問にも思わないのでは、と想像します。

上述の会議では多くの講演者が、基盤となる音声技術はまだ「産みの苦しみ」の段階だと認めていましたが、その成長スピードには目を見張るものがあります。スマートヘッドホンは、世界中の家庭や車の中に急速に広がりつつあります。

Amazon Alexa開発チームのアンドレア・ムットーニは、2019年9月下旬に発売したスマートスピーカー対応デバイスの話の中で、こうした現状にたびたび言及しました。メガネから電子レンジまで、生活で考えられるあらゆる機器にAlexaを搭載するのがAmazonの構想だと、ムットーニは公言してはばかりません。「あらゆる場所にAlexaを」が目標だと言います。

音声技術の勢いを感じる、もう一つの例はGoogleから発売された「いつでも聴ける」ワイヤレスイヤホンPixel Buds 2です。さらに、Googleの最新スマートフォンPixel 4には、端末を持ち上げるとすぐにGoogleアシスタントが起動する「Raise to talk」が搭載されています。つまり、Googleはやがて音声が端末操作の第一手段になると予想しているのです。

今、なぜ音声が重要なのか

音声こそが将来のインタラクションモデルだと考えられる理由はたくさんあります。いくつか挙げてみましょう。

1:スマートスピーカーの普及

ボイスボット・エーアイ(voicebot.ai)の創業者ブレット・キンセラは講演で、アメリカでは2018年から19年の間に、スマートスピーカーを設置している世帯が40%近く増えたと指摘しました。これは、アメリカ人口の約32%、8000万人以上の家庭が、2019年の9月までにスマートスピーカーを設置したことになります。EUでも着実に普及しており、2019年末での普及率はイギリスが21.1%、ドイツが11.6%となっています。

2:インクルーシブ社会との相性

高品質の音声UIは、インクルーシブ(包摂的)な社会へのカギでもあります。視覚や歩行、運動機能など障がいのある人々にとって、音声技術は身体活動においてもデジタル生活においても、自分に合った方法でコミュニケーションをとり、生活をコントロールする手段になります。高齢者や社会的に孤立しがちな人にも、仲間や心の安らぎを得る大切な機会を与えてくれます。

3:話すことは自然なこと

話すことは、クリックやタッチのインターフェースと比べ、はるかに自然な方法です。もちろん、どれだけ自然に感じられるかは、音声UIのパーソナリティーが大きく関わってきます。子ども向け音声アプリを開発するPretzel Labsの創業者兼CEOのアドバ・レビンは、こんな話をしていました。「音声アシスタントのパーソナリティーの設計は、キャラクターづくりによく似ています。年はいくつか、どんな生い立ちか、どんな話し方をするか」。こうした要素が、今やデザイン上の重要事項になっています。

どのように話せばよいのか?

私たちは人間として、人間を模倣する技術に大きな期待を持っています。声は人を形づくる根本的なものであり、ボタンのクリックよりはるかに親密で、感情に響く交流の手段です。それだけに、もしコンピューターがうまく対話に応じてくれなければ、不満もはるかに大きくなるでしょう。

困ったことに、会話というのは、たとえ同じ言語を話す人同士の間でも、本質的にまとまりのないものです。人間の脳は、まとまりのないものでもうまく扱えるようにできていますが、コンピューターはそうはいきません。感情的なニュアンスよりも論理を選ぶので、音声の解釈を間違う可能性は大いにあります。

「音声アプリの良しあしは、会話中の誤解をどう処理するかで判断されるようになる」。Googleのシニア会話デザイナーのジョン・ブルームは、エラー処理に関する講演の中でそう話しました。

ブルームによると、最大の課題のひとつは「認識」です。ここでの問題は、デバイスがユーザーの声を聞き取れない(つまり、室内に雑音が多い)場合、あるいはユーザーが言っていることを理解できない(長い沈黙や変な言葉遣いがある)場合です。さまざまな状況があり得る中、音声アシスタントがどの時点で、どんなふうに聞き返せば、ユーザーが心地よく感じるかを知ることが何よりも重要だとブルームは言います。

例えば、音声アシスタントがユーザーの要求を理解できない場合、もう一度質問をするか、言い方を変えるよう促すというのが典型的な対応です。しかし、それを2、3回繰り返してもまだ理解できない場合、ユーザーをイライラさせ続けるよりも、一度マイクを切って、最初からやり直してもらう方がいいかもしれません。これが「正しい」対応かどうかは、その時点で会話がどれくらい進んでいたかや、会話の内容によって違ってきます。

ブルームの挙げたもう一つの課題は、人の集中力の持続(というより、その短さ)の問題です。旅行の予約をすべて音声で完了できると便利そうですが、現実にはフライトが20便もあると、大抵の人はコンピューターが一つ一つ読み上げるのを待っていられません。場合によっては、マルチモードで20便のリストをスマートフォン画面に表示し、それを見てもらう方が早いということになります。ですから音声デザイナーは、どの場合に何が理にかなっているのか判断しなければなりません。そのためには、大事な点に収束されてくるようなデザインを考慮する、つまり「分野の壁」を越えて物事を見る力が必要になります。音声だけにこだわることは、この種のイノベーションでは障壁になりかねないのです。

frogと音声UI

frogはすでに、自動車医療消費財など、自社の製品・サービスに音声の導入を目指す多くのクライアント企業と仕事をしています。最近は、企業へのアドバイスの際にもこうした活用事例を検証し、どの部分に音声を活用すれば顧客体験が最も向上するのか提案するケースが増えています。音声技術を家庭で車の中で、あるいは職場で利用するのはどのようなときでしょうか?音声モードが最も効率的なのは、あるいは最も楽しく感じられるのは、どのような状況でしょうか?

裏を返せば、音声以外のインタラクションモデルを選ぶべきはどの部分か。その把握も、私たちの責任範囲にあります。例えば車の中では、音声で操作できる機能(カーナビ、メディアプレーヤーなど)は、同時にタッチ入力にも対応していて、雑音が多い場所ではそちらを使うことができます。また、カーナビに音声で目的地を指示したとしても、その後は道順を読み上げてもらうより、ディスプレーの地図の方が確認しやすいかもしれません。デザイナーである私たちは、さまざまな状況があり得ると理解しておく必要があります。

技術がさらに進み、難しい条件下でも複雑な指示に対応できるようになるまでは、このようなマルチモード手法、つまり、音声モードと視覚やタッチを使うモードを切り替える機能が、現在の音声アシスタントが持つ限界に対応する効果的な手段になるはずです。

人工的であるが“人間らしい”パーソナリティーを設計する

このようなマルチモード手法は、多くの場合、収束的デザインの技法にヒントを得ています。収束的デザインとは、製品、サービス、デジタル技術を統合することで、新たな変革を起こすソリューションや体験を生み出す方法です。frogでは、この種の戦略をクライアントと話し合う際、音声に特有の、ある要素にアドバイスを求められることがあります。その要素とは、パーソナリティーです。GUIでは、デザイナーが選ぶ色や書体、画像などによって、ある程度ブランドパーソナリティーを表現できますが、音声UIのデザインは全く異なります。

音声のデザインでは、言葉を無視することはできません。会話そのものがインターフェースなので、とりあえずダミーのテキストを入れておくわけにはいかないのです。音声を扱うデザイナーは、人が音声に対して、また異なる音声それぞれの特徴に対して、どのような感情を示すかを理解しなければなりません。そのためには、心理学、社会学、言語学などの社会科学の知識、場合によっては、文学、哲学、歴史学などの人文分野の知識も必要になります。

キンセラは講演の中で、「音声において大事なのは、人が人らしくいられること。私たちが機械の言語を勉強しなくても、機械が私たちを理解してくれることです」と語りました。人を中心に考えた音声体験を、誰よりも必要としている人の手が届くところに─あるいは、声が聞こえるところに─もたらすことができる。そんな可能性に、インタラクションデザイナーである私自身が興奮を覚えています。End

この記事は、frogが運営するデザインジャーナル「DesignMind」に掲載されたコンテンツを、電通BX・クリエーティブ・センター・岡田憲明氏の監修でお届けします。