オーディオブックに手をだしてみた

佐久間さんのポッドキャスト、INNOVATION WORLD FESTA、最近よくオーディオブックが取り上げられる。

米国オーディオブック協会(APA)が2019年の4月に実施した調査によるとオーディオブックの普及率がついに50%を突破したという。しかし、日本はどうだろうか。電車に乗ればスマホの画面に釘付けな人たちばかり。彼らはオーディオブックを利用しているのだろうか。

スマートフォンやスマートスピーカーの普及に伴い、移動時間やワークアウト、家事の間、耳の空き時間をオーディオブックで埋める人が増えているのだという。

実際ポッドキャストのヘビーユーザーの私はオーディオブックを利用したことがない。しかし、今回いい機会だと思ったのでとりあえずAmazonが提供しているAudibleを利用してみた。

Audibleとは

AudibleとはAmazonが提供しているオーディオブックのサービスである。月額1500円で毎月1冊本を購入することができる。Softbankが提供しているaudiobook.jpに比べるとエンタメが豊富らしい。

初月無料でトライアルができるので、早速登録。紙の本で読んだことがある(が途中で挫折して、放置してある)マイケル・サンデルの「これからの正義の話しをしよう」をとりあえずDLしてみた。

全部を聞ききってないが、とりあえずの感想

  • 目で読むよりすらすらと入ってはくる。
  • ある程度集中しないとだめ。何かに気をとられるとさらっと聞き逃してしまう。
  • スピードの調整が細かくできて嬉しい。今回は1.5xくらいでちょうどいいと思った。
  • ドライブモードがついてて、運転中の需要の高さを察した。

紙だと挫折したこの本だが、オーディオブックならとりあえず最後までは到達できそうである。(理解できるかは別として…。)

ポッドキャストはどうなの?

カナダの出版団体「BookNet Canada」が2017年に出したレポートによるとオーディオブック利用者のうち58%はオーディオブックとポッドキャストの両方を利用しており、45%がオーディオブックを利用し始める前からポッドキャストを聴いていたと答えた。

耳から情報を得ると言う点で両者は同じカテゴリー内にあると思うが、ポッドキャストのほうが誰でも配信できるという点でオーディオブックほどのクオリティを担保するメディアとは言い難い。良くも悪くもラフなメディアだ。

だからといってオーディオブックが最高というわけではなく、リアルタイムの情報は当然ポッドキャストのが優れていたり、会話形式でより親しみやすいといった優位性があるのは間違いない。どのメディアも選択肢の一つだ。気分やシーンで使い分ければいい。選択肢が広がることを拒む理由はない。

おすすめポッドキャスト

最後におすすめのポッドキャストを記載しておこうと思う。(オーディオブック初心者の私でも、ポッドキャスト歴は長いのだ。)

こんにちは未来
NY在住のジャーナリスト佐久間裕美子と『WIRED』日本版の前編集長でコンテンツ・メーカー「黒鳥社」の若林恵の2人が、音楽、アート、政治、ビジネス、ライフスタイル、メディアまでカテゴリーにとらわれず縦横無尽に語りつくすトークセッション。
http://podcast8.kiqtas.jp/future/

The Potluck Cast
挑戦をし続ける女性のためのコミュニティThe PotluckのRieとNagisaがアメリカ・サンフランシスコやニューヨーク、時々東京の気になるプロダクトや企業、ブランドについて異なる角度から読み解いていく。
https://www.notion.so/The-Potluck-1e8fb4417caa4fe294405989de641623

ポッドキャスト Export
デザイナー灰色ハイジが日本国外で活躍するデザイナーやクリエイターの話を聞いたり、自身のサンフランシスコでの暮らしや活動について喋るポッドキャスト。
https://export.fm/

Takram Cast
デザイン・イノベーション・ファームのTakramのメンバーがデザイン・テクノロジー・ビジネス・文学などの話題を幅広く展開するポッドキャスト。
https://cast.takram.com/

バイリンガルニュース
Michaelが英語、Mamiが日本語で、独自のセンスで選んだニュースを英語と日本語で紹介した後、バイリンガル会話形式で意見を交わす番組。京大の英語の教材としても使われる。
https://bilingualnews.jp/

ブランディングの定義を間違えて覚えていたらしい

週末読んだ本によると私はどうやらブランディングの定義を間違えて覚えていたらしい。本当の定義がちょっと目からウロコてきに「おお」と思ったのでまとめておこうと思う。

まず読んだ本がこちら、小山田育氏と渡邉デルーカ 瞳氏の著作「ニューヨークのアートディレククターがいま、日本のビジネスリーダーに伝えたいこと」(クロスメディア・パブリッシング発行)だ。

ニューヨークでブランディングを中心としたデザイン事務所をかまえる著者が、日本のビジネスリーダーに対してブランディングの大切さとそのノウハウを説いた一冊である。

本によると私が今まで「ブランディング」だと思っていたことはコーポレート・アイデンティティ(CI)にあたる。CIとは1930年代にアメリカからはじまり、日本では1970年から導入された概念で、企業の主観をベースにしたものだという。

企業の理念、特性、事業内容、方針など経営にまつわる事柄を、企業の目線から社会に発信できるように体系化したものであり、「企業のメッセージを広く伝える」ことを目的としている。

対し、真の意味におけるブランディングとはいったいなにか?

CIとの一番大きな違いは視点だという。CIがあくまで企業の視点で構築されるのに対し、ブランディングは消費者の視点によって構築される。

つまり、ブランディングとは時代や環境、顧客ニーズを考えながら、企業、商品、サービスなどのもつ「らしさ(=個性)」を引き出し、価値をつくりあげ、顧客に与える総合体験のすべてにおいて正しく演出すること。また、ブランディングの最終目的は「企業価値」をあげ、顧客のロイヤリティを獲得すること。つまり、信頼され、ファンになってもらうことだという。

CONEによる調査によるとミレニアル世代(1981〜1996年生まれ)は10人に9人が商品やブランドのビジョンに共感できるか否かによって購買ブランドを選んでいるという。

私の肌感だとニューヨークのミレニアル世代に比べて日本のミレニアル世代はそこまで顕著にブランドを選んでいる感じはしない。私が好きなNY在住のライターの佐久間裕美子氏も、日本の人も自分の思想にあった企業の商品を買うということに対してもっと積極的になったほうがいいといった旨をポッドキャストかなにかで述べていた。

とはいえ、従来のいいものをつくり、それを伝えれば買ってもらえるという時代は過ぎ去ったらしい。

ターゲットを定め、そのターデットに届くためにはどのようなビジュアルや、言葉、社会貢献的活動が有効かそれぞれの企業やサービスが考え実行すること。そして私たち顧客は、それぞれ自分の思想にあったサービスを選択すること。

それはより豊かなな社会へつながる気がして、私はこの流れをありがたく享受したいなぁ、などと思っている。

VUIが気になる

VUI( Voice User Interface : 音声ユーザーインターフェース)とは、ユーザーがデバイスに対して話しかけるとその発言を理解して、ユーザーの命令に応じて動作する機能のことだ。代表的なインターフェースとしてAppleのSiri、AmazonのAlexa、GoogleのGoogle Assistant、LINEのClovaなどが挙げられる。

VUIの先頭を走るアメリカでは、
「2020年までに全検索行為の30%がディスプレイのない状態で行われる」
(調査会社・Gartnerの予測

「2020年までに全検索行為の50%が音声で行われるようになる」
(調査会社・Comscoreの予測
といった予測もたてられている。

Apple、Amazon、Google、IBM、Facebook、LINE…IT界の巨人企業がこぞってVUIに参入する理由とは?そしてもし、上記のような予測が本当になるのなら今後どういったことが考えられるのだろうか。

なぜ今気になるのか

私がVUIを意識したのは、昨年10月にAdobe XDに音声トリガーが搭載されたことによる。

未だにこの機能を実地で使ったことはないが、少なくとも昨年時点でAdobeは今後のVUIの伸びをを予測し、先んじてXDに機能として加えたのである。

また今年のGoogle I/OでのビッグトピックスのひとつであるGoogle Assistantの進化についてのデモ動画が私の関心に拍車をかけた。

100GBもあったデータを0.5GBまで縮小したことにより、スマートフォン上でローカル実行できるようになり、音声処理をほぼ遅延なし(ゼロレイテイシー)で処理できるようになった。ローカル実行によりネットワークに接続していないときでも使えるようになり、また次世代版ではユーザーのリクエストを理解・処理するまでのレスポンシブが最大10倍早くなるらしい。

また、Continued Conversation機能により「Hey Google」を何度も言わずに複数のリクエストが連続して行なわれる様子もデモ動画でわかる。

このGoogle Assistant次世代版は年内には新しいPixelに搭載予定だという。

VUIが注目される理由とは?

さて、冒頭にもあげたように今音声という新たなインターフェイスに多くの企業が可能性をみいだしている。Amazonは以下の4つのトレンドが音声技術の急速な普及を後押ししていると考察している。

1. ウェブサービスとIotの先に広がる世界
ウェブサービスとIot (Internet of Things : モノのインターネット)は、音声技術にとって格好の舞台である。例えば、センサーと読み取り装置は、スマートホームインテグレーションをごく自然に実現してくれる。

2. 科学技術がより身近に
自動音声認識(ASR : Automatic Speech Recognition)や自然言語理解(NLU : Natural Language Understanding)、音声合成(TTS: Text To Speech)といった分野の知見を、今や誰もが利用できるようになっている。

3. ハードウェアがユースケースに対応
既存のハードウェアで遠隔音声処理(FFVIP : Far-Field Voice Input Processing)に対応できるようになったため、VUI技術を広範囲に利用できるようになっている。

4. AIによってVUIがよりスマートに
機械学習の発達で人工知能(AI)が誕生し、VUIはユーザーの話し方や好み、コンテキストを徐々に学習して適応してる。

またAmazonは、この4つのトレンド以上に声というものが私たち人間ににとって一番自然なコミュニケーション方法であり、進歩を加速させた原動力とも述べている。

VUIの活用事例

音声で家電を制御するスマートホームは想像するにたやすいが他にどのようにVUIが私達の生活に組み込まれているのだろうか。その前に一度VUIのメリットとデメリットに触れたい。

VUIのメリット

1. ハンズフリーで両手が自由に使える
両手が離せない、料理中、子育て中、運転中、荷物運搬中、運動中などでも使用できる。

2. 目線を固定する必要がない
画面を見る必要がないので、他のことをやりながら使うことができ、安全にマルチタスクをこなせる。

3. 話しかけるので学習が不要
キーボードのタイピング練習のような、使うための学習をしなくて済む。

VUIのデメリット

1. 情報の比較が難しい
例えば、「オススメのレストランは?」と質問して、言葉でたくさんのレストランをオススメされても、覚えられないし、比較検討できない。複雑な内容、複数の情報を扱うことは向いていない。

2. 入力情報の誤認識が多い
音声入力は精度が上がってきたとはいえ、キーボードやジェスチャーなどに比べれば、認識精度は低い。アメリカのAmazonでもEchoを通して、注文していない商品が届いたり、メールが勝手に送られてしまったりというトラブルがあった。特に日本語の認識精度は発展途上である。

さて、実際に事例をみよう。

Destiny2


ゲームに関しては、以前から「シーマン」「ピカチュウげんきでちゅう」など、音声操作のVUIを取り入れたものがあった。そして、今VUIの観点から特に取り上げたいのは「Destiny2」(英語版のみ対応)である。Alexaのスキルを使えば、ゲーム中に音声でキャラクターをコントロールして、音声によって没入体験をよりリッチにできる。

My Starbucks barista

ECをはじめ、コマースもVUIが活躍しやすい分野といえる。決まっている商品を音声を通じて注文や決済できるイメージはすでに持っている人も多いだろう。

Starbucksがベータ版を発表している「My Starbucks barista」はチャットボットテクノロジーで会話しながらコーヒーを注文できるアプリだ。

一方的な命令ではなく、チャットによりコミュニケーションをとり、欲しい商品や情報を手にすることができる。電話で問い合わせたり、Webをチェックする必要がないことは大きな成果といえる。

ELLIQ

受動的なコミュニケーションにとどまらず、能動的にコミュニケーションをとろうとする対話ロボットも開発されている。

ElliQは高齢者が簡単に友達や家族、そして世の中とコミュニケーションを取れるようにすることを目標としている。「写真が届いたけど見たい?」「投稿に返信する?」「おくすりの時間だよ」「外出の予定があるよ」と積極的に話しかける様子は、アシスタントというよりもコンパニオンだ。

ElliQは高齢者とターゲットをしぼっているが、小さいこどもを持つ家庭などでも活躍しそうな技術である。

VUIの今後のトレンド

かなり様々なところでVUIが活用されはじめているが、今後はどんなところにこの技術は染み渡っていくのだろう。VUIのスペシャリストの株式会社WHITE 長友氏によると、

1. 身体的不自由を支援するサービス
これまでに手や目の不自由な人向けのサービスは市場が小さくすぎると考えられていて後回しにされていたが、骨折や白内障などで一時的に身体の一部が不自由になっている人や、子育てや運転などで一時的に身体機能を固定しなければいけない状況を含めると、アメリカでは何らかの要因で手や目に不自由を抱えている人が2000万人いると言われてる。そうすると、新たな顧客層として十分な市場に変わるという。

実際にGoogleも今年のGoogle I/Oでは発声に不自由のある方の通話を補助するLive Relayのプロジェクトや発声に不自由がある方の音声・表情・ジェスチャーのデータを取り込んで、それぞれに合わせた発声AIをトレーニング・活用する「Project Euphonia」が発表された。

2. 無思考型サービス
調査会社のアクセンチュアが実施している調査によると、企業やブランドに対する生活者の無関心化が進んでるという。何か買うときにこだわりを持たず、企業やブランドに対してロイヤリティを感じなくなっている、ということだ。これまでは何が欲しいのか明確になって検索して情報を探すというのが一般的だったものが、何がしたいのか自分でもよくわからない状態から買い物したりする人が増えてきている。VUIはこの流れに適しており、会話の中でAIがレコメンドしていき、何が欲しいのか、何をしたいのかという、生活者自身も気付いていないニーズが引き出されていくことが考えられる。

音声アシスタントは人間か?ロボットか?

もちろん音声アシスタントはロボットであるが、VUIに関して、私が個人的に気になっているのは、音声アシスタントの「人間らしさ」である。

「人間らしさ」と「ロボットらしさ」のバランスを保つことは、音声によるAIとのやり取りを設計するエンジニアにとって、かなりのチャレンジであることは想像に難くない。またこの問題は人々がヴァーチャルアシスタントに本当は何を求めているのかということに繋がる。

オハイオ州立大学の心理言語学者ローラ・ワグナー氏は、話し言葉における“音楽的”な要素は、聞き手の理解を助けるのだ、と語る。つまり、声のトーンや抑揚などによって微妙なニュアンスを伝えやすく、また聞き手が理解しやすくもなるのだ。

また、こうした話し方は感情がこもっているようにも聞こえるだろう。人はAIであれ、人間らしく聞こえると好感をもつ。音声アシスタントの話し方が人間らしく聞こえれば聞こえるほど、より信頼感を抱き、さらに使いたいと思うだろう、と氏は続ける。

一方音声アシスタントの個性を伸ばせは機能性が損なわれてしまう。音声アシスタントが「うーん」「えーと」などと言い始めたら、利用者も同じように話しかけるようになるはずだ。その結果、ユーザーが何を言っているのか認識できなくなる可能性が出てくる。つまり、ユーザーが音声アシスタントに丁寧に話しかけなくなり、言葉の認識率が下がってしまうかもしれないのだ。

さらに、書籍『The Conversational Interface(対話型インターフェース)』の著者の1人であるマイケル・マクティアー氏は、話し方があまりに人間らしいと、利用者にほかの面も非常に優れていると思い込ませてしまうかもしれない、と語る。天気予報を伝えたり、電気をつけたりするだけでなく、自分を理解してほしい、つながりを持ってほしい、デートをしてほしいとさえ望むかもしれない。期待が膨らむほど、アシスタントにできないことがあったとき、消費者の落胆も大きくなる。

どちらにせよ、人間らしくあってもロボットらしくあってもメリット・デメリットはでてくる。この中各社が音声アシスタントを人間にとってどこに位置づけていくのかは非常に興味深い。

音声アシスタントに性別は必要か?

「人間らしさ」からの派生であるが、この点についても引き続き動向を追いたい。

一般的な音声アシスタントは、男性と女性の声を選ぶことができるはずだ。しかし実際のところ、世界を男と女ではっきりと区別することは難しく、この2択は無意識に私達にある種のステレオタイプな考えを助長する可能性を潜めている。

つまり、気遣いができて役に立つAIアシスタントは女性の声を採用し、セキュリティロボットなどのマシンには男性の声を使って権威を示すべき、といったものだ。音声アシスタントの「Siri」や「Alexa」が女性の声であるのは偶然ではない。ユーザーは相手が男性の声より女性の声のほうが、より積極的にやりとりすることが研究で明らかになっているのだ。

言語学者、科学技術者、サウンドデザイナーからなるチームが、本物の人間の声をベースとする新しいジェンダーレスなデジタル音声「Q」によって、そんな状況を変えようとしている。このグループを率いているのは、LGBTの祭典として知られる「コペンハーゲン・プライド」と、Vice Media傘下のクリエイティヴエージェンシーであるVirtueだ。

男性らしさと女性らしさの判断は、主に周波数、すなわち音の高低に依存する。傾向として男性の声道は大きく、それにより声音が低くなる。だが、145ヘルツから175ヘルツの間にスイートスポットが存在し、この部分はより中性的に感じられることが、調査によって明らかになった。

この範囲よりも高くなると通常は女性の声として、それよりも低くなるとより男性らしい声として知覚されるのだ。

参考 : Meet Q

「Q」の開発チームはスイートスポットにちょうど当てはまった人物の声を調整し、最終的に4種類の声を作成、欧州に住む4500に聞いてもらった。結果はそのうちのひとつが中性的に聞こえるものとして多く票を集めることになる。この声がまさに「Q」のベースとなった。

公平性のために言っておくと、テクノロジー企業が必ずしも故意に、男女という2つだけのの選択肢にうまく収まらない声を除外しているわけではない。だが間違いなく、テック企業はジェンダーレスの声のようなものを開発する能力をもっている。控えめに言っても、製品で標準設定されている声についてこれまで以上に真剣に考え始めることができるはずだ。

しかし、これは簡単な問題ではない。人間の脳は、性別を厳密に男性または女性とみなすように文化的にプログラムされているからだ。言語学者のクリスティーナ・ハルグレンは、「Q」は、わたしたちの心にかかわるからこそ重要なのだと説明する。このプロジェクトは人々を箱に押し込めようとする人間の衝動に取り組むもの。ゆえに、人間の境界を動かし、視野を広げる可能性を秘めている、と続ける。

ジェンダーや人種の話をするといつもなんて世界は複雑なのだろうと思う。同時に私のバイアスが仕事や発言に反映させて誰かを傷つけていたらどうしようと恐ろしくなる。このようなプロジェクトは無意識下にある問題を見える化し、急速に変化する未来をより包摂的かつ啓蒙的なものへとかたちづくる一歩になって欲しい、そう願わずにはいられない。

「Helvetica」37年ぶりに新作を発表

世界に最も浸透している書体のひとつであるだろう、「Helvetica」の新作が2019年の4月にMonotype社からリリースされた。

TOYOTA、Jeep、BMW、アメリカン航空、MUJI、evian…
簡素で落ち着いたフェイスのHelveticaは多くの企業のロゴに採用されており、誕生から60年以上経った今も多くのデザイナーに愛用されている。

しかし、デジタルが普及するにつれ、Helveticaを採用していた企業が別の書体でデザインの刷新を図る事例をよく耳にするようになってきた。

例えば、Googleは2011年にHelveticaの使用をやめ、独自のフォント「Roboto」を導入しはじめたし、Helveticaといえばと言われたAppleも「San Francisco」に2015年から鞍替えをしている。IBM(IBM Plex)も同様だ。

その背景としては、巨額のライセンス料(IBMはライセンス供与に毎年100万ドル以上のコストがかかっていたと明かしている)に加えディスプレイにおける可読性の低さが挙げられるだろう。

Helveticaの誕生、そしてデジタルによって暴かれた弱点

スイスのハース鋳造所が1957年に発表したHelveticaは、マックス・ミーディンガーとエドゥアルト・ホフマンによって作られた。

徐々に世界的に知られるようになり、人気が高まったことで、サイズやウェイトが追加されていった。しかしファミリー内で細部が微妙に異なるなど、一貫性にかけており、結果として欠陥を目立たせることになってしまった。

こうした問題を解決するのに加え、きたるべきコンピューター時代に備え、ドイツのLinotype社が1982年に発表したのが「Neue Helvetica」である。

しかし、1982年には想定できないほど、今日の技術の進歩した。

Neue Helveticaはインターネットでの使用を想定されておらず、オリジナルを単純に拡大縮小することで大小のサイズをつくりだしていたため、字の大きさに合わせて字形の微調整を行うといったことはできなかった。コンピュータの画面でみると、カンマやピリオドのバランスが悪く、潰れて読めなくなってしまう記号すら存在していたのである。

そして、Helvetica now 登場

今回発表された「Helvetica now 」の改良ポイントは使用環境に合わせて「Micro」「Text」「Display」の3種類が用意された。キーワードは視認性だろう。

Microは4〜7ptでも読みやすいように線の間の空間を大きくとり、カーニングも広めだ。(Apple Watchなどのデバイスを想定しているのだろう)

Displayは逆に14pt以上での使用を想定しており、textは幅広く使えるようにデザインされた。

他にも、小文字の「a」には異体字も採用したり、オリジナルのHelveticaの特徴だった大文字の「R」の直線に近いはらいを復活させるなども行っている。

Helveticaは水のようだ

Helveticaは今後もあらゆるシーンで使われるだろう。そんな普遍的な美しさをHelveticaはもっている。

しかし、それと同時にHelvetica nowも広く普及するだろう。高解像度に耐え、小さなデバイスでも読みやすいこの書体はライフスタイルのデジタル化に伴って、もしかしたら最も身近な水のような書体になるかもしれない。

https://www.monotype.com/fonts/helvetica-now/