『声のインターネット』がもたらすフラットな世界。DOKI DOKI, Inc.・井口尊仁さん【インタビューシリーズ「未来をテクノロジーから考える」】

2020.09.06

ROOM

ミラツクでは、2020年7月より、未来をつくるための「場」を提供するオンラインメンバーシップ「ROOM」を開始しました。

インタビューシリーズ「未来をテクノロジーから考える」は、ミラツク代表・西村勇哉がインタビュアーとなり、「テクノロジーを駆使して未来を切り拓く」活動を行なっている人たちにお話を聞くオリジナルコンテンツ。「ROOM」では、記事と連動してインタビュイーの方をゲストにお招きするオンラインセッションを毎回開催していきます。

ROOMオンラインセッション「ROOM on Zoom」
9月24日（木）18:30-20:30 at Zoom　ゲスト：DOKI DOKI, Inc.CEO　井口尊仁さん
詳細：http://emerging-future.org/news/2189/

第2回は、音のインターネットの時代に訪れるコミュニケーションプラットフォームづくり取り組んでいる「DOKI DOKI, Inc.」CEOの井口尊仁さんにインタビュー。

「音声の拡張は、コミュニケーションの拡張である」と語る井口さんが考える「声のインターネット」が可能にすること。絶望の最中に、井口さん自らが欲した「オープンで共有可能な、誰かと喋れる場」。そこから想起し立ち上げた、現在5万人が利用するアプリケーション「Dabel」による新たなコミュニケーションのあり方を通じて、井口さんが取り組む未来への視座を伺いました。

（構成・執筆：代麻理子)

井口尊仁（いぐち・たかひと）｜TAKAHITO IGUCHI
1963年生まれ。立命館大学文学部哲学科卒。2009年、世界をAR空間化する「セカイカメラ」をローンチして注目される。2014年7月からDOKI DOKI, INC.最高経営責任者。現在は声のソーシャルネットワーク「Dabel（ダベル）」の普及に努めている。

「テキストのインターネット」から「声のインターネット」へ

西村それではまず、現在井口さんが行なっている取り組みとその背景を教えていただけますか。

井口さん現在僕は、米国に本社を置く「DOKI DOKI」という会社の代表を務め、ライブストリーミングの音声コミュニケーションアプリ「Dabel（ダベル）」を展開しています。ダベルは2019年1月にサービスを開始し（当初の名前は「ear.ly（イアーリー）」）、現在は米国を中心とする英語圏、そして日本でもアプリを提供しています。

「Podcast」や「Voicy」「stand.fm」など、音声配信アプリは日本でも既に存在しますが、双方向のライブ型音声ソーシャルネットサービスはまだありません。サービス名の「ダベル」は日本語の「駄弁る」をもじってつけたように、井戸端会議のような「おしゃべりの場」を目指して立ち上げました。

具体的には、ホストが作成した部屋は一覧としてユーザーに公開され、部屋に入れば誰でも通話の内容を聞ける。そして、内容に興味があり「喋りたい」と思ったら、ワンクリックでホストの許可を得て通話に参加できるんです。通話のログは蓄積され、他のユーザーは後からコンテンツとして聞くことができます。

井口さんが展開しているコミュニケーションアプリ「Dabel」

「ホスト」と「リスナー」という関係ではなく、参加した誰もが会話を楽しめる双方向コミュニケーションをすることができる。従来のサービスでは実現できなかった「音声のインターネット」を実現したサービスだと思っています。

西村「音声のインターネット」という言葉にはどのような意図が込められていますか？

井口さん僕たちがインターネットの恩恵にあずかってから、早20年が経ちます。1991年にイギリス人のティム・バーナーズ＝リー博士によって最初のWebサイトが公開されてから、徐々にホームページなどがつくられるようになり、90年代後半からソーシャル・ネットワーキング・サービス（SNS）やブログが普及し始めました。

それらによって、様々な言説やアイディア、感情が、みるみるうちに増殖し、ネットワークされていきましたよね。「テキストのインターネット」です。

それに対して、「音声のインターネット」は、実はまだ存在しないんじゃないかと思うんです。つまり、「Podcast」はAppleが生んだ画期的なブレイクスルーですが、ではあれが「音声のインターネット」かを考えると、なんだか狭い気がします。

西村そうですね。「どこでもラジオが聞けます」といった話ですよね。

井口さんはい。アーカイブされた、非常にパーソナルなラジオを誰でも持ち運べる、どこでも聞けるというのは確かにすごく便利だし、イノベーティブです。

一方で、それをもって「声のインターネット」が普及したと考えるのはかなり難しい。どうしたら「音声のインターネット」が可能になるのか、が「Dabel」の出発点でした。

僕は「音声のインターネット」の広まりは、人間がお互いを感知したり、理解したり、接点を持ったり、共に仕事や生活をする際の交流の仕方、つながり方に大きな役割を果たすと思っています。

コミュニケーションそのものがデータをつくり出している

井口さん検索・共有可能な「テキストのインターネット」は、Googleなどの検索エンジンを成長させ、それが新たな広告事業を生み出し、新たな経済を創出しました。

西村テキストによるターゲティングが可能になり、広告につながったということですね。

井口さんはい。だからこそ、eコマースや他のさまざまな情報サービスが成長できた。その前提には、異常な勢いで増えていった「共有可能なオープンテキスト」があると思います。

ハイパーテキストとは、個々人が個々人として利用できるだけだと不十分ですよね。多くの書き手が多くの読み手に届けることによって、誰もが膨大なテキストを一気に利用可能になったということが、初期のインターネットのものすごく大きなブレイクスルーだったんですね。

西村なるほど。

井口さん僕は、音声がそのようになるんじゃないかと考えて、「Dabel」をやっています。要するに、「検索可能で共有可能な膨大な音声のデータが異常な勢いで増える」ということを通じて、初めて「音声のインターネット」は可能になる。

例えば、みんながツイートをする、ブログを書く、「Facebook」に書き込むなどのように、異常な勢いで増えていく共有可能でオープンなデータとして、音声データが世界中にあまねく行き渡っていく状態を想定してつくっているんです。

写真：iStock

現在僕たちは「LINE」「Messenger」「LinkedIn」などの共有可能なテキスト中心のインターネットを通じて、多くのな人にリーチしたり、コミュニケーションをとったり、コラボレーションしたりが可能ですよね。

それが、音声を通じてできるようになるんじゃないかと考えています。つまり、「喋るだけで誰かとつながる」ような世界です。

西村そこに至るまでには、いくつが段階がありますよね。まずは検索可能な音声が大量に生じる。そしてそれに対してアクティブに入っていけるようになる窓のようなものができるわけですよね。

井口さんおそらく、AからBを通じてCになるという線形的な変化にとどまらないだろうと思っています。ブログにしてもソーシャルネットワークにしても、あらゆるリーチ可能なインターネット上の情報は、実は多くの場合はコミュニケーションやコラボレーションをもたらすために成長してきているからです。

つまり、まず大量のデータがたまってからコミュニケーションが始まったり、コラボレーションになるのではなく、コミュニケーションやコラボレーションをよりよく達成するためにデータがたまっていくというドライブも働いているわけです。

例えば、現在「Dabel」は世界で約5万人のユーザーが利用しており、過去に50万件以上の会話のセッションが発生しているのですが、彼らは「データがあるから利用している」というわけではないでしょう。

データの有無よりも、「誰かとのフランクでカジュアルな楽しいお喋りを通じて、お互いの事を知ったり、お互いの話題を共有したい」ために「Dabel」を通じて出会っている。

コミュニケーションそのものが、コミュニケーションの結果としてのデータをどんどんつくり出している状態だと思うんですよね。

10年で激変する社会的規範

西村なるほど。一定のところまでいくと次の段階が現れる、といったことがあるのかなと思ったのですが、いかがですか？

井口さんそうですね、例えば「Twitter」は現在約3億8600万人のユーザーがいますし、「Facebook」にいたっては26億人いる。ですが、サービスを開始した当初は、数千人や数万人、せいぜい数百万人だったわけです。

ユーザーが増えることによって新たなビジネスや情報サービスが立ち上がっていくけれど、データがないと始まらないかというと、必ずしもそうじゃないと思います。

西村そうですね。ユーザー数が一定の量に達したときに起こることはもちろんあるんだけれど、スタートから量が必要かというとそれは別にどちらでもよくて、そもそもみんなが何をしたいのかの方が大事だということですね。

写真：井口さんより提供（京都にて）

井口さんはい。僕は、2008年に米国でローンチした『セカイカメラ（現実の背景に情報を重ねて表示する「拡張現実（AR）」技術を用いたスマートフォン向けアプリ）』以来ずっと米国で、ITサービスで挑戦することを懲りずにやっているのですが、その頃はまだ「Twitter」の黎明期だったんですね。グローバル規模のインフラにはなり得ていなかった。

そして当時は、その時点の価値観として、個人情報をパブリックなインターネット上にオープンに漏洩するなんて、プライバシー的にあり得なかったんです。例えば、「西村さんが〇〇と岡崎のスターバックスでおいしいケーキを一緒に食べている」といったことをツイートしてはいけなかった。

一方で、今ティーンエイジャーの人が、写真を撮って「Instagram」や「You Tube」にオープンな情報としてさらけ出したとしても、目くじらを立てる人はいないですよね。

西村そうですね。

井口さん犯罪行為や反社会的行為は別として、プライベートな情報をオープンにすることは2007〜2009年のタイミングだと、社会的な規範としてまだまだ当たり前の行為とは認知されていなかった。

西村確かにそうですね。当時は、メーリングリストのような世界観でしたね。

井口さんまさにです。メルマガのような、限られた範囲で限られた情報が共有される世界でしたよね。誰もがオープンにインターネット上に自分たちのプライバシーや感情、欲望をさらけ出すことは社会的に許されていなかった。

日常的な雑談や無駄話をオープンに共有する世界

西村世界側が認めていなかったという見方はすごく興味深いですね。人々が「したい」か「したくない」かは置いておいて、そもそも良しとされてなかったと。

サービスがローンチされたときも、「いや、そんなものは社会的にダメでしょ」といった少し前の段階の判断で「意味がない」とされてしまい、実際は人々は皆やりたかった、ということでしょうか？

井口さんやりたかったかどうかは、そういう手段がなかったため、ユーザーにとっては「分からなかった」と思います。iPhoneの登場は2007年ですので、モバイル中心のSNSのファーストジェネレーションは2008年あたりですよね。

それまでは、気軽にインターネットにつながり、好きなことを自由に共有できるコンピューターデバイスが手元になかったので、やりたいかどうかの欲求を想像することは難しかった。

車に乗ったことがない人が「車って便利ですよね」とって言われても分からないように、デバイスが存在しなければ想像できないことは多々ありますよね。

写真：iStock

西村そういう意味では、デバイスの進化が鍵になるのだと思いますが、音声に関するデバイスの進化はどう考えていますか？

井口さん今の音声メディアは、先述した例のように、Eメールを書いたり、社内ツールで情報を共有したり、メルマガを書いたりと、電話やラジオの域を出ていません。

米国ですら、「Podcast」の配信者は限られています。「Twitter」などの感覚で音声を発信することは当たり前では決してない。

例えば、「Podcast」だとラジオのようにきちんと構成やオチまで考えて配信する必要がありますよね。それは相当大変なことなので、ユーチューバー的な能力がなければ始められないし、始めたとしても続かないでしょう。

「Dabel」や「Clubhouse(音声SNSアプリ。ベータ版のリリースからたった2カ月で1億ドル相当の評価を得て、100万ドル以上を資金調達した)」がなぜ画期的かというと、「日常的な雑談やバカ話、無駄話をオープンに発信してもいい」という生活をつくろうとしているからです。

僕は、そうでなければテキストコミュニケーションレベルのオープンで開かれた「声のインターネット」の世界に行きようがないと考えています。デバイスに関しては、それを可能にする流れで発展するのではないかと思います。

西村昔、映写機が登場したときに「新しいことができるんだけれど、使い方がよく分からない」といったことが起こりましたよね。例えば、定点で風景を撮ってみたり。

ところが、定点じゃなくていい、さらには複数のカメラで撮影して切ったり貼ったりするんだ！などと気づいてから映画が誕生しました。つまり、使い方が分かるまでに人間は結構な時間がかかるのだと思います。

知人との会話に突然現れる
新参者との出会いがおもしろい

井口さん今、僕らが「Dabel」を通じて分かっている範囲で言うと、「Dabel」のウリは、複数の人間が同時に喋れるフィーチャーなんです。知り合い2人が喋っているところに、新参者が1人やってくるという体験は極めて楽しいんですよ。この瞬間はイノベーティブな瞬間だなと思っています。

Zoomにしてもメッセンジャー通話にしても、グループチャットは基本的にまあまあ楽しい。ただ、「Dabel」や「Clubhouse」がよりおもしろいのは、そこに新参者が訪れるところなんです。

「声のインターネット」というオープンな音声データベースがクラウド上にできることと、新しい出会い方やつながり方によって、音声のインターネットがさらにドライブされることは、対（つい）になっている気がしています。

共通の人間関係か興味、という2軸に新参者が訪れる瞬間をどれだけつくれるかがチャレンジです。普段行なっている電話会議にいきなり誰かが突然入ってくるのは、今だとまだあり得ないことですよね。

西村例えば、今、この会話に突然誰か知らない人が来るということですよね。ちょっとおもしろいですけどね（笑）。

井口さんまさにそうで、誰かの国際電話に参入して「ハロー」と言っているような感覚なんですよ。それがめちゃくちゃ楽しいんですが、その瞬間を知っている人はまだ10万人もいないでしょう。僕たちは、これが新しい時代の起点になるだろうと考えて取り組んでいます。

西村お話を伺っていたら、中学生などがハマりそうな気がするなと思ったんですが、まだそういう若年層のユーザーは少ないんですか？

井口さんアダルトコンテンツやハラスメントの問題があるので、現状「Dabel」は17歳以上に制限して運営しています。ただ、ティーンエイジャーにはとても向いていると思います。

西村北海道の中学生と東京の中学生は何の違和感もなく喋ると思います。

井口さん下手すると、国境を越えて喋り始めるでしょうね。先日、モロッコの若者と東京の小学生（保護者がユーザーで保護者の管理下で利用）が喋って盛り上がっていたケースもありました。その間の言語の通訳は20代の女性が行なったりと、想像もしていなかったことが普通に起きています。

「ながら」でも「そこに人がいる」臨場感が重要

西村なるほど、少しずつ分かってきました。最大の利点は、「オンタイムで今喋ってる環境」だなと感じますね。「今から喋りましょう」といったことは必要なくて、「今喋ってるから、入ったらいる」ということですね。

井口さんそうです。準備しないしアジェンダも無い。「グダグダになったらどうしよう…」などの心配も不要で、はなからグダグダなんですよ。

下手すると、フォートナイトやディスコード（ゲーマー向けチャットサービス）、マインクラフト、ポケモンGOなどをやりながら繋がっている。それを一緒に楽しんでいる感覚なんです。

西村それはすごく分かりますね。僕が授業後に大学生と話すと、同時に3つくらいのゲームをやっていたりして。ひとつひとつの微妙な進行の間を埋めているんでしょうね。

井口さんまさにそうで、「Dabel」ユーザーの強者は、イヤホンの左右で違うものを聞いていますからね。片方で「YoutubeLive」を聞きながら、もう片方で「Dabel」をやっていたり。そして、目と手はフォートナイトやマイクラをやっていたりします。

「ながら生活」が当たり前になっているので、むしろ耳だけのメディアであることがすごく大事なんです。目を占有しないから「ながら」ができる。

西村「画像はなくていいのかな？」と思ったんですが、むしろ無いほうがいいんですね。

井口さん配信者の中には、喋らない人もいるくらいですからね。ただ黙々とパソコンを叩いてる。だけれど、「そこに人がいる」という臨場感が非常に重要で。

西村おもしろいですね。同じメンバーで同じチームが繰り返されることもあるんですか？

井口さんリピートも多いのですが、ずっとリピ―トをしていると飽きてしまうので、新しいトレンドや話題、つながり、コメントなどの”新参者の乱入”が鍵になると思っています。

「Twitter」も「Facebook」も常にルーティーンだと安心はできるけれど、飽きてしまいますよね？やはり、人間の根源的欲求のひとつに「仲間を増やす」というのがあるんだと思います。

コミュニケーションの拡張を目指す「Dabel」

西村なるほど。小さいグループで脱出する、といったことも起こりますか？

井口さんはい。スピンアウトも結構ありますね。

西村飲み会などで、2人だけで別の会話が始まったりすることもありますもんね。そういう意味では、ごく普通の会話をそのままオンラインに乗せられる感じなんですね。

井口さんごくごく普通の会話をオープンなインターネット上にさらけ出して、しかもまったく遠慮がない。そこに恥じらいの感覚はもうないんですよ。実際に、恋バナや家族の話など、赤裸々な話も出ていますよ。

西村すごいな。

井口さんでも考えてみると、「こんなこと書いちゃっていいのかな？」ということが過去には散々ありましたよね。

例えば、「これから告ります」や場合によっては「自殺したい」など。そうしたことを経て、臨界点がどこなのかを皆さまざまな形で試すんだと思います。

西村なるほど。これはコミュニケーションの拡張なんですか？それとも聴覚の拡張なんですか？

井口さん聴覚の面での拡張は当然あると思いますが、やはりコミュニケーション拡張ありきだと思います。聴覚の拡張の部分をお答えすると、「3Dオーディオ」が肝になると思っています。

3Dオーディオは空間的に位置関係を示せるので、距離の遠い人は遠くに感じる、興味があったらその人のところに近づいていく、などが音声でも可能になります。その際に、声のソーシャルネットワークが意味をもつのは、想像に難くない。実際に、Appleが計画しているとも耳にします。

つまり、「歩いて行くと音的にもその相手に近づける」といったことは、そう遠くない未来に実現する。

西村3Dサウンドのアート作品に参加させてもらったことがあるんですが、そのときに一番おもしろかったのは、近づいてくる感覚でした。音だけで高低や遠近が認識できるんですよね。小人になる体験とかもできるかもしれませんね。

井口さんそうですね。音によってスケールも距離も表現できます。リアルタイムの音声処理も進化しているので、トーンやスピードを変えることも可能になるでしょう。

西村なるほど、するとおそらく時間感覚も少し変わりますね。リアルタイム翻訳をして別の言語に切り替えるなど。「音の化粧」みたいなことも可能になるでしょうね。そう考えていくと、音声のテクノロジーはまだ始まったばかりの状態なんですね。僕らは、電話以降まったく進化してないわけで。

井口さん音声での雑談がオープンに共有される体験は、僕らはまだインターネット上で体験したことがないですが、将来的には当たり前になると思います。例えば、主婦の方などが「Dabel」ですごく表現しているのには可能性を感じていますね。彼女たちのエネルギーはすごい。

「声」だと化粧もオシャレも必要ないですし、女性は相手の声のニュアンスを汲み取って、どういう受け答えをすべきかのセンスに優れている。女性パワーが秘める可能性は無限大だと思います。「Dabel」と「Clubhouse」のおもしろい点は、ラジオと電話の間にあるということなんです。

西村なるほど。配信する電話なんですね。

井口さんはい。それを許容し、且つ楽しんでくれる人がいるということは、つまり、ユーチューバーのように視聴者が何万人も居なくてもいいんですよ。数人で十分に楽しい。”配信できる電話”だと考えると、フィット感があるんじゃないでしょうか。

遠距離で愛情を確かめ合うのに視覚情報は不要？

西村視覚情報から音声情報に焦点を切り替えた瞬間はいつだったんですか？というのも、井口さんは元々は「セカイカメラ」を発案されて、それはどちらかというと視覚ですよね。

井口さん「セカイカメラ」をやっているときも、実はウェアラブルデバイスの研究はしていたんです。要するに「Google Glass（ヘッドマウントディスプレイ方式の拡張現実ウェアラブルコンピュータ）」のようなものを既につくっていたんです。

井口さんが発案したiPhone、Android上で動作する拡張現実ソフトウェア「セカイカメラ」

「セカイカメラ」の会社の代表を退任した後に、「テレパシー」という会社を始めたんですが、そこでも機器メーカーと協業してウェアラブルデバイスの研究を進めていました。ですが、最後の最後につくったデバイスは、カメラもディスプレイもないものだったんです。

つまり、遠隔地でお互いの感情を共有するためのウェアラブルデバイスつくろうと思い、最初はもちろんカメラとディスプレイに一番力を入れていたんですが、遠距離でお互いの愛情を確かめ合うのに視覚情報は不要だと気づいたのです。なので僕からすると、音声にいったのは自然な流れでした。

あえて理屈で考えて、視覚を捨てて音声にいったというよりは、リモートでお互いの感情を共感・共有するためのデバイスを一生懸命つくっているうちに視覚がいらなくなったんですよね。

西村今「Zoom」でカメラONにしているのが不思議に思えてきました（笑）。

井口さん「Dabel」で交流していると、いらなくなります。

西村視覚情報がなくても分かるようになってくるわけですね。

井口さんむしろ、そっちのほうが深く、より理解分かり合えるという面がすごくあるんです。表情や外観、背景などに気を取られないので。

西村しかも、喋る側もそこにとらわれずに済みますしね。「今日はどういう感じで映ろうかな」などがないわけですよね。

井口さんはい、視覚がないと環境や状況に敏感になりますからね。「なんか飲んでるな」とか「周りにこういう人がいるな」などに意識が向かうので、いろんなことが分かるんです。

音声のインターネットがもたらすフラットな世界

西村すごく興味深いですね。以前、視覚障害がある方がどういう風に世界認識をしているかのインタビューで、「東京を上空から触れるように認識している」と聞いたことがあります。

写真：井口さんより提供（京都・哲学の道にて）

つまり、頭の中に東京があって、東京を上から触れられるんですね。飛翔にリアルに3Dを思い描けて、そこに自分が身体（しんたい）としてアクセスできるのかと印象的だったんですが、「Dabel」の話と少し似てるなと思いました。

井口さん実際に、「Dabel」の利用者の2割は、ブラインド及び視覚障害をお持ちの方なんです。

西村なるほど。僕らがコロナのパンデミックを経る以前から彼らは外出もハードルが高かったし、外出せずに誰かと知り合って、仲良くなることを心から求めていたわけですよね。音声のメディアにおいては、彼らのほうが先輩でありパイオニアなんですね。

井口さんはい。「Dabel」は半年間ユーザーが0だったんですが、ブラインドの方が半年後に気付いて使い始めてくれたんですよ。そこから全米に広がって行きました。

西村フラットな世界がそこにある、というのがすごくいいですね。視覚情報に関係ないというひとつのフラットをつくったわけですもんね。それはとてもカッコいいことだと思います。つまり、見た目もどんな背景を背負っているかもすべてフラットになるわけですよね。

井口さんはい。ファッションやルックスには、センスの良し悪しはもちろんのこと、社会的立場や貧富の差が表れてしまいます。それは悪いとは言い切れないし、ひとつの大きなヒントにもなるけれど、それがなくなったらどうかということを実際に試せる。

西村おもしろいですね。喋り方と喋っている内容だけで勝負するんですもんね。

井口さんずるさや卑怯さ、弱ってる感じ、勇気を奮っている感じ、真面目な感じなどのいろんなニュアンスが声には如実に表れますからね。就職面談や恋活などにも適していると思います。

西村今は治りましたが、僕は元々、ほとんど聞こえないくらいの難聴だったんです。喋っている内容ではない部分で大半を補っていたので、僕にとって見えないというのはすごく恐怖なんだけれど、イヤホンがあれば音の強弱を補正できるから大丈夫なんですね。

リアルな場だと、「もっと大きく喋って」などはなかなか言えないので、一生懸命こっちが近づくしかない。なので、手元に耳があるっていうのはすごく楽だなと感じています。

絶望の淵で気づいた「誰かと喋りたい」という思い

西村先ほど、少し伺いましたが、井口さんが「Dabel」を始めるに至った背景をより詳しく聞かせてもらってもいいですか？

井口さん僕は、「セカイカメラ」を扱っていた会社のCEOを2011年に辞め、その後「テレパシー」という新たな会社のCEOとなり、2014年に退任しているんですね。CEOを辞めるのは、ダークサイドに堕ちがちというか、人間性をかなり棄損するんですね。もう起業家を辞めようかと落ち込んで、半年ほどはサンフランシスコの自宅から出れなかったんです。

写真：井口さんより提供（サンフランシスコの風景）

そのときに、「こんなにへこんで世の中と接点を持てない人間ですら、誰かとお喋りができたら最高に嬉しいな」とふと閃いて、友達や彼女、家族ではなくて、「誰かと喋れればそれでいいんだ」と気づいたんですよ。

家族や仕事仲間、親友、恋人には相談しにくいことってありますよね。例えば、心配されすぎてしまうから、日々「死にたい」などは言えない。特に、仕事仲間などだと信用を失ったりするし、彼女や友人、家族にしたって付き合うにも限度があるじゃないですか。深夜2時に毎日「死にたい」とか言われたら困りますよね。

西村うん。確かに。

井口さんだから、誰かと喋れればそれで良いんだ、むしろそのほうが良いんだという思いに至ったんです。そこからプロトタイプをつくり始めたんですが、「井口さん、スカイプがありますよね」と当時は誰も取り合ってくれませんでした。

先ほど説明したような、「オープンに共有可能な雑談でもいいカジュアルな会話が普遍的に広がるといいな」というパッションやコンセプトがまったく世の中に伝えられなかったんです。でもインターネットでソーシャルな情報を誰もがやり取りするようになるのにも、やっぱり10年ぐらいかかっている。

そして、僕は音声のみを考えているわけじゃなくて、音声を通じた世界人類共通のソーシャルネットワークをつくろうということを自身のミッションにしているので、音声のメディアやテクノロジーそのものフォーカスをしているわけではないんです。

なぜなら、人間誰しもが声を通じて喋れる。人間の処理能力の中で、おそらくそれが一番早い。書くとなると時間がかかるじゃないですか。「Dabel」をやっていると、「もう書けないな」ってなると思いますよ（笑）。

「なぜSNSが台頭したのか」にヒントが

井口さんコロナ後、特にみなさんも感じたと思うんですが、遠隔でリアルに人の息吹きや息遣いを感じながら触れられるという体験はすごく大事ですよね。「Zoom」や「Teams」はビジュアルがあるだけじゃなく、アジェンダや時間設定があって、決まった時間に真面目な話を大人が顔を突き合わせてやるわけじゃないですか。

写真：iStock

それだけだと、やっぱり人間は息がつまるし楽しくないんですよ。だらだらと無駄話やダメな話をしたいんですよ。電話での固有の関係はもちろんアリですが、人が入れる電話は風通しがいい。そして、聞いてくれている人がいるのも楽しいですしね。

クローズドでの内輪の電話がなくなることはないと思いますが、それより広まる可能性があると思っています。なぜなら、Eメールや掲示板よりもソーシャルネットワークがより大きいメディアになりましたよね。それと同じことが起こるんじゃないかと思っています。

西村お話を伺っていて、知人の研究者の方たちと「Dabel」をやったらめちゃくちゃ楽しいだろうなと思いました。記事用の真面目なインタビューももちろんいいんですけど、そういう研究者たちは、話があちらこちらに飛ぶんですよ。でも、そのほうがおもしろいんですね。

インタビューは時間が決まっているけれど、「Dabel」はそうじゃないですもんね。入りたかったら入って、抜けたかったら抜けていいと。

さらに、研究者は研究所のある場所や、大学に紐づいて転勤できなくなっているので、日本の場合は一箇所に研究者が集まるということがシステム上、起こらないんです。

そうしたときに、やっぱり北大と京大と東大とかで喋りたいんですよ。どうでもいい話を。これがめちゃくちゃ楽しいのはもう分かる。加えて、準備が不要だというのが最高に響きました。

井口さん準備している段階で最初のパッションが落ちてしまったりするので、それは勿体ないですよね。

西村本当にその通り。準備がいらなければ、すごくスムーズになりますね。

シングルタスクのコンピュータ

西村最後に、世の中のここさえ変わってくれたらもっとおもしろくなるのに、ここが突破できれば絶対もっとおもしろくなるのにという、消えて欲しい壁は何かありますか？

井口さんそうですね。米国での「Dabel」の使い方を見ていると、明らかに日本の使い方と異なります。日本の場合は、話の聞き手と喋り手がどうしても分かれてしまうんですね。壇上に登って喋っている人と、それを聞いている人という構図がなかなか壊れない。

米国での会話は、一応、物理的にはホストはいるんだけれど、あまり関係なくて、誰もが双方向に同じフラットなステージで話しているんですね。そして最近、さらにおもしろいことが起こっていて、なんと、そのフラットな会話の中にアレクサが入ってきているんですよ。

写真：iStock

西村それはめちゃくちゃおもしろいですね（笑）。

井口さん間が空いたり、ちょっと疑問に感じたらアレクサに聞いて、アレクサに何か言ってもらうというのが普通なってきている。先日、ベイエリアで話題になった「GPT-3（イーロン・マスクが設立したOpenAIが開発している言語モデルの最新版）」というのがあるんですが、これは、既存類似製品の100倍能力が高いと言われています。

例えば、仕様案を簡単なメモで渡すとすぐにWebをつくってくれたり、自分のシチュエーションを簡単に述べるとプレゼン資料をあっという間につくってくれたり、といったことが可能だそうで、業界が震撼しているんですね。

その「GPT-3」の進化版のようなものが、「Dabel」あるいは「Clubhouse」の中に話者として入ってくるのではないかと僕は思っています。そこに、非常に可能性を感じるんですよ。

西村それ同士が会話をし始めるわけですね。

井口さんそういうことです。人間、および複数のAIが一緒に会話の輪に入ってくる状態が起こり得ると思うんです。そのすごさは何かと言うと、僕らはなんだかんだ言って、ノイマン型のコンピュータ（プログラムをデータとして記憶装置に格納し、これを順番に読み込んで実行するコンピュータ）と、第二次大戦以降、70年以上も付き合っていますよね。

その上で、僕らがまだ突破できていない大きなパラダイムは、コンピュータは基本的にシングルタスクだということです。例えば、ウィンドウやアプリやディスプレイを切り替えても、それは疑似的なマルチタスクに過ぎないんですよ。

西村そうですね。ちょっと置いておいてこっちをやる、といった感じですもんね。

井口さんはい。MacBookの前にiPhoneXをおいて、隣にiPhone7があって、iPadも自宅に置いて、のように何台あっても、結局、あるディスプレイに対してある入力あるいは出力をしているのは、1部分でしかないので、構造的にはシングルタスクなんです。

「GPT-3」や「Dabel」のようなものが当たり前になると、パーマンのコピーロボットが夢じゃなくなると思うんです。ロボットに何かお願いをすると、勝手に出かけて行って、勝手に解決をして、勝手に帰ってくるといったことが可能になると思っています。

西村それはめちゃくちゃおもしろいですね。自分がホストをやりながら、途中からアレクサを置いて逃げるといったことができるわけですよね（笑）。

井口さんそういうことです。西村さんが夜、眠いから疲れたから寝たいというときに、北大と京大と東大の研究者の間のモデレーションを西村さんの分身が勝手にやっているという状態です（笑）。それが現実に、5年くらいで起こり得ると思います。

人間とAIとの壁を突き動かすような、音声ソーシャルネットワークにおける音声AIの可能性に、僕はすごく注目していますし、楽しみです。

西村先日、お茶の家元の方にお会いしに行ったんですが、その方が会話の受け手がものすごく上手いんです。だから、僕がインタビューをしに行っているんだけど、向こうが聞き上手なのでこっちがたくさん喋るんですね。そういう、受け手として強力な能力を持つ人をコピーロボットのように入れていければすごくいいですよね。

井口さんコンテンツモデレーションが会話の中に入ってくると、世の中は随分スムーズになると思うんです。モデレーションは人間の重要な役割だし、現状のAIではなかなかできないんだけれど、音声インターネットと音声AIが進化すると、そういったことが可能になると思います。

西村それはすごく平和な社会になります。

音声インターネットとAIがもたらす平和な社会

井口さんそうですね。お互いのさまざまな欲求や問題点を解決するようなモデレート音声AIが会話の中に入ってくると、世の中はずいぶん平和になると思います。

西村僕はもともと心理学を専攻していたんですね。なので、カウンセリングのトレーニングを受けているのですが、カウンセラーというのはただ聞くだけではなく実は変容を生み出すことが求められています。その場を変化させていかないといけない。でも、アドバイスをしたり直接的に事象に入っていくわけではない。いかに自分を出さずに良い方への変化を生み出すか。でも、ほとんどの人は会話の中に自分を出したい。そこに大きな課題があると感じます。

井口さん僕も自分を出し過ぎて、常に問題を引き起こしています（笑）。傾聴力がいかに大事かを、「Dabel」を通じて再認識しています。話す能力は皆がもっているけれど、聞く能力は意外と皆もっていないですからね。聞くに徹するのは非常に難しい。

西村そうですね。トータルの会話のことを考えると、黙っておいたほうがいい瞬間があるんだけれど、知っているから言いたい、ということもたくさんありますからね（笑）。

井口さんありますね。「言わぬが花」なのに（笑）。

西村そういうことが「Dabel」のデータから見えてくると、さらにおもしろいですよね。

井口さん「GPT-3」のようなものは使途が無限大です。例えば、音声データをテキスト化したものを元に、どういうタイミングでどういうキーワードが出て、どういう風にお互いが理解したかが可視化される可能性がある。

西村なるほど。カウンセリングの方法論には、ミラーリング（相手が言ったことをもう一度言う）やチャンクアップ（相手が言ったことを抽象化して返す）などがあるのですが、それらによって「そうだよね」となり、会話が次に進んでいくんですね。

無言で止まっていると、「分かってくれているのかな…」と不安になって、もう1度同じことを話し始めてしまう。なので、きちんと区切って次に行くのがすごく大事なんですが、それはAIで簡単に実現できる気がします。

井口さんいいですね。

西村それが可能になったら、確実に良い世界が待っている気がします。

「無駄」こそが生み出すもの

西村今日お話を伺っていたら、例えば、オペラや歌舞伎、映画を観に行った後の時間などにも最適ですね。観てる時間よりも鑑賞後の時間がすごく重要じゃないですか。だから社交場が生まれる。

写真：井口さんより提供（京都にて）

そういった場で混ざるから新しいつながりも生まれる。今はそのような場がなくなってきているから、社会として少し弱っていると思うんですね。つまり、無駄な、ぐちゃぐちゃに混ざる時間をなくして、スッキリしたコミュニケーションばかりとっているので。

井口さんそうですね。ノイズが無くなっていますよね。世界規模でサロンやバー、スナックのようなものが誰とでもできる社会が目の前にあるのに、社会がどんどん分断してクラスター化しているのは非常に残念です。

西村例えば、今週の『キングダム』の話とか絶対に喋りたいんだけれど、木曜の深夜0時に読むから語りかける先がないので、3回くらい読んで自分の中で反復して完了するみたいなことしていますからね（笑）。元になるネタとセットでやったら絶対盛り上がりますよね。

井口さんはい、そして時差があるのが意外にいいんです。そのほうがサポーティブに回せるので。

みんな同じ時間軸だと、深夜はみんな深夜なので、なかなか話し相手が見つかりづらいですが、お互いに時差があるほうが便利なことも結構あります。ロンドンと日本（時差8時間）は意外とよかったですね。言語が違うと、その間をつないでくれる人がいたりして、それもおもしろいですよ。

西村なるほど。

井口さん僕らは、電話とラジオという従来の習慣に慣れ親しんだ結果、「声のインターネット」が一体どういうものであるかの想像力を欠いていました。僕は「Dabel」を通じてそれを実現していきたいです。

この記事は、ミラツクが運営するメンバーシップ「ROOM」によって取材・制作されています。http://room.emerging-future.org/

（執筆後記）

精神的に疲弊して、半年間自宅から出られなくなったという井口さん。「本当に言いたいことは親密な人にはなかなか伝えられない」ということを伺い、確かにそうかもしれないなぁと考えてしまいました。コロナによる経済打撃や外出回避によって心に負荷がかかる現状で、「誰かと喋れたら救われる」ことは多々あると思います。

そして、リスナー数や格式ばったトーク内容などは気にせず、はなからグダグダOKの雑談ってすごく楽しそうだし魅力的！「時差があるほうがサポーティブ」という井口さんの思いも素敵だなと感じました。

「音声の拡張というよりも、コミュニケーションの拡張」を目指している「Dabel」。うれしいとき、悲しいとき、楽しいとき、淋しいとき、私たちは人恋しくなる気持ちからはなかなか逃れられません。人恋しくなったら、聞いてくれる、喋ってくれる、息吹きを感じさせてくれる誰かがそこにいる。それだけで、世界はきっと良くなる。お話を伺いながら、強く共感したインタビューでした。

次回は、「インテグリカルチャー」の川島一公さんに、細胞培養社会の未来について伺います。1家庭ごとに培養肉を自宅でつくれるように？細胞培養の先には「においを発する家電」なども？こちらも想像もつかないような未来を伺うことができた胸高鳴る内容でしたので、どうぞお楽しみに！

一覧へ

代麻理子ライター

慶應義塾大学法学部法律学科卒業。渉外法律事務所秘書、専業主婦を経てライターに。心を動かされる読みものが好き！な思いが高じてライターに。現在は、NewsPicksにてインタビューライティングを行なっている他、講談社webメディア「ミモレ」でのコミュニティマネージャー/SNSディレクターを務める。プライベートでは9、7、5歳3児の母。