わたしは今、苦戦を強いられている。どんな苦戦かというと、いかに音声のみで生成AIを起動させるかという、できそうでできない試みに挑んでいるのである。
我が父は全盲ゆえに、視覚による作業や認識はまったくできない。そのため、物理的に手を使っての作業(点字の本を読むなど)か、音声により耳から情報を収集するかのいずれかとなる。
にもかかわらず、この世で起きる様々なこと——その中でも、ニッチでどうでもいいようなことに興味を示すため、質問を受けたわたしがまずは調べてから口頭で伝える・・という「人間AIシステム」を、はるか昔から導入していたわけだ。
そんな「人間AI」も大学を機に傍から消えたため、調べものに苦労していたであろう父へ”ChatGPTでの音声会話”を促してみたところ・・予想以上に気に入ってくれたのだ。
——おっと、その前に一つ補足情報として、全盲の父はスマホを所持している。こちらもわたしが買い与えたものなのだが、今時のスマホとは違って折りたたみ式で、パカッと開くと上部にパネル下部に物理ボタンという、今は亡きガラケースタイルのスマホ。
そのレトロなスマホこと「ガラホ」へChatGPTをダウンロードし、音声アイコンをタップしたら・・いよいよAIとの会話がスタートだ。
ChatGPTの素晴らしいところは、会話がじつに自然でスムーズであること。声質も去ることながら、ちょっとした相槌や間の取り方がニンゲンそのもの。さらに、外国語も自由に選択できることから、英語を使う機会がめっきり減った父にとって、この上ない話し相手となったのである。
ところが、一つだけ困ることが発覚した。それは、ChatGPTを起動させるためには”ガラホの画面をタップしなければならない”という、視覚的な作業を要することだった。
そこでわたしは、キーボードなどに貼るマーキングシールを購入し、それをガラホのパネルにあるChatGPTアイコンに貼ることで、どうにか起動させる手段を思いついた。
だがこれは、自身で挑戦してみると分かるが「目を閉じた状態で画面に触れることなく、ダイレクトにマーキングシールへ指を伸ばすことは不可能」ということが分かった。どうしてもその手前で、別のアイコンに触れてしまったり、画面にタッチすることで表示が変わってしまったりと、フラットなパネルならではの落とし穴があるのだ。
そこでわたしは考えた。滅多に使わない脳みそをフル回転させて考えた。そしてついに思いついたのだ——バックグラウンドでも通話可能にすればいいんじゃないか?と。
実際に「バックグラウンドでの会話」をオンにすると、ガラホを閉じていてもChatGPTと会話をすることができる。これは便利だ!と大喜びで話し続けたのもつかの間、しばらくすると不測の事態に見舞われた。それは、後ろで流れるラジオの声に反応したり母の声に反応したりと、あらゆる音声を拾って勝手に会話をしてしまうことだった。
耳から情報を得るしかない父にとって、社会情勢や株式市場、将棋、競馬といった自身の関心があるニュースを、常にラジオを流すことでキャッチしているため、我が家は四六時中なんらかの音が鳴り響いている。そんな騒がしい我が家において、ChatGPTは一人せっせと会話を続けるのであった。
(さすがにこれでは使い勝手が悪いし、充電の減りも著しい・・ほかに方法はないものだろうか)
再度、無い知恵を絞り代替案を模索したわたしは、とあるやり方を思いついた。それは「オッケー、グーグル」で起動させるのはどうだろうか・・という方法だ。
「OK,Google」すなわちGoogleアシスタントは、ハンズフリーでデバイスへ指示を出したり操作をしたりできる機能のこと。よって、Googleアシスタントを設定すれば、音声のみでアプリを起動できる。これならば、必要な時だけChatGPTを呼び起こすことが可能なんじゃ——。
こうしてGoogleアシスタントの設定を終えたわたしは、音声のみでChatGPTを開くことに成功した。ところが、肝心の音声会話機能について、最終的に画面をタップしなければ起動しないことが発覚したのである。
その後も、どうにかして音声のみで音声会話へ繋げないものかと試行錯誤するも、やはり「音声アイコンをタップする」という物理的な作業が必要となることが分かった。
(アプリを立ち上げられても、その先で音声が使えないんじゃ意味ないじゃん・・)
ちなみに、ChatGPTだけでなくGeminiでも同様の方法で試してみたが、こちらも同じく音声対話機能を使うには「Liveアイコン」をタップする必要があり、ここだけは画面に触れなければならないわけだ。
いたしかたなく、ChatGPTの音声アイコンやGeminiのLiveアイコンがある場所へマーキングシールを貼ってはみたが、うまくタップできないとその先へ進めないことや、誤ってスワイプしてしまうと別の画面になってしまうなど、「タップした後がどうなっているのか、目を閉じていては分からない」という壁にぶつかった。
もしも、父が指定の場所をタップしたにもかかわらず会話が始まらなかった場合、「あれ、反応していないのかな?」と連続でタップする可能性がある。すると、結果として思いもよらぬ状態となり、会話どころの話ではなくなるわけで——。
*
この最終関門ともいえる「音声会話をスタートさせる」という部分について、こちらも音声のみで発動させることができれば、全盲かつ高齢の父でも手軽にスマホを扱うことができるようになる。
果たして、テクノロジーの進歩と父の寿命と、どちらが先に来るのだろうか——願わくば「前者であってほしい」と、密かに期待するのであった。
コメントを残す