スピーカーの向こうの合成音声 - ペンとサイコロ -pen and dice- BLOG

AppleはSiriで音声認識を発達させ、日本では初音ミクが合成音声で歌う。
初音ミクで喋らせたら、Seriはちゃんと認識するのかな。

siri / Sean MacEntee
なんか「ほこ×たて」みたいだけど。

音声認識と合成音声は何を目指すのか

Siriは使ったことが無いが、Google音声検索をメール入力に使っているので
音声認識技術も結構使えるレベルになっているのは知っている。

Google voice search - Working / Randy Stewart
（フリックで入力するより、音声で認識させて変換結果だけを選択する方が早い）
合成音声の方も、現在は自然に歌う・話すのには細かなチューニングが必要だが、
自然文をキレイに話す日はそんな遠くないだろう。
こうなってくると、音声認識や合成音声は次のレベルを目指すだろう。

まずは自動翻訳

まずこの複合音声認識の目指すのは「自動翻訳」。これは世界中で研究されているし、
Google音声検索をそのまま翻訳にぶっこめばいいので、今でもそれなりに使えることは想像が付く。
あとはこれを合成音声に喋らせるだけだ。

Translator / xmacex
(↑現在の翻訳ブース)

今の合成音声は特定の人の声をサンプリングして合成できるので、
「自分の声で喋らせる」ことも可能になる。
つまり海外の人と電話で話すと、あたかも自分がその言葉を喋れるように振る舞えるわけだ。
で、いざ会ったら喋れないと。
う〜ん、これはちょっと恥ずかしいかも。
まぁ、実際そうなりゃ目の前で電話することになるんだろうね。
とりあえずこの辺までは想像の範疇で、何年かすりゃできると思う。

「良い声」にする

で、本当に音声認識と合成音声が普及して「当たり前の技術」になったらどうなるか。
例えば、「電話で自分の声を合成音声に変換する」なんていう技術が出てくる気がする。
「わざわざ自分の声をなんで合成音声にするの？」
というと、わかりやすい例だと「聞きやすい音に変換する」ということ。

（↑大阪で「ええ声」というとこの人）
雑踏の中で電話する際に、話している内容を合成音声として出力する。
今でもノイズ除去はあるが、一から合成音声を作ればノイズはゼロになる。
ちなみに、逆に合成音声にノイズを合成すれば、ある場所で話しているような「アリバイ電話」も可能。
実際に雑踏や空港の音をバックグラウンドで流す「アリバイ電話ボックス」というサービスがあるけど、それのソフト版。
これはこれで推理小説のネタとしては面白そうだ。

もっと言えば、「自分の声を格好良くしたい」というのもあるだろう。
「自分の声は少し高めの方が格好良い」であったり、
「滑舌が悪いので聞き取りやすくしたい」とか、自分の声に不満のある人は
音声をチューニングするようになるかもしれない。
今は「声は変えられない物」だから、そういうニーズは表面化していないが、
いざ技術的に可能になれば細かいチューニングをして原型をとどめないような人も出るだろう。
それは写真を見ていればよく分かる。

purikura / twicepix
プリクラから携帯電話の写真やフォトショップによる加工まで、原形をとどめない修正を
行う人はたくさんいるが、その技術が無かった30年前、40年前に
「写真を改良できるならココを加工したい」なんて考える人は今より少なかったんじゃないだろうか。

「声」を信用できない時代

「あるある詐欺」で良く話題になるのは、「電話の声が違うのに気づかなかったの？」
という事だが、電話の声自体がそもそも信用できなくなる時代になるんだろうな、と思う。
自分の声をマイク−合成音声のシステムに繋ぎ、全ての声を合成音声にする人も出るだろう。
漫画、スケットダンスでは主人公の三人組の一人「スイッチ」が過去のトラウマから一切喋らず、
合成音声でのみ喋っているが、こういう時代が本当に来るのかもしれない。

（↑表紙は人物がその「スイッチ」）
感覚的には女性が「スッピンでは外に出られない」と同じ感覚かな。
自分の肉声が恥ずかしい、というような。

データ合成でどこまで行けるかだが、アナウンサーや声優も合成音声に置き換えられるかもしれない。
実際に文字放送を合成音声で読み上げるサービスはすでにある。
まぁ、声優なんかは芸術性も高いので難しいと思うけど。
むしろ声優には「音声データを販売する」という新しい仕事ができるだろう。
音声だって、化粧と同じで「オマエそれ詐欺だろ」クラスの変換を行ってしまう人が出るだろうし。

パソコンのおかげで漢字は読めても書けなくなった、というのは良く聞く話だが
言葉なんて喋らないと本当にすぐに劣化する。
自分が大学卒業旅行で単身イギリスをうろうろした時には、一ヶ月ほとんど喋らなかった。
（英語もカタコトなのでほとんど喋る相手がいない）
あの時は、日本に帰ってきてすぐに言葉が出なかったもんなぁ。
合成音声に頼ると、すぐに喋れなくなるんじゃないかと思ったり。
ネットゲームのチャットでは饒舌でも、コンビニに行ってとっさの一言が出ないってあるじゃないですか。
そういうことですよ。
（同意を求めても賛同者が少なそうな喩えですいません）

合成音声が開く市場

ということで合成音声はどんな市場を開くか。
まずはハードウェア。
手に持つ今の携帯電話の形じゃ無く、装着する形でマイクとスピーカーが必要になる。

Monk / Daniel Williams

そして音声データ。
音声認識と合成音声はどこかの会社が良いシステムを作ってみんながそれを使うんだろう。
でも、音声データはみんな独自だ。
自分の音声を使う人もいれば、上に挙げたようなプロの音声を買う人もいる。
ケータイの着メロの歴史を見ても、プロの音声を買えるようになれば遠からず
「買うのが当たり前」になっていくんじゃないかと思う。
これが普及すれば、少なく見て数十億、うまくいけば数百億市場があると思う。
（ちなみに着メロ、着うたは合計でピーク時1,400億以上の規模）

次に「ボット」。
音声認識と合成音声ができるなら、電話の応答は自動化できる。
これはコールセンターに多大なコストを払っている会社には大きなメリットになる。
こうなると、認識した文章を元に、自動で回答するプログラムが必要になる。
現在は様々な問い合わせに自動で回答できるシステムは存在しないが、
巨大企業の問い合わせのために、何億をかけてシステムが作られるだろう。
DeNAやGREEの次に来るネット企業は、合成音声回答プログラム会社、という可能性は十分にある。
電話の向こうにいるのは人間かボットか。
まさにチューリングテストそのものの時代といえる。
・リンク　→　チューリング・テスト - Wikipedia
たぶん市場規模はこれが一番大きい。

最後に「話し方教室」。
上にも挙げたとおり、人の話し方の劣化は「漢字を書けない」レベルじゃなく急速に進む。
合成音声に頼った上、その入力方法が「喋る」以外の人（キーボード入力など）の場合は、
シャレじゃなく喋れない状態になると思う。
もちろん喋ることは訓練すれば治るが、一人暮らしなどで、日常生活に喋る空間が少ない人もいるだろう。
だから、「話し方教室」は、小さいが確実な市場を作るんじゃないだろうか。
もちろん教室は物理的な物じゃなく、ネットでもいい。
合成音声で喋れなくなった話し相手が、チャットの先の合成音声、という笑えない世界があるのかもしれない。