本気の音声認識、「声de入力」のこだわり Interview: (1/2 ページ)

» 2006年02月08日 12時55分 公開
[神尾寿,ITmedia]

 auの春商戦向けモデルは、新機能・新サービスが目白押し。その中でコンシューマーユーザーの注目を大きく集めているのが、総合音楽サービス「LISMO」だが(1月19日の記事参照)、一方で先行して発表された「声de入力」(1月12日の記事参照)にも全機種が対応している。先進的なUIへの取り組み、さらに歩行者ナビゲーションへの取り組みという点でも注目である。

 そこで本日の時事日想は特別編として、KDDI au商品企画本部モバイルサービス部サービスグループ課長の幡容子氏、同コンテンツメディア事業本部コンテンツ推進部パートナーズビジネスグループ課長補佐の小林大介氏、同コンテンツメディア事業本部コンテンツ推進部パートナーズビジネスグループリーダー課長補佐の江幡智広氏の3名にインタビュー。「声de入力」と「EZナビウォーク」にフォーカスしていきたい。

au商品企画本部モバイルサービス部サービスグループの幡容子氏(左)、同コンテンツメディア事業本部コンテンツ推進部パートナーズビジネスグループの小林大介氏(中)、同コンテンツメディア事業本部コンテンツ推進部パートナーズビジネスグループの江幡智広氏(右)

リピート利用率が高いEZナビウォーク

 今回、「声de入力」が初めて導入されたEZナビウォーク(2003年10月6日の記事参照)は、音楽と並ぶauの特徴的なサービスである。auは他社に先駆けGPS機能の標準搭載化を進めてきたが、2003年10月、歩行者ナビゲーションサービスを本格投入。すでに2年以上の実績を持つ。

 「(サービス開始から1年半の)2005年8月時点でEZナビウォークの有料会員数は50万契約を突破しました。その後も毎月の契約者数は順調に伸びてきており、数十万の上積みをしています。EZ助手席ナビも予想以上に好調です。また、(EZナビウォークのサービスは)コンテンツとしての解約率が非常に低いのも特徴ですね。1回契約していただくと、長く使っていただけるサービスになっている」(江幡氏)

 EZナビウォークの利用ユーザー層は20代後半から30代が中心。auは若年層の支持が厚く、着うたフルなどは実際の利用ユーザーの中心が10代から20代が多いが、EZナビウォークはそれと比べるとやや大人向けのコンテンツだ。

 「auのコンテンツとして見ると、軸足は確かに『音楽』にあるのですが、(EZナビウォークは)他社にできないサービスを多くのお客様に提供している。着うたフルとは対象ユーザー層が補完的ということもあり、MNP向けに他社と差別化を図るサービスとしてはいい形ができていると思っています」(江幡氏)

声de入力はなぜ導入されたか

 このように堅調な成長を続けているEZナビウォークに、なぜ声de入力が導入されたか。この点について幡氏は、「そもそも(声de入力は)ナビウォークにいれるために開発されたものではなかった」と語る。

 「KDDIは以前から音声認識技術の開発に力を注いでおり、その中で(分散型音声認識の)『声de入力』が実用化した。この機能をどのように普及させていくかという段階で、そのファーストサービスとして選んだのがEZナビウォークです。では、なぜEZナビウォークなのかというと、声de入力は(辞書)マッチング型の認識エンジンでして、入力されるフレーズが有限でないと利用できない。この点で地名や住所というのは相性のいい用途でした」(幡氏)

 ここで簡単におさらいをすると、声de入力は人間が発する言葉をそのまま認識するものではない。携帯電話側で話したフレーズの特徴をパラメーターとして抽出し、データ通信としてサーバーに伝送。サーバー側であらかじめ登録されている辞書データとパラメーターのマッチングをして認識をする(1月12日の記事参照)。これにより少ない伝送量と素早い時間での認識を実現しているが、裏を返せば「辞書にパラメーターが登録されていないフレーズは認識できない」のである。

 EZナビウォークで入力されるキーワードは、住所や地名、駅名、電話番号など、そのフレーズは決まっている。また、「地名や駅名は追加や改変される頻度が少ない」(小林氏)という事もあり、声de入力の辞書メンテナンスの上でも有利だったという。

 「(EZナビウォーク側から見ても)以前からテンキーからのキーワード入力が難しい、面倒だという声がありました。声de入力があるから契約者数がさらに増大するという事はないかもしれませんが、今のお客様の利用満足度を高めるためにも導入しようという話になりました」(小林氏)

 EZナビウォークが「音声入力」を検討したのはこれが初めてではないという。以前は分散処理型ではなく、認識サーバーに電話をかける「音声通話型」を検討していた。だが、こちらは「ユーザーの操作性という点でメリットが少ないという議論で見送った」(江幡氏)という。分散処理型音声認識という実用に耐える技術が生まれて、それがサービス側でのユーザーの利便性向上になるという見込みができて初めて導入が決まったのだ。

 「音声認識技術は商用化での失敗も数多くあり、もう後がないという気持ちはありました。今回は絶対に成功させたい。ですから、認識率の高さが見込めて、ユーザーが利便性を実感しやすいEZナビウォークを選びました」(幡氏)

ユーザビリティがダメなら出さない

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.