GoogleApiKit
PCに於けるGoogle音声認識の利用の一環ですが、これは開発者向けです。
本Kitは、GoogleAPIKitはGoogleのWebAPIWindowsで簡単に実現するためのdll集です。
Com型のdllですので、従来のVC,VBやBCB,Delphi、.NETでも使うことができます。
2014.05:Google音声認識APIでV1が打ち切られたためV2に変更。
■ダウンロード(Ver0.14)
GoogleApiKit(Zip版ダウンロード)
1.概要
GoogleAPIをアプリから簡単に使うためのdllのセットです。
2.特徴
Googleとは、どれも文字列やファイルで通信しますが、dllによって煩雑なコードを書かなくても数行の記述で使用できるようになっています。
現在は次の4種があります。
1)検索
GoogleSearch.dll
2)音声認識
SpeechDialog.dll
3)予測変換
GoogleSuggest.dll
4)音声合成
GoogleTTS.dll
(TTSは認証が必要になったため現状は動作しません。表示画像のコードが必要になりました。理由は以下のようです。)
お使いのコンピュータ ネットワークから通常と異なるトラフィックが検出されました。
このページは、リクエストがロボットではなく実際のユーザーによって送信されたことを確かめるものです。
3.使い方
それぞれのフォルダの説明書を読んでください。
4.サンプル
C#.net,BCB,Delphiのサンプルを同梱しています。(実行ファイルもあります)
5.ライセンスなど
同梱の中に次のものが含まれています。
2)音声認識
SpeechDialog.dll
・flac.exe
これは
http://flac.sourceforge.net/
で公開されているコマンドラインソフトです。
改変はしていませんが、BSDライセンスになります。
「再配布する際に著作権表示を行うことのみを条件とする」
ためここに表記いたします。
4)音声合成
GoogleTTS.dll
cmdmp3.exe
これはjimlawlessのオープンソースのものですが、特にライセンスの規定記述はありま
せんでした。
改版はしていませんが再配布になりますので著作権表示しておきます。
といたします。
6.その他
■本Kitについて
基本的にはFreeWareで組み込みの場合の再配布も自由です。
ライセンスはBSD相当として
「再配布する際に著作権表示を行うことのみを条件とする」
といたします。
尚、商用に組み込みも可能ですが、その場合はご連絡いただけるようお願いいたします。
【独り言】
SpeechDialog.dllはflac.exeを呼ぶものですが、IEなどに組み込む場合はdllにしないとIE9では通用しないようです。
ただここではアプリ開発用として公開します。
flacのdll化は後日チャレンジしてみます。
初めまして斉藤とも申します。
Google音声認識API-V2の使用方法でご教授願います。
v2の場合、keyをGoogleより取得してアプリ毎の設定が必要でしょうか?
斉藤様
v2のkeyですが、dllに埋め込んでいますのでアプリ単位の設定は不要です。
ただv2になってからですが、1日50回制限というのがあるようなことが書いてありました。多分IPが異なればIP単位で1日50回ということではないかと思います。
50回制限は試していないのですいません。超えたら認識エラーが返るのかもしれません。
よろしくお願いいたします。
山崎様、ご教授有難うございます。keyをgoogleから取得して設定するという事でね。一日50回の制限があるとしたらちっときついですね。私は、ロボットに組み込んでいるので20~30秒間隔でこのAPIを使用しているので。
斉藤様
ロボット、凄いですね。音声で動くんですね。
APIですが
http://mikepultz.com/2013/07/google-speech-api-full-duplex-php-version/
のようにSpeechAPIに50回制限の表示が出ます。
(実際にどうなるのか?は未検証ですが)
またSpeechAPIの項目を表示するには
http://www.chromium.org/developers/how-tos/api-keys
のようにchromium.orgに参加しないと表示されません。
APIKeyを複数切り替えたり、料金を支払うなどの手法があるのかもしれませんが、すいませんが、そこまでは調べてありません。
GoogleのSpeechAPIを使った製品でボイステクノさんのVoiceRepがあります。
どうされるのかな?と思ってみると...
http://www.voicetechno.jp/support_voicerep.html
にありました。
APIのV1が閉鎖されたのが原因だと思うのですが、そこの説明はともかくCherome経由でとるとできるような記述があります。
どうせインターネット経由ですのでWebSpeechAPIでやっているのではないかと思います。
例えば
http://tips.hecomi.com/entry/20130121/1358790987
のような感じです。
これだとAPIキーもないし制限がないのかもしれません。
よろしくお願いいたします。
山崎様、詳細な調査有難うございます。
Chrome経由の方法でチャレンジしてみます。
山崎様
斉藤です。
Chrome経由での音声認識を行う事ができました。
WEB画面からの音声認識なのでタブレットで音声遠隔操作する感じです。
あと、NICT(独立行政法人-情報通信研究機構)の音声認識APIサービス(rosppex)を
試してみました。インターフェース的に使用しやすいのですがgoogleの音声認識に
比べると見劣りするのとアルファベットや年/月/日が全角(日本語)に変化される
ので年月日で 二千十年一月十一日 になります。googleでは 2010年1月11日 です。
斉藤様
ご連絡ありがとうございます。
> Chrome経由での音声認識を行う事ができました。
すごいですね。
実はちょっと方法を思いつかなかったのですが、VoiceRepを見ると
・HTML5でサーバに音声認識のページをおいておく
多分...
https://sec.alpha-mail.jp/voicetechno.jp/voicechromesr.html
・Cheromeでアクセスさせる
・ここら想像ですが、結果をクリップボードで受け取る
みたいな印象ですね。
Cheromeのクリップボード処理も面倒そうですが。
JavaScriptかzClipあたりなんですかね?
API V2でもuseragentをCheromeにしたぐらいではできないっぽいです。(APIを使うからだと思いますが。)
斉藤様はどのようになれたのでしょうか?
山崎様
斉藤です。
> HTML5でサーバに音声認識のページをおいておく
この方法です。
音声認識された文字列をWEBサーバ(ロボット内)に通知してロボットの音声認識プロセスに
UDP経由で通知しています。
詳しくは、以下のホームページの3-2.音声認識 (5)WEB画面+Chrome経由での音声認識 の
項目に記載しました。
http://www.geocities.jp/wtoysaito/robot/index.html
斉藤様
貴重な情報ありがとうございます。m(__)m
UDPでしたか...。
サーバーも必要ですが、確かにクリップボードよりはスマートですね。(^^)
rosppexも拝見しました。認識率がよければAPIはいいですね。
Googleが方針転換してくれるといいのですが...。