当サイトにはアフィリエイト広告が含まれます。なおレビューは私の感想を書いており、内容を指示するご依頼はお断りしています

【音声認識】Google「Speech Recognition」とopenAI「whisper」の文字起こし精度を比較してみた

今回は、Googleの「SpeechRecognition」と、chatGPTでお馴染みのopenAIの「whisper」で、日本語音声の文字起こし精度や特徴を比較してみました٩( ´ω` )و

果たして、より優秀なのはどちらでしょう??

文字起こし結果を比較

  • [goo] Googleの「SpeechRecognition」
  • [whi] openAIの「whisper」

と記載して、それぞれ同じ音声で文字起こししてみました。

読みやすい句読点や高い精度が特徴のwhisper

[goo] 修理依頼ができるので楽しくてつい 夢中になっちゃって今日は早めに休むから大丈夫だそれじゃあ行ってきます

[whi] 問題が解けるのが楽しくて、つい夢中になっちゃって。今日は早めに休むから大丈夫。それじゃあ、行ってきます。

whisperの音声認識精度かなり高いですね。しかも、句読点があって読みやすいです。

[goo]勉強する前に少し 作業しようかな かなで 夕方までに行ってもあげるって言ってたし パソコンを作ったしてからパソコンが閉まってた場所が少し違う どうして

[whi]勉強する前に少し作業しようかな金出夕方までにデモをあげるって言ってたしパソコンを机から出して…あれ?パソコンをしまってた場所が少し違うどうして?

whisperは「…」「?」も対応していて、抑揚や行間の微妙なニュアンスまでわかるようです。これはすごいです(⊙_⊙)

音声が途切れても最後まで文字起こしするSpeechRecognition

[goo]修理依頼ができるので楽しくてつい 夢中になっちゃって今日は早めに休むから大丈夫だそれじゃあ行ってきます 私は言ってみたいの 音楽

[whi]あ、そうだね。問題が解けるのが楽しくて、つい夢中になっちゃって。今日は早めに休むから大丈夫。それじゃあ、行ってきます。

「私はやってみたいの、音楽を」というセリフが途切れてしまったようです。

GoogleのSpeechRecognitionは、「私は言ってみたいの 音楽」と聞き取れたものを文字起こししようとしてくれています。

openAIのwhisperは、途切れた音声はそもそも文字起こしがされないようですね。

[goo]できない ここで 無視してもきっと 意味ない お母さんに何か聞かれて 真冬がもっと苦しむことになるかもしれないし 初めまして 25時 ナイトコードでで作曲を担当しています 兄です いつもゆきさんにはお世話にな

[whi]無視はできないここで無視してもきっと意味ないお母さんに何か聞かれて真冬がもっと苦しむことになるかもしれないしはじめまして25時ナイトコードでで作曲を担当していますKです

「いつも雪さんにはお世話になっています」の部分も同様にSpeechRecognitionでは残っていますが、whisperでは消えたようです。

ただ、音声開始部分の認識はwhisperの方が、しっかりしていそうです。

必要スペックを比較

Googleの「SpeechRecognition」は、一般的なCPUで問題なく動作します。

openAIの「whisper」は、モデルの読み込みなど重い処理が多いので、高スペックなGPUが求められます。Google Colabを使用すれば、無料枠でも問題なさそうです。

文字起こし可能なファイルサイズを比較

Googleの「SpeechRecognition」は1ファイル3~5分ほど読み込んでくれるのですが、openAIの「whisper」は30秒程度に抑えないと読み込まれないようです。

今回使用したプログラム

以下の「Open In Colab」ボタンを押せば利用できますので、お気軽にお試しください。