Amazon Transcribe で文字起こし

文字起こしをする必要性ってあまりないんだけど、新しいサービスAmazon Transcribeが日本語対応されたので使ってみる。

Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languagesという記事が上がっている。

Amazon Transcribe now supports transcription for audio and video in Gulf Arabic, Swiss German, Hebrew, Japanese, Malay, Telugu, and Turkish languages

元データは某氏の結婚披露宴で来賓祝辞挨拶の動画データから音声データだけを抜き出してAmazon  Transcribeにかましてみた。

コスト

Amazon Transcribe API (文字起こしストリームを含む) は、1 秒あたり 0.0004USD のレートで月ごとに課金されます。使用料は 1 秒ごとに課金され、15 秒未満のリクエストについては 15 秒分の料金が発生します。

1秒あたり$0.0004なので90分だと $0.0004×60×90=$3.24 なので大体400円

音声抽出方法

iPhoneに保存した動画から音声だけを抜き出すアプリ|個人開発者アプリランキングを見て「Easy MP3 Converter – MP3/AAC抽出」を使って動画ファイルから音声をMP3化を実施

GUIにてTranscribe Job

Job Settingで

  • ジョブ名
  • 書き起こしを行う言語
  • MP3の場所

を入力。MP3はS3に置いておく必要があります。

S3を適当に作っておいたら・・・

あふぅ・・・日本RegionのS3に置く必要があるのね。ということでサクッと作成して実行

5分程度の音声動画なら5分以内で完了するみたい。

結果

結果はJSON形式になります。JSONなのかよ・・・

うーむ。 悪くはないけどまだかなぁ~ 改行とかがないし・・・読みにくいよ^^;;

あとは人名とか言い直しとか「えー」「えっと」「あー」「あのー」とかまで文字起こしされるのは正しいけど・・・

まとめ

文字起しのコストがかなり下がりそう。音声データを聞きながらとかする議事録とかはAmazon Transcribeでいいような気もする。コストも長さに応じてだけど気にしなくてもいいレベル。

聴覚にハンデがある人にも嬉しいかもしれないし、これが賢くなると授業とかも文字起しが可能となるのか・・・広がる妄想