Amazon Transcribe で文字起こし

2019年11月25日

文字起こしをする必要性ってあまりないんだけど、新しいサービスAmazon Transcribeが日本語対応されたので使ってみる。

Amazon Transcribe now supports transcription for audio and video in Gulf Arabic, Swiss German, Hebrew, Japanese, Malay, Telugu, and Turkish languages

元データは某氏の結婚披露宴で来賓祝辞挨拶の動画データから音声データだけを抜き出してAmazon Transcribeにかましてみた。

Amazon Transcribe API (文字起こしストリームを含む) は、1 秒あたり 0.0004USD のレートで月ごとに課金されます。使用料は 1 秒ごとに課金され、15 秒未満のリクエストについては 15 秒分の料金が発生します。

1秒あたり$0.0004なので90分だと $0.0004×60×90=$3.24 なので大体400円

Job Settingで

を入力。MP3はS3に置いておく必要があります。

S3を適当に作っておいたら・・・

あふぅ・・・日本RegionのS3に置く必要があるのね。ということでサクッと作成して実行

5分程度の音声動画なら5分以内で完了するみたい。

結果はJSON形式になります。JSONなのかよ・・・

うーむ。悪くはないけどまだかなぁ～改行とかがないし・・・読みにくいよ^^;;

あとは人名とか言い直しとか「えー」「えっと」「あー」「あのー」とかまで文字起こしされるのは正しいけど・・・

文字起しのコストがかなり下がりそう。音声データを聞きながらとかする議事録とかはAmazon Transcribeでいいような気もする。コストも長さに応じてだけど気にしなくてもいいレベル。

聴覚にハンデがある人にも嬉しいかもしれないし、これが賢くなると授業とかも文字起しが可能となるのか・・・広がる妄想