Amazon Transcribe による文字起こし

先月やった書き起こしでは Google Docs の音声入力を使い、このことについて前のエントリーで書いた。

Google Docs の音声入力を使った書き起こしはまあまあのレベルなんだけれど、別の方法も試してみた。Amazon Transcribe を使った方法だ。

Amazon Transcribe（音声をテキストに変換する機能を簡単に追加）| AWS
https://aws.amazon.com/jp/transcribe/

Google Docs はリアルタイムの書き起こしなので、２時間の音声を書き起こすのに、２時間パソコンで再生させなければいけない。Amazon Transcribe を使えば、音声ファイルをアップロードすることでスピーディーに書き起こしをしてもらえる。

最初の１年間は月１時間までの音声を無料で書き起こしできる。月１時間を超えたり、１年以上経過すると課金されるが、かなり安価だ。

音声ファイルや動画の長さではなく、書き起こされた部分の音声の長さに応じて料金が決まるので、具体的な料金は簡単には分からない。しかし、音声ファイルや動画の長さは分かっているので、最大料金は分かる。

さっそく Amazon Transcribe を試してみたが、どんどんウェブサイトのレイアウトが変わったりしているようで、Amazon Transcribe を使ってみた人のレビューを読んでも、今回私がやってみたのと変わっていたりして自分で試行錯誤する必要があった。

（１）AWS アカウントを作成する。

以下の公式ガイドに従えばいい。普段の Amazon アカウントとは紐付いていない。

AWS アカウント作成の流れ | AWS
https://aws.amazon.com/jp/register-flow/

途中で SMS あるいは音声電話による認証が必要だが、音声電話だとキーパッドの入力をすることになる。私は SMS で登録した。住所やクレジットカード情報も入力する。

（２）AWS マネジメントコンソールのページを開き、１で作成したアカウントでルートユーザーでサインインする。

AWS マネジメントコンソール
https://console.aws.amazon.com

（３）右上の「グローバル」をクリックし、「アジアパシフィック (東京)」を選択しておく。

（４）右上の「ユーザー名＞マイアカウント」をクリックすると、Billing Management のページが別ウィンドウで開く。

「アカウント設定＞アカウント ID」の部分に書かれているアカウント ID（AWS アカウント ID）を確認する。

（５）AWS マネジメントコンソールに戻り、「サービスを検索する」の欄で S3 を検索。S3 と表示されるのでクリック。「今すぐ Amazon S3 を始める」をクリック。

（６）サインインを求められるので、IAM ユーザーを選択し４のアカウント ID を入力する。

（７）「バケットを作成する」をクリック。

・バケット名：適当に入力（メモしておく）。
・リージョン：３で選んだ「アジアパシフィック (東京)」を選択する。特に東京にしなくても、３と同じであればアメリカとかでもいいのかもしれない。
・既存のバケットから設定をコピー：（空欄）

「次へ」をクリック。

「オプションの設定」も特に記入せず、「次へ」をクリック。

「アクセス許可の設定」も特に記入せず、「次へ」をクリック。

「確認」ページで、「バケットを作成」をクリック。

（８）「Amazon S3＞[７で作成したバケット名]」のページが開かれているはず。

「アップロード」をクリックして、アップロードする書き起こし用のファイルを指定する。今回は mp3 ファイルにした。

「アップロード」をクリックする。

（９）左上の「ASW ロゴ＞AWS のサービス＞サービスを検索する」か左上の「サービス」をクリックするかして、検索欄に Amazon Transcribe と入力。Amazon Transcribe が表示されるのでクリック。

（10）右上の「オハイオ」をクリックし「アジアパシフィック (東京)」を選択する。

（11）「Transcription jobs」をクリック。

Job settings
・Name：適当に入力する。
・Language：Japanese, JP (ja-JP)
・Job queue：（チェックを入れない）

Input data
・Input file location on S3：s3://[７のバケット名]/[８でアップロードしたファイル名（拡張子を含める）]

Output data
・Data location：Service-managed S3 bucket

「Next」をクリック。

Configure job – optional のページが開かれるが、特に何も設定せず「Create」をクリック。

これで書き起こし作業が始まる。Transcription jobs で作業の一覧が表示されるが、該当の作業欄の Status が In progress となっているはずだ。

作業が終わっても特にメール通知が来たりしないが、完了すると Status が Complete になる。

該当の Transcription job で Name 部分をクリック。

Download full transcript をクリックすると書き起こしテキストをダウンロードできる。

ダウンロードしたファイルは json 形式だった。変な空白が入っているので、テキスト置換で削除したりした。

書き起こし精度は悪くない。少なくとも Google Docs よりいい。何より 40 分の音声が８分で書き起こされた。Google Docs だとなぜか途中で音声入力が止まったりするのが頻発してストレスだったが、Amazon Transcribe だと一瞬だ。今度からこれを利用しようと思う。