Amazon Transcribe による文字起こしについて先日書いた。

Amazon Transcribe による文字起こし – Voice Archivist
https://transcri.ption.cf/2020/06/24/amazon-transcribe/

Amazon Transcribe には「カスタム語彙」という機能がある。よく使う言い回しを予め登録でき、より正確な書き起こしができるようになる。

Custom Vocabularies – Amazon Transcribe
https://docs.aws.amazon.com/transcribe/latest/dg/how-vocabulary.html

手順としては、カスタム語彙はテキストファイルで作成し、Amazon S3 バケットへアップロード。Amazon Transcribe の書き起こしの際に、そのカスタム語彙を指定する。

(1)以下のフォーマットでテキストファイルを作成する([TAB] の部分はタブを入力する)。

Phrase[TAB]IPA[TAB]SoundsLike[TAB]DisplayAs
ころな[TAB][TAB][TAB]コロナ
チャーリー[TAB][TAB][TAB]charlie

Phrase に発音(ひらがなで書く)、DisplayAs に書き起こし用の語彙を書く。改行区切りでどんどん追記していけばいい。

発音を IPA もしくは SoundsLike で指定できるが(どちらか一方を記入する)、日本語の場合 Phrase としてひらがなで入力するのが楽だ。だから IPA と SoundsLike は未記入でいいわけだ。

適当に名前を付けて保存する(拡張子は txt)。

(2)1を適当な Amazon S3 バケットへアップロード。

(3)Amazon Transcribe の Custom vocabulary で Create vocabulary をクリック。Vocabulary input source に2のファイルを指定。これで語彙リストが登録される。

(4)語彙リストを使った書き起こしをするには、Transcription job を新規作成する際に、「Configure job – optional>Custom vocabulary」のチェックを入れる。Vocabulary selection で3のカスタム語彙がドロップダウンリストに表示されるはずなので選択する。

これで書き起こし処理を実行すればいい。

実際に実行してみると、かなり精度が上がった。

参考:
Amazon Transcribeで日本語のカスタム語彙を作成してみた – Qiita
https://qiita.com/m-duct/items/805290b9a3098002966a