Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

音素遷移イベントの発生時刻予測モデルによるアラインメントツール pydomino の精度向上

Dwango Media Village の上田です。以前私達は日本語音素アラインメントツール pydomino(https://github.com/DwangoMediaVillage/pydomino) を開発し、その内容を記事にしました。その記事では、音素 (ア段母音 a や マ行子音 m など) を更に細かい要素に分解した弁別的素性に着目しました。しかしこの手法では「いつどの音素が話されているか」を細かくラベリングした“ハードアラインメント” データが必要で、これを用意するには人力でのラベル付けや既存ツールを使った機械的なラベル生成が必要となり、データ量が限られてしまうという課題がありました。

そこで、音声データを入力するとデータ内で音素が切り替わる瞬間(音素遷移イベント)だけを検出するニューラルネットワークモデルを Connectionist Temporal Classification (CTC) Loss [1] の最適化によって学習する手法を取り入れることで新たに開発しました。これによりハードアラインメントがなくても学習でき、より多くの音声データを活用できるようになります。実際の実験でも、従来の方法(弁別的素性に基づくアラインメント)より高い精度が得られることを確認しました。

この新しい手法を組み込んだ pydomino は以下のGitHubレポジトリからすぐに導入でき、GPUなしで使用できます。本記事ではどんな仕組みで学習しているのか、どのようにアラインメントを推定しているのかを詳しく紹介します。

git clone --recursive https://github.com/DwangoMediaVillage/pydomino
cd pydomino
pip install .

導入

前回の記事では日本語音素を弁別的素性のバイナリラベルの集合として扱い、その予測結果から音素アラインメントを推論する手法を発表しました。この弁別的素性を予測するニューラルネットワークの学習にはハードアラインメント済みのラベルデータが必要という制限がありました。しかし人間のアノテーションによるハードアラインメント済みのデータは量が少ないため、julius音素アラインメントキットによる機械的ハードアラインメントラベルを導入してハードアラインメントデータを用意していました。ハードアラインメントデータを用意するということはその分だけ作業コストが増えることになったり、学習に利用できるデータ量が限られてしまう問題があります。

本稿ではこの問題を解決する手法を提案します。提案手法は時間フレーム単位で音素遷移イベントの発生を予測するモデルをCTC Lossで最適化し、アラインメント推論時には Viterbi アルゴリズム [2] を用います。CTC Loss による最適化の際、blankトークンは「音素遷移イベントが起きていない」という意味で使うことができます。この学習フレームを使うことでハードアラインメントデータなしに学習ができるようになり、さまざまな巨大な日本語音声データセットをそのまま使えるようになります。

今回アラインメントツールの対象となる音素集合 Ω は弁別的素性のものと同じ39種類です。39種類の内容は前回の弁別的素性によるアラインメントツールの記事を参照してください。推論時の入出力は変わらず以下のようになります:

入力16kHz 単チャンネル音声波形x[0,1]T
読み上げ音素列lΩM
出力各音素が読まれた時刻の区間ZR+M×2

ここで、読み上げ音素列 l=(l1,l2,lM) は両端に pau 音素を持ち(l1=lM=pau)、各音素が読まれた時刻の区間 Z=[z1,z2,zM]zm=[zm1,zm2] で 音素 lm が時刻 zm1秒 から zm2 秒の間で読まれていることを表します。

手法:音素遷移イベント発生時刻の予測による音素アラインメント学習

音素ラベルに対する前処理

弁別的素性を用いるモデルとは異なり、音素ラベルは口蓋化せず音素遷移系列へ変換します。例えば “意識 (i sh I k I)” とだけ読み上げたデータの場合、音素遷移系列は先頭と末尾に無音を表す音素トークン pau を挿入して [pau→i, i→sh, sh→I, I→k, k→I, I→pau] になります。ここで、x→y の表記は音素 x から 音素 y への遷移を表します。先ほど出した例にもあるとおり、入力された音素列を音素遷移列にするときには前処理として読み上げ音素列の先頭と終端が必ず pau トークンであることを確認して、そうでなければ pau トークンをそれぞれ先頭に挿入したり、末尾に追加します。こうすることで、音素の読み始めと読み終わりを表現します。

本稿のネットワークの予測対象となる音素遷移トークン全体の集合には、日本語の発音上起こり得ない音素遷移は含まれません。例えば k から t への音素遷移は起こり得ないため、ネットワークの予測対象外の音素遷移となります。本稿では、以下の ✓ の部分の音素遷移トークンのみを対象としました。音素遷移トークン全体の要素数は 556 となります。

先 \ 後pau子音有声母音無声母音Ncl
pau
子音
有声母音
無声母音
N
cl

音声に対する前処理

音声に対する前処理は弁別的素性によるアラインメントツールの記事と同じく、秒間100フレームの対数メルスペクトログラムを使います。

ネットワークアーキテクチャ

音素遷移イベントの予測にはTransformer [3] のEncoder部分を使います。

S=LogMelSpectrogram(x)π,ϕ=TransformerEncoder(S)

ここで、 πRT×|Δ|,ϕRT はそれぞれ、πti が時刻 t で音素遷移 i が発生した確率、ϕt は時刻 t で音素遷移が何も発生しない確率、T は時間フレーム数、Δ は音素遷移の全パターン集合で、|Δ|=556 はその要素の総数です。 学習時の損失は、CTC Loss を計算しています。

音素アラインメントの推論

ネットワークの出力した遷移予測確率 π,ϕ と ユーザの入力した読み上げ音素系列から生成した音素遷移トークン列 wΔM+1 を入力として、以下のAlgorithm 1~4 で記述するViterbiアルゴリズムを使って音素アラインメントを出力します。このとき、CTCLoss で用意する blankトークンの予測確率を"遷移が起きていない確率"の意味で使うことができます。

今回も 前回の記事と同様に割り当てる最低時間フレーム数 NNを導入しました。N=1 で一般的な Viterbiアルゴリズム と等価になります。 なお、ここでは

s=ttϕs=ϕts=ttϕs=0(t>t)

とします。

Algorithm 1 Viterbi Algorithm

Input: πRT×I,ϕRT,wΔM+1,NZ+

Output: ZR0M

ART×(M+1)=initialize(π,w)

βBT×(M+1)=forward(A,ϕ,N)

ZR0M×2=backtrace(β,N)

Algorithm 2 Initialize

Input: πRT×|Ω|,wΩM+1

Output: ART×(M+1)

for t=1 to T do

for m=1 to M+1 do

atm=πt,wm

end for

end for

Algorithm 3 Forwarding

Input: ART×(M+1),ϕRT,NZ+

Output: βBT×(M+1)

αRT×(2M+3)={}T×(2M+3)

βBT×(M+1)={false}T×M+1

for m=1 to 2M+3 do

if m=1 then

α1,1=ϕ1,1

for t=2 to T do

αt,m=αt1,m+ϕt

end for

else if m=2 then

α1,2=a1,1

for t=2 to T do

αt,m=αt1,m1+at,1

end for

else if m=4,6,8,,2M+2 then

for t=m/2N to T do

αt,m=αt1,m1+at,1

end for

else if m=3,5,7,9,,2M+1 then

for t=(m1)/2N to T do

x(transition_before_N_frames_ago)=αt1,m+ϕt

if tN+20 then

x(transition_N_frames_ago)=

else

x(transition_N_frames_ago)=αtN+1,m1+t=tN+2tϕt

end if

if x(transition_N_frames_ago)>x(transition_before_N_frames_ago) then

βtN,m1=true

end if

αt,m=max(x(transition_N_frames_ago),x(transition_before_N_frames_ago))

end for

else

for t=m/2N to T do

x(transition_before_1_frames_ago)=αt1,m+ϕt

x(transition_1_frames_ago)=αt1,m1+ϕt

if x(transition_1_frames_ago)>x(transition_before_1_frames_ago) then

βt1,m1=true

end if

αt,m=max(x(transition_1_frames_ago),x(transition_before_1_frames_ago))

end for

end if

end for

Algorithm 4 Backtracing

Input: βBT×M+1,NZ+

Output: ZR0M×2

t=T

m=M

zM,2=t

while t>0 do

if βtm then

t=tN

zm,0=zm1,1=t/100

m=m1

else

t=t1

end if

end while

z1,1=0

ここからは、前向き対数確率の計算方法を説明します。

まず最初の非blank遷移トークンの前向き対数確率 αt,i

αt,i=t=1t1logϕt+logπt,i

で計算できます。

次に、音素遷移トークンから音素遷移トークンへ遷移するときの、前向き対数確率の計算を考えます。求める前向き対数確率は

αt,i=max1stN{αs,i2+logπt,i+t=s+1t1logϕt}=max1stN{αs,i2+t=s+1t1logϕt}+logπt,i

になります。ですが、この計算アルゴリズムでは計算量が O((T)3(M+1)) かかってしまいます。そこで、動的計画法で計算量の短縮を図ります。

この第1項は最初と最後のblankトークンの位置 i にて、i を固定した状態で t=1,2,,T と順番に

αt,i=max{αt1,i+logϕt,αtN+1,i1+t=tN+2tlogϕt}

を計算し、最初以外の非blankトークンにて

αt,i=αt1,i1+logπt,i

を計算することと同じなため、これにより計算量は O(NT(M+1)) に短縮できます。 最後のblankトークンの前向き対数確率の計算では、発話前後の何も喋っていない区間に対してのアラインメント制約がないため、

αt,i=max(αt1,i1,αt1,i)+logϕt

で計算できます。これにより 1音素に最低でも N フレーム の時間を割り当てる制約を保ったままアラインメントを予測できます。

実験

今回の実験では前回の記事で紹介した弁別的素性予測LSTMモデルとの比較実験をします。学習データと評価データはそれぞれ弁別的素性の記事と同様、CSJデータセット [4] とITAコーパスマルチモーダルデータ [5] を用います。評価指標も記事の内容と同じですので、そちらでご確認ください。弁別的素性予測LSTMモデルは私達が配布しているpydominoツール を使います

ネットワーク構成

音素遷移の予測には 4層のAttention層で構成した Transformer Encoder を使いました。各Attention層には self attention 層 と feed-forward 層が1つずつあり、self attention層は ヘッド数 4 、attention次元が 256 です。feed-forward層の中間次元数は 2048 です。

実験結果

前回の記事との比較実験

ITAマルチモーダルデータセットを用いてアラインメント誤り率を評価指標とした性能比較結果は以下のようになります。なお、弁別的素性予測LSTMモデルと今回の音素遷移予測Transformerモデルでは、1音素あたりの最低割り当て時間フレーム数 N が最良のアラインメント誤り率になる値が異なるので、それぞれのモデルで最良のアラインメント誤り率になる値を採用しました。その値は弁別的素性予測LSTMモデルでは N=5 、音素遷移予測Transformerモデルでは N=2 です。

手法アラインメント誤り率(%)
弁別的素性予測LSTM10.410
音素遷移予測Transformer8.576 ± 0.226

比較の結果、音素遷移予測Transformerは前回の記事で紹介した弁別的素性予測LSTMよりも良い日本語音素アラインメント予測精度があることがわかりました。

さらに、ITAマルチモーダルデータセットには各音声信号データ内の開始と終端に長めの無音区間が含まれており、この両端の無音区間がアラインメント誤り率の比較に影響を及ぼしているかどうかを検証しました。

ITAコーパスマルチモーダルデータの音声を入力とする際、音声データの両端にある無音区間を含めず入力したときのアラインメント誤り率は以下のようになります。音声データ全体を入力した比較実験と同様、各モデルごとに1音素あたりの最低割り当て時間フレーム数 N が最良のアラインメント誤り率になる値を採用して比較しました。その値は弁別的素性予測LSTMでは N=5 、音素遷移予測Transformerでは N=3 です。

手法アラインメント誤り率(%)
弁別的素性予測LSTM16.787
音素遷移予測Transformer14.049 ± 0.417

これにより、音声データ全体を入力したときでも発話区間だけ入力したときでも、音素遷移イベントに基づくTransformer導入によるアラインメント性能向上を確認できました。

ニューラルネットワークアーキテクチャがLSTMからTransformerに変わったことの影響を調査する比較実験

前述の比較実験では現在のpydominoよりも提案手法のほうが性能が良いことを確認ました。しかし、これだけではニューラルネットアーキテクチャをLSTMからTransformerに置き換えたこと以外の要因が性能向上に寄与している可能性があります。そこで、弁別的素性予測Transformerと音素遷移予測LSTMを用意してこれら4種類の日本語音素アラインメントの性能を比較します。

結果は以下のようになりました。

最低割り当て時間フレーム数 N弁別的素性予測LSTM弁別的素性予測Transformer音素遷移予測LSTM音素遷移予測Transformer
111.64014.498±0.09149.027±16.3938.707±0.264
211.38614.186±0.06658.734±22.4398.576±0.226
311.17413.857±0.08560.695±22.8148.628±0.205
410.78513.463±0.10162.862±23.1079.571±0.367
510.41013.029±0.11864.080±22.67212.166±0.807
611.08113.366±0.12965.915±19.49818.111±1.518
717.44518.557±0.11571.297±12.89532.963±1.875

弁別的素性予測Transformerよりも音素遷移予測Transformerのほうがアラインメント精度が良いことから、モデルだけではなく音素遷移を対象とすることが性能向上に寄与していることが分かりました。また、LSTMでは弁別的素性よりも音素遷移を使った場合が悪くなることから、音素遷移予測とTransformerの組み合わせが重要であることが分かりました。

また、音声データの両端にある無音区間を含めず入力したときの音素アラインメント誤り率も同様に計測しています。

最低割り当て時間フレーム数 N弁別的素性予測LSTM弁別的素性予測Transformer音素遷移予測LSTM音素遷移予測Transformer
119.22523.869±0.18850.062±14.36514.652±0.622
218.65423.280±0.16152.802±16.59814.300±0.416
318.07322.712±0.12554.360±17.09514.049±0.417
417.41022.043±0.09655.397±17.14414.287±0.429
516.78721.343±0.11355.791±16.94615.899±0.452
618.04521.862±0.12755.483±15.05121.090±0.475
728.10030.148±0.13558.239±10.51734.465±0.509

先程の結果と同様のことが、発声区間のみのデータでも有効であることがわかりました。

結び

本稿では、音素遷移イベントの発火を予測するモデルを CTC Lossで学習することによって、ハードアラインメント不要な音素アラインメント学習を紹介しました。ITAコーパスマルチモーダルデータによる評価実験によって、以前紹介した弁別的素性に基づく音素アラインメントよりアラインメント精度が良いことがわかりました。状態遷移の瞬間を予測するモデルをCTC Lossにより最適化することでアラインメントを推定するフレームワークは、音素アラインメント以外にも、点として発生するイベントに置き換えられる任意の時系列データに関する問題にも応用が期待できます。

参考文献

[1] GRAVES, Alex, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In: Proceedings of the 23rd international conference on Machine learning. 2006. p. 369-376. https://www.cs.toronto.edu/~graves/icml_2006.pdf

[2] VITERBI, Andrew. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE transactions on Information Theory, 1967, 13.2: 260-269. https://ieeexplore.ieee.org/abstract/document/1054010/

[3] VASWANI, Ashish, et al. Attention is All you Need. Advances in Neural Information Processing Systems, 2017. https://papers.nips.cc/paper_files/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html

[4] MAEKAWA, Kikuo. Corpus of Spontaneous Japanese: Its design and evaluation. In: ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition. 2003. https://www2.ninjal.ac.jp/kikuo/SSPR03.pdf

[5] ITAコーパスマルチモーダルデータベース https://zunko.jp/multimodal_dev/login.php

Author

Publish: 2025/03/04

Shun Ueda