AWS、PythonでMeCabを使う際の語彙データを無料公開

アマゾン ウェブ サービス ジャパン株式会社(Amazon Web Services、AWS)は、同社のオープンデータセットに、日本語自然言語処理で定番の形態素解析器である「MeCab」を、ラッパーライブラリであるfugashi経由でPythonで使用する際の語彙(ごい)データに加えた、と公式ブログで明らかにした。

多くの機械学習デベロッパーが、AWS上でさまざまなアルゴリズムの開発やモデルを構築している。なかでも、自然言語処理をする際には、対象言語の特性に即した形で前処理をする必要がある。日本語の自然言語処理を実施する際には、一般的に「形態素解析」と呼ばれる文章の分解処理を前位処理として実施する。

日本語形態素解析をするためには、日本語の語彙データが必要になる。語彙データは大きなサイズになるだけではなく、これらを用いた計算の際にも大量のGPUおよびCPUが求められる。そのため、従来このようなモデルを構築する際には、常にストレージおよびコンピューティングのリソースの調達が問題となってきたという。

これまでもAWS上で自然言語処理モデルを開発する際には、Amazon Sagemakerを用いて学習に必要なリソースを確保することで、ALBERTのような最新の言語モデルを利用できた。

今回、AWSのオープンデータセットに追加されたMeCabは、オープンソースの形態素解析器で、日本語の形態素解析において幅広く使用されている。言語、辞書、コーパスに依存しない汎用的な設計を基本方針としており、高速に動作するとのこと。

>>公式ブログ(該当ページ)