日本語に特化したGPT-2の大規模言語モデルがオープンソースで公開中

rinna株式会社は4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開した。

同社では、製品開発のための自然言語処理の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築。日本語のNLP研究コミュニティへの貢献を目的に、開発した言語モデルと研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHubおよびNLPモデルライブラリHuggingFaceでオープンソースとして公開している。

HuggingFace：
https://huggingface.co/rinna/japanese-gpt2-medium
GitHub：
https://github.com/rinnakk/japanese-gpt2

70ギガバイトの日本語テキストを約1カ月トレーニング

言語モデルとは、言語データの機械学習をもとに、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したものだ。そして、GPT-2は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル（自己回帰言語モデル）である。

rinna社が公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できる特徴をもつ。ユーザー/研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能という。

プレスリリースでは、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト（デモ1：講演の感想、デモ2：書籍の紹介）で応答文を生成するように微調整できる、と述べている。

■デモ1：講演の感想のコンテキストで文章生成

■デモ2：講演の感想のコンテキストで文章生成

また、同プレスリリースでまとめられている、rinna社の日本語GPT-2モデルの特徴は下記だ。

トレーニングデータとして、CC-100（ http://data.statmt.org/cc-100/ ）のオープンソースデータを使用しています。
Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしました。その結果、このモデルの性能は約18 perplexity （※）を達成しました。モデルは十分にトレーニングされており、汎用性があると言えます。
ユーザー/研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開しています。また、研究者が自分のマシンで当社の結果を再現できるように、トレーニングコードをGitHubに公開しています。
今回公開したのは、GPT2-mediumと定義される中規模サイズのモデルです。今後、パフォーマンスとコストのトレードオフに基づいてユーザー/研究者が最善の選択をできるよう、異なるサイズのモデルも公開する予定です。また、異なるデータでトレーニングした新しいモデルの公開も計画しています。
※18 perplexityは、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残すことができる性能を意味します。

HuggingFace：
https://huggingface.co/rinna/japanese-gpt2-medium
GitHub：
https://github.com/rinnakk/japanese-gpt2