朝日新聞が長文を要約するAPIを無償公開 過去30年ぶんの朝日新聞記事のデータを活用

株式会社朝日新聞社は4月2日、「長文要約生成API」を無償で公開した。

長文要約生成APIを使えば、長い文章を入力すると要約された文章を返してくれる。このAPIは、過去30年ぶんの朝日新聞記事のデータおよび、記事を生み出すフローで生み出される内部データを活用している。プレスリリースによれば、学習データとしての処理効率を上げるためのフィルタリングなどをしたうえで、ディープラーニングによって可能になった技術とのことだ。

長文の内容を把握しやすく要約できる

朝日新聞社ではすでに、自動で要約や見出しを生成する「自動要約生成API TSUNA」をリリースしている。TSUNAで培った技術をもとに研究を進め、文章を圧縮する技術を開発。そして公開されたのが長文要約生成APIだ。長文要約生成APIは、評価用途に限って無償で利用できる。

公開されたAPIは下記の5つの特徴をもつ。

1.入力された文章を、指定した長さごとに区切ってTSUNAにより要約する
2.文ごとの長さが揃うように圧縮する
3.文ごとに指定した割合まで圧縮する
4.重要な文を抽出する
5.抽出した重要文を圧縮し、文書全体を指定した長さにする

同プレスリリースでは、上記の機能をそれぞれ単独で利用したり、組み合わせたりすることで、長文の内容を把握しやすく要約できると述べている。

Web上の文章やビジネス文章、議事録、エントリーシートの内容など、「素早く判別したい」「速読したい」といった用途にも使えるとのこと。また、TSUNAと組み合わせることで、大量の文章に自動で見出しと要約を付与し、一覧にすることもできるそうだ。

またプレスリリースでは、プレスリリースに記載されている全文と、そのプレスリリースを長文要約生成APIによって圧縮した文章を比較できるように掲載している。


<<原文>>
(注1)「自然言語」は、人間が使う言葉の総称で、自然言語処理は人工知能(AI)を支える研究分野の一つです。

本APIは、長い文章を入力すると要約された文章を返します。文字数や割合を指定する事ができるので、用途に応じた文章を生成できます。過去30年分の朝日新聞記事のデータおよび、記事を生み出すフローで生み出される内部データを活用し、学習データとしての処理効率を上げるためのフィルタリングなどをした上で、ディープラーニング(深層学習)により可能となった技術です。

朝日新聞社はすでに、自動で見出しや要約を生成する「自動要約生成API TSUNA」( https://cl.asahi.com/api_data/headlinegeneration.html )をリリースしています。TSUNAで培ってきた技術をもとに研究を進め、文章を圧縮する技術を開発。今回は評価用途に限って無償で利用いただけるAPIを公開しました。

本APIでは下記の5つの機能を提供しています。
(1)入力された文章を、指定した長さごとに区切ってTSUNAにより要約する
(2)文ごとの長さが揃うように圧縮する
(3)文ごとに指定した割合まで圧縮する
(4)重要な文を抽出する
(5)抽出した重要文を圧縮し、文書全体を指定した長さにする
これらの機能を単独で使用したり、あるいは連結して組み合わせたりすることで、長文の内容を把握しやすく要約することが可能です。
Web上の文章やビジネス文章、議事録、エントリーシートの内容など、素早く内容を判別したい、速読したいといった用途にご活用できます。また、TSUNAと組み合わせることで、大量の文章に自動で見出しと要約を付与し、一覧にすることも可能です。


<<長文要約生成APIで圧縮後>>

自然言語処理研究(注1)の成果の一つである「長文要約生成」の機能を体験できるAPIを公開しました。要約された文章を返します。
用途に応じた文章を生成。ディープラーニング(深層学習)により可能となった技術です。自動で見出しや要約を生成する。文章を圧縮する技術を開発。APIを公開しました。
5つの機能を提供。TSUNAにより要約する。圧縮する。割合まで圧縮する。重要な文を抽出。文書全体を指定した長さにする。長文の内容を把握しやすく要約することが可能。素早く内容を判別したいといった用途にご活用できます。一覧にすることも可能です。

>> 「長文要約生成API」 デモサイト