• DIGITALIST
  • Articles
  • 日本のオフィスワーカーが抱える文章仕事に革命を。 「自然言語AI」がついに人間を超えた
Pocket HatenaBlog facebook Twitter Close
Business 公開日: 2022.06.13

日本のオフィスワーカーが抱える文章仕事に革命を。 「自然言語AI」がついに人間を超えた

お気に入り

 2018年にGoogleが『BERT』を発表して以降、AIによる自然言語処理の精度が急激に向上した。『GLUE』と呼ばれる標準ベンチマークの言語能力スコアで、人間の精度をついに超えたのだ。ついに、文章の「文脈」を理解する自然言語AIの新時代が幕を開けた。

【画像】ELYZA
 人間の仕事の多くは文章や言葉を通じて行われており、言語AIの進化が及ぼす影響範囲は広く、計り知れない。議事録を取り、資料を作成し、メールを書く――。オフィスワークには実に多くの「文章仕事」が溢れている。これらの作業に費やしている時間が圧縮されれば、日本中の働き方をがらりと変えるほどに強烈なインパクトをもたらすだろう。

 ELYZA(イライザ)は東京大学・松尾研究室からスピンアウトし2018年に設立された、日本語の自然言語処理AIに特化したベンチャーだ。競合企業はまだほとんど存在しておらず、大手企業からの相談が引く手あまただという。

 文章要約AIである『ELYZA DIGEST』はリリースから5日間で13万ユーザーを、文章執筆AIの『ELYZA Pencil』は11日間で11万ユーザーを突破するなど、順調な滑り出しを見せている。ELYZA代表取締役CEO 曽根岡侑也(そねおか・ゆうや)氏に、日本語による自然言語AIの持つポテンシャルと未来、活用事例などを聞いた。

言語AIの現在位置

【画像】ELYZA
 AIの研究は実は1950年代から行われており、歴史は古い。近年の大きなターニングポイントは、2012年に注目されるようになったディープラーニング(深層学習)技術だ。本稿では詳細を割愛するが、簡単に述べると、データの「特徴量」をコンピューターが自動で認識してくれる技術を指す。

 データのどこに着目すべきか、これまでは人間が特徴を指定していたが、特徴量の抽出が自動で行われるようになったことでAIが飛躍的に進歩した。スマートフォンやクラウド、インターネットの普及と相まって、コンピューターの性能が大幅に向上し流通するデータ量が増え、大量のビッグデータを扱えるようになった。これが、ディープラーニングを可能にした背景にあると言われている。AIではまず、顔認証など画像分野で社会実装・活用が先行した。

 現在ではさらに細分化が進んでおり、ディープラーニングを用いたAIが解決できる分野はおもに画像認識、音声認識、自然言語(人間が日常生活の中で使う言語のこと)処理、自動運転などに広がっている。

 曽根岡氏「中でも自然言語処理AIは、社会実装に広げられる範囲と可能性がとても大きいと考えています。画像AIの技術が先行していますが、目だけを使う『見て判断する』仕事はそれほど多くありません。自然言語とは人が話したり書いたりする言語のことで、世の中のほとんどの仕事は、自然言語を使うコミュニケーションが主体です。それだけに、自然言語処理AIは世の中に与えられるインパクトが大きく広い領域だと考えています。

 オフィスワークを行っている多くのビジネスパーソンだけでなく、例えば医師などもパソコンを使ってデスクワークに時間を費やしているのです。

 医師の場合、業務時間が仮に8時間あるとすると、そのうちの2~3時間をカルテや紹介状の作成、あるいは入院・退院サマリーといった記録用の文章を書くことに費やしているのが現状です。そこに言語AIを用いれば、音声認識AIで文章を起こし、自然言語処理AIで要約まで自動で作れ、文章作成に費やされている膨大な作業時間を大幅に圧縮できるようになります」

 ELYZAでは主にオフィスワーク分野のDXを推進し、自然言語処理AIが威力を発揮する未来を想定しているそうだ。具体的には、AI医師やAI記者、AI自治体などの「業界特化」型、AI人事やAI営業、AIマーケターなどの「業界横断」型、要約AIや言い換えAIなど「BtoC」型など約30の項目に応用できると考えているのだという。もちろん、いずれも既存のタスクを完全に代替するという意味ではなく、文章作成に費やされている労力を支援するイメージだ。

競合がほぼいないELYZA Brainのすごさ

 ELYZAのコア技術は「日本語に特化した大規模言語AI」にある。人が一生をかけても読みきれないほど膨大で「大規模」な日本語の文章データをAIに学習させる。こうしてまず作り出されるのが「大規模言語AI」の大きな特徴だ。

 東京大学でのアカデミックな研究から始まり、ELYZAで作られた「大規模言語AI」が自然言語処理エンジン 『ELYZA Brain』である。
【画像】ELYZA
 曽根岡氏「2018年に自然言語処理を大きく変えるきっかけとなったモデルBERTが登場しました。BERT はGoogleが開発した大規模な言語AIです。2019年にはBERTを進化させた大規模言語AIが、英語圏における自然言語処理の標準ベンチマークGLUEのテストデータを用いた言語能力スコアの精度において、人間のスコアを初めて超えました。これにより、文章の文脈を理解した上での自然な処理が可能になりました。

 ELYZAではBERT以降の最新のアルゴリズムを活用しつつ、日本語に特化した大規模言語AIを独自に開発しました。それがELYZA Brainです。日本語に限定したAIの処理能力を測るテストにおいては、人間およびBERTのスコアよりも高い精度を達成しています」
【画像】ELYZA
 もちろんこれまでも、チャットボットやSNS分析など、それほど高い精度が求められない範囲内において言語AIは活用されていた。それが今後は、長い文章や議事録などの要約、メール執筆、プレスリリースなどに応用ができ、高い精度でアウトプットできるようになる。

 曽根岡氏「従来の言語AIは、人間がルールを決めるルールベースと呼ばれるものや機械学習的なアプローチをするものの人間に遠く及ばないものに留まり、比較的単純な作業しか行えませんでした。ELYZA Brainは言語の流れと文脈――つまり単語の並びや文章の意味合いを理解し、言語処理できるようになっています。これが従来の技術との大きな違いです」

日本語データは英語データの10分の1ほど

【画像】ELYZA
 開発にあたっては、日本語のデータがそもそも世の中に存在していないことそのものが、「最大の障壁だった」という。

 曽根岡氏「例えば日本語で書かれたウィキペディアの全データを集めても、容量はたったの2GBほどしかありません。一方で英語は、話す人口が10億人以上いる分、インターネット上の情報も日本語のそれに比べて10倍くらいあります。逆に言えば、日本語データは英語の10分の1ほどしかありません。

 加えて、自然言語処理の研究者は皆、英語を対象にしているため、学習させるためのデータセットは膨大な量がすでにある。比べて、日本語にはほとんどありません。例えるなら、英語圏のAIがメジャースポーツなら、日本語圏のAIは練習を行う場所すらないマイナースポーツです。それほど、日本語データの量の少なさは大きなハンデを負っています。

 ELYZA Brainの開発にあたってはWeb上のデータを100GB分ほど集めました。また、社内にデータファクトリーという名のチームを組織し、教師データと呼ばれる文章例をたくさん作ってもらっています。例えば、ELYZA Brainに文章の要約を実行させるなら、長い文章とその要約文のペアデータが必要です。それを大量に作り、ELYZA Brainに読み込ませることで、要約した結果の精度が正解(人間が用意した要約文)に近いかどうかを教え込ませています」

2020年の完成以降100社以上から相談が殺到

【画像】ELYZA
 ELYZA Brainはあくまで「頭脳」のため、それ単体では機能しない。ELYZA Brainをベースに数万のデータを学習させることで、文章要約AIであるELYZA DIGESTや文章執筆AIのELYZA Pencilなどが作られている。

 曽根岡氏「例えるなら、ELYZA Brainは本を1万冊子どもに読ませた結果、流暢に日本語が話せるようになった状態です。そこからさらに訓練を経て要約や文章執筆ができるようになるのが私たちの提供している各サービスです」

 先述の通り、グローバルでの言語AIの大変化に歩調を合わせるように、2020年ELYZA Brainを発表。以降、1年間で100社以上、大企業のDX担当者などから問い合わせが殺到した。多くの企業が言語や文章にまつわる業務課題を抱えており、大規模言語AIで解決できそうなさまざまな課題が集まったという。

 その中でまずは「100社を超える企業のうち、大多数の企業」で活用できる、いわば最大公約数的に応用が利きそうだった分野が、「文章要約」や「文章執筆」だったそうだ。

 ほかにも、個別の企業や法律事務所などと共同研究を進めている。数十億円単位でインパクトが出る、十分に費用対効果が望めそうな企業と取り組んだのだという。

 具体的な現場での活用事例を挙げよう。「文章要約」の場合は、例えばメディア企業で使われ、掲載されている記事のトップにある3行要約に活用されている。あるいはコールセンターの場合なら、オペレーターが話した内容を記録し、入力・文章化する作業が必ず発生する。その際の対話を、音声認識AIを使って自動で文字起こしして文章化し、「文章要約」を使って要約する、といった具合だ。

 ELYZAのホームページでは実際に「文章要約」と「文章執筆」をデモンストレーションで試すことができるのでぜひ体験してみてほしい。その精度の高さに驚くはずだ。

AIは画像と言語を同時に扱える世界に

【画像】ELYZA
 ELYZAでは当面、オフィスワークのDXに寄与する、知的生産をサポートするサービスの展開に注力していくそうだ。

 曽根岡氏「オフィスワークの『書く』『話す』の中でルーティン化している作業は今後、AIが支援していく世界になっていくと考えています。議事録を取る作業は大抵どの企業にも存在しますし、ほかにもプレスリリースや求人広告など、文章を使ったタスクは膨大にあります。そこをサポートできるものを私たちは作っていきたいです」

 現状でもかなりすごい技術だが、ここにとどまることなく、AIの進化はまだまだ続くようだ。

 曽根岡氏「マルチモーダルという、複数種類のデータを統合的に処理する手法があります。先進的な事例では、例えば『一輪車に乗った、スーツを着た桃太郎』と文字で入力すると、それらのイメージが合成されたイラストを自動生成してくれる技術がすでに開発されています。つまり、単語を理解して、この世に存在しないようなイラストを生成できてしまう。

 目だけ、耳だけ、脳だけを使って完結している人間の仕事は、あまりありませんよね。実際は目や耳や脳を同時に使って仕事をしている。マルチモーダルなら、今までは言語だけ、画像だけ、音声だけだったAIを統合して処理できるようになり、この分野は確実に熱くなっていきます。言語AIと他のAIが統合された技術力がどんどん高まれば、私たちの仕事そのものが大きく変わる世界が訪れるでしょう」

関連記事

DIGITALIST会員が
できること

  • 会員限定記事が全て読める
  • 厳選情報をメルマガで確認
  • 同業他社のニュースを閲覧
    ※本機能は、一部ご利用いただけない会員様がいます。