IT・ベンチャーの企業法務

ネット上の画像のクローリングは著作権法違反？機械学習の法的問題を解説

2022.08.31

2023.04.29

近年、AI（人工知能）技術の進歩が目覚ましく、「Stable Diffusion」や「Midjourney」などの画像生成AIや、文章等を生成する「ChatGPT」などのさまざまなAIが注目を集めています。ネット上のデータをクローリングしてAIに学習させることで、AIを利用してさまざまなことが可能になり、機械学習の精度が向上している一方、著作権法違反のリスクが指摘されています。

ネット上で公開されている画像やイラストなどのさまざまなデータをクローリングして無断で収集し、加工してAIの機械学習に利用することは、著作権の侵害にはならないのでしょうか？

この記事では、ネット上で公開されている画像・イラストを機械学習に利用することの法的問題について解説します。

この記事の目次

機械学習とは

機械学習（ML：Machine Learning）とは、人間が経験から学ぶのと同じように、機械がデータから学習することをいいます。機械学習の過程においては、データを収集し、そのデータを選択・加工して、学習用のデータセットを作成する必要があります。

クローリングとは、クローラーと呼ばれるプログラムがWebサイトを巡回し、Webページにあるテキストや画像などの情報を複製・保存することをいいます。

関連記事：スクレイピングとは？注目を集める便利なデータ収集方法の法的課題を解説

機械学習における著作権法上の問題点

「著作権」とは、簡単にいうと、著作物を法的に保護するための権利のことをいいます。そして、保護される「著作物」については、著作権法第2条第1項で次のように規定されています。

（定義）
第二条　この法律において、次の各号に掲げる用語の意義は、当該各号に定めるところによる。
一　著作物　思想又は感情を創作的に表現したものであつて、文芸、学術、美術又は音楽の範囲に属するものをいう。

平成30年著作権法改正の背景

2018年（平成30年）、改正著作権法が成立し、2019年（平成31年）1月1日から施行されました。

IoT・ビッグデータ・AI（人工知能）などの技術を活用するためには、著作物を含む大量の情報の蓄積・組合わせ・解析などを可能にする必要があります。そこで、この改正では著作物を鑑賞等の目的で利用しないなどの一定の場合には、著作物の利用を認める規定が設けられました。

著作権法第30条の4で認められている利用法とは

2018年に改正された著作権法第30条の4では、「著作物に表現された思想または感情の享受を目的としない利用」については、必要と認められる範囲で、方法を問わず、著作物を利用することが認められるようになりました。

（著作物に表現された思想又は感情の享受を目的としない利用）
第三十条の四　著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一　著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二　情報解析（多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。）の用に供する場合
三　前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用（プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。）に供する場合

具体的には以下のようなケースにおいては、著作物の利用が認められます。

・美術品の複製に適したカメラやプリンターを開発するために美術品を試験的に複製する行為
・人工知能の開発を行うために著作物を学習用データとして収集して利用したり，収集した学習用データを人工知能の開発という目的の下で第三者に提供（譲渡や公衆送信等）したりする行為
・コンピュータの情報処理の過程で，バックエンドで著作物をコピーして，そのデータを人が全く知覚することなく利用する行為
・プログラムの調査解析を目的としてプログラムの著作物を利用する行為（いわゆる「リバース・エンジニアリング」）

引用：文化庁｜著作権法の一部を改正する法律（平成30年法律第30号）について

機械学習に著作物を利用すると著作権法違反になりうるケース

このように、機械学習のために画像（著作物）を収集・加工・利用することはもちろん、収集した学習用データを第三者に提供（販売・譲渡など）することは、著作権法第30条の４第２号において認められています。しかし、このような著作物の利用が法的トラブルに発展する可能性もあります。

ここでは、ネット上で公開されている画像を収集して機械学習に利用する場合に起こりうる法的問題について検討してみましょう。

著作権者の利益を不当に害する場合

著作権法第30条の４では、「著作物に表現された思想又は感情の享受を目的としない利用」を認める一方で、その利用が著作権者の利益を不当に害する場合には著作物の利用を認めていません。

具体的にはどのようなケースが考えられるのでしょうか。文化庁のQ＆Aによれば、以下のようなケースが「著作権者の利益を不当に害する場合」に該当するとされています。

具体的な判断は最終的に司法の場でなされるものであるが，例えば，大量の情報を容易に情報解析に活用できる形で整理したデータベースの著作物が販売されている場合に，当該データベースを情報解析目的で複製等する行為は，当該データベースの販売に関する市場と衝突するものとして「著作権者の利益を不当に害することとなる場合」に該当するものと考えられる。

引用：文化庁著作権課｜「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方」

著作権法上の規定と異なる合意をした場合

著作権法では、機械学習に著作物を利用することは認められていますが、当事者間においてこれと異なる合意をすることもできます。このような合意が成立していた場合には、合意に反した場合には損害賠償責任等を追及される可能性があります。

例えば、サイトの利用規約やライセンス規約において、機械学習や情報解析のためのデータの収集・抽出を明示的に禁止しているサイトもあります。データを収集する際には、そのサイトの利用規約やライセンス規約を確認しておく必要があります。

一般的には、サイトの利用規約に「合意」をするには、何らかのアクションが求められます。例えば、「アカウントを作成することによって、利用規約とプライバシーポリシーに同意したものとみなされます」などの表示とともに、登録や同意ボタン押下などが求められます。登録や同意ボタンをクリックすることによって「合意」が成立することになります。

一方で、単にデータの収集・抽出を禁止する利用規約をサイト内のダウンロードページとは別のページに掲示しているだけで、それに同意しなくても画像のダウンロードが可能になっているような場合には、「合意」は成立していないということになります。この場合、著作権法上の規定が適用され、著作物を利用できるということになります。

とはいえ、トラブル防止のためにも、利用規約において明示的にデータの収集・抽出等を禁止しているサイトからのデータの収集は控えた方がよいでしょう。

関連記事：スクレイピングとは？注目を集める便利なデータ収集方法の法的課題を解説

機械学習により合成した画像は著作権法違反になる？

ここまで、著作物を機械学習に利用することは著作権法において認められていることを解説しました。では、AIが機械学習を行い、合成画像を作成することは、学習の元となった画像（写真・イラスト・絵画等）の著作権を侵害していることになるのでしょうか？

ここでは、AIがGAN（敵対性生成ネットワーク：Generative Adversarial Networks）による画像生成を行うケースを例に解説します。

機械学習による画像生成のしくみ

GAN（敵対性生成ネットワーク：Generative Adversarial Networks）は、生成モデルの一種で、データから特徴を学習することによって実在しないデータを生成したり、存在するデータの特徴に沿って変換したりできます。このGANによる画像生成のしくみは、例えば、実際の部屋の写真や絵を解析して、予算や部屋のサイズなどに合わせた家具が実際にそこに置かれているかのように画像を合成するサービスなどにも利用されます。

AIは機械学習した元の画像の著作権を侵害しうるか？

GANは、生成器（Generator）と識別器（Discriminator）という2つのニューラルネットワークにより構成されています。このうち、生成器は、元となる画像の特徴を数値化して読み取り、そこに一定の変数を入力することで、その変数により調整された数値を出力して合成画像を生成します。

つまり、合成画像は、合成の過程で関数に変数をインプットした結果として新たに生成された画像であるため、元となる画像のデータ（写真・イラスト・絵画等）とは全く別のものといえます。たとえ機械学習の結果として、元の画像と類似した画像が合成されたとしても、それは元となる学習データの複製・翻案・改変にはあたらないと考えられます。

そのため、このようにAIが機械学習して生成した合成画像は、機械学習の元の画像の著作権を侵害していないといえます。

関連記事：AI開発で知的財産権はどう守られる？著作権、特許権の論点を整理

まとめ：AIの機械学習と著作権の問題は弁護士に相談を

この記事では、ネット上に公開されている画像をAIの機械学習に利用することの著作権法上の問題点について解説しました。

著作物を機械学習に利用することは著作権法で認められています（著作権法第30条の4）。しかし、例外的に、著作権者の利益を不当に害する場合や、当事者間で著作権法の規定と異なる同意をした場合には、著作物の利用が認められないケースもあります。

「Midjourney」や「Stable Diffusion」、「ChatGPT」などのAIが注目を集め、さらなるAIの開発に乗り出す企業も急増しています。AI開発に欠かせない学習データとして著作物の利用が認められるかどうかという点は判断が難しい場合もあるため、AIや機械学習を活用した事業を行う際にはIT分野に詳しい弁護士に相談することをおすすめします。

当事務所による対策のご案内

モノリス法律事務所は、IT、特にインターネットと法律の両面に豊富な経験を有する法律事務所です。

AIビジネスには多くの法的リスクが伴い、AIに関する法的問題に精通した弁護士のサポートが必要不可欠です。当事務所は、AIに精通した弁護士とエンジニア等のチームで、ChatGPTを含むAIビジネスに対して、契約書作成、ビジネスモデルの適法性検討、知的財産権の保護、プライバシー対応など、高度な法的サポートを提供しています。下記記事にて詳細を記載しております。

モノリス法律事務所の取扱分野：AI（ChatGPT等）法務