音楽ストリーミング業界の巨人であるSpotifyが、前例のない規模のデータスクレイピング事件に直面しています。オンライン活動家集団「アナのアーカイブ(Anna's Archive)」は、Spotifyから約300テラバイト(TB)もの音楽データをコピーしたと主張しており、これには8,600万の音楽ファイルと2億5,000万行以上の関連メタデータが含まれるとされています。この事件は、単なる著作権侵害の範疇を超え、AI開発における大規模データセットの需要、企業のセキュリティ責任、そして著作権法の未来に関する深刻な議論を巻き起こしています。
Spotifyは、この主張について調査中であることを認めつつも、アクセスされた素材が同社の全カタログを代表するものではないと強調しています。同社は、「違法なスクレイピング」に関与したアカウントを既に停止したと発表し、第三者が公開メタデータをスクレイピングし、不正な手段を用いてデジタル著作権管理(DRM)を回避して一部のオーディオファイルにアクセスしたことを確認しました。しかし、Spotifyは、これらの音楽がまだ公にリリースされたとは考えていないと述べています。
この事件の背景には、アナのアーカイブが掲げる「保存アーカイブ」という壮大な目標があります。彼らは、広く聴かれている楽曲をアーカイブすることで、戦争、自然災害、資金削減といった脅威から文化遺産を保護できると主張しています。しかし、業界オブザーバーは、この膨大なデータセットが、音楽の作曲や模倣が可能な生成AIシステムのトレーニングにとって極めて価値があるものと見ており、著作権侵害とAI開発の間の新たな緊張関係を示唆しています。
「アナのアーカイブ」の野望:300TBの音楽データ強奪の全貌
「アナのアーカイブ」は、2022年11月にZ-Libraryが法執行機関によって閉鎖された直後に、匿名の「Anna」によって立ち上げられたシャドウライブラリ検索エンジンです。彼らは自身を「人類史上最大の真に開かれた図書館」と称し、その目標は「存在するすべての書籍をカタログ化し、これらの書籍をデジタル形式で容易に入手可能にする人類の進捗を追跡する」ことにあると述べています。書籍や学術論文の海賊版リンクで最もよく知られていますが、今回のSpotifyからの音楽データスクレイピングは、その活動範囲が大きく拡大したことを示しています。
2025年12月に報じられたこのSpotifyからのデータスクレイピングは、約300TBに及ぶ膨大な量であり、2億5,600万行のトラックメタデータが既に公開され、8,600万のオーディオファイルも公開される計画です。興味深いことに、このオーディオファイルはSpotifyの全コレクションの37%に過ぎないものの、プラットフォーム上での再生回数の99.6%を占めるとされています。これは、アナのアーカイブが、単にデータを収集するだけでなく、その「文化的な重要性」に基づいてターゲットを選定している可能性を示唆しています。
アナのアーカイブは、取得したファイルをP2Pトレント技術を用いて配布する意向を表明しており、これは彼らの「保存」という動機と一致する行動です。彼らは、著作権法に倫理的に反対し、「情報が自由であることを望む」という信念を掲げています。この思想は、プログラマーであり情報活動家であったアーロン・スワルツの思想に触発されたものとされています。
しかし、彼らの活動は単なる理想主義に留まりません。アナのアーカイブは、高速ダウンロードを有料会員に提供するほか、大規模言語モデル(LLM)をトレーニングするグループに対しては、多額の金銭またはデータ提供と引き換えにSFTP経由で高速バルクアクセスを提供していることを公言しています。2025年1月現在、約30社(主に中国のLLM企業やデータブローカー)がこのサービスを利用しているとされ、DeepSeekのVLモデルも同サイトの電子書籍データで部分的にトレーニングされたことが判明しています。これは、シャドウライブラリが単なる活動家プロジェクトから、AI産業のデータサプライヤーへと変貌していることを示唆しています。
AIトレーニングデータとしての音楽:シャドウライブラリの新たな役割
今回のSpotifyからの大規模な音楽データスクレイピング事件は、生成AIの急速な発展と著作権保護の間の緊張関係を如実に示しています。AI開発者にとって、音楽の作曲や模倣が可能なシステムをトレーニングするためには、大規模で多様なオーディオデータセットが不可欠です。アナのアーカイブが主張する300TBもの音楽データは、まさにこの需要を満たす「金の卵」となり得ます。Third Chairの共同創設者であるYoav Zimmerman氏は、このようなデータセットがあれば、個人が「自分だけの無料Spotify」を作成したり、企業が「現代音楽で大規模なトレーニング」を行ったりすることが理論的に可能になると指摘し、唯一の障壁は著作権法とその執行であると述べています。
この状況は、書籍の著作権侵害を巡る主要なAI訴訟、例えばBartz v. AnthropicやKadrey v. Metaのケースと酷似しています。これらの訴訟では、AIモデルのトレーニングがフェアユースに当たるか否かだけでなく、トレーニングコーパスがそもそもどのように取得されたか、つまりLibGenやZ-Library、そしてアナのアーカイブといったシャドウライブラリから海賊版作品が大量に摂取されたという「上流の行為」が問題視されています。Anthropicが著作者に対して15億ドルもの和解金を提示しているのは、このデータ摂取の問題が根深いことを物語っています。
アナのアーカイブがAIラボや機関ユーザーに高速バルクアクセスを有料で提供しているという事実は、シャドウライブラリがもはや単なる「人類を救う」ための寄付ベースの活動家プロジェクトではなく、「産業インフラ」としての役割を担っていることを示唆しています。彼らのレトリックが何であれ、その「製品」は、AI開発者が直面する大規模でキュレーションされ、ラベル付けされたコーパスの調達というボトルネックを解消するものです。この「企業化」されたアプローチは、著作権侵害の新たなビジネスモデルとして、法執行機関や権利者にとって大きな課題を突きつけています。
Spotifyのセキュリティ義務と沈黙の代償
Spotifyは、単なる消費者向けアプリではなく、レーベル、ディストリビューター、その他の権利者との間で複雑な契約上の義務を負うライセンスされた配信プラットフォームです。これらの契約には、ライセンスされたコンテンツを保護するためのセキュリティコミットメントが明記されている可能性が高いでしょう。今回のAnna's Archiveによる大規模なスクレイピングは、Spotifyの既存のセキュリティ管理体制、異常検知、レート制限、そしてインシデント対応が、監査や評判の精査に耐えうるかという深刻な疑問を投げかけています。
MusicTech.SolutionsのChris Castle氏は、この事件がSpotifyにとって単なる著作権侵害や企業開示の恥に留まらず、AI著作権訴訟の書籍データ側で追跡されてきた「シャドウライブラリの産業インフラ」というおなじみのパターンであると指摘しています。大規模なスクレイピングは、自動抽出を防止するコントロール、異常検知やレート制限の失敗、ライセンサーへのコンテンツ保護に関する表明など、著作権を超えた問題を引き起こします。
さらに懸念されるのは、公開報道が主に音源カタログのメタデータとオーディオファイルに焦点を当てている一方で、大規模なアクセスがあった場合、ユーザーデータ(視聴履歴、プレイリスト、デバイス識別子、内部エンゲージメント指標など)も同じ経路でアクセスされた可能性です。Spotifyはユーザーデータが公開されたとは述べていませんが、「公開されていない」は「取得されていない」とは同義ではありません。これらのデータは、公開トレントよりも闇市場で遥かに価値を持つ可能性があります。
Spotifyの公式声明は、「不正アクセスに関する調査により、第三者が公開メタデータをスクレイピングし、不正な戦術を用いてDRMを回避し、プラットフォームの一部のオーディオファイルにアクセスしたことが判明した。当社は現在、このインシデントを積極的に調査している」というものでした。しかし、Castle氏はこの声明を「古典的なダメージコントロール」と厳しく批判しています。声明は範囲を「一部のオーディオファイル」に限定し、責任を「第三者」「不正な戦術」に転嫁し、具体的な数値や日付、システムに関する言及を避けています。Anna's Archiveが主張する8,600万ファイル/300TBという規模や、SpotifyネイティブのOGG Vorbisファイル、プレイリスト/ユーザーリンクデータの存在について、Spotifyは直接反論していません。この「沈黙」は、投資家、ライセンサー、規制当局のいずれをも安心させるものではないと指摘されています。
法廷闘争の波紋:広がる著作権侵害と国際的な包囲網
アナのアーカイブの活動は、世界中で広範な法的・規制上の問題を引き起こしています。米国では、同サイトのドメインが2023年以来、米国通商代表部(USTR)の「悪名高い市場リスト」に掲載されており、大規模な知的財産権侵害に関与していると指摘されています。特に注目すべきは、2024年1月にWorldCatの管理者であるOCLCが、アナのアーカイブを提訴したことです。OCLCは、同サイトがWorldCatの全データをサイバー攻撃を通じてスクレイピングし、独自のデータを無料で公開したと主張し、500万ドル以上の損害賠償とデータ共有の差し止めを求めています。この訴訟は、シャドウライブラリによるデータスクレイピングの法的新規性から、オハイオ州最高裁判所に判断が委ねられるなど、複雑な展開を見せています。
さらに、AI企業Metaに対する訴訟では、2025年2月に公開された内部メールにより、Metaが著作権で保護された作品でAIモデルをトレーニングする際、アナのアーカイブのトレントを通じて81TB以上のデータをダウンロードしていたことが明らかになりました。原告の著作者らは、マーク・ザッカーバーグCEOがシャドウライブラリの使用を個人的に承認したと主張しています。2025年6月、裁判所はMetaに一部有利な判決を下しましたが、裁判官は「生成AIモデルを著作権で保護された作品でトレーニングすることで、企業はそれらの作品の市場を劇的に損なう可能性のあるものを作り出している」という「市場希薄化」の議論が説得力のある金銭的損害の根拠となり得ると指摘しました。
国際的にも、アナのアーカイブに対する包囲網は狭まっています。2024年1月にはイタリアの国家通信庁が、同年3月にはオランダのロッテルダム地方裁判所が、それぞれ主要インターネットサービスプロバイダー(ISP)に対し、アナのアーカイブのブロックを命じました。英国では2024年12月、出版社協会が高等裁判所からブロック命令を獲得し、ベルギーでも2025年7月に著作権団体が同サイトに対する判決を勝ち取りました。ドイツでも2025年10月に主要ISPによるブロックが開始されています。これらの動きは、著作権侵害に対する国際的な連携と、シャドウライブラリの活動に対する法的な圧力が強まっていることを示しています。
SECの視点:公開企業としての情報開示責任
Spotifyのような公開企業にとって、大規模なデータスクレイピング事件は、単なる技術的なセキュリティ問題に留まらず、米国証券取引委員会(SEC)に対する情報開示義務という重大な側面を伴います。SECのサイバーセキュリティ開示に関するガイダンスに基づき、企業は、調査が進行中であっても、事業、関係、または収益に影響を与える可能性のある重要なリスクやインシデントを開示することが求められます。Spotifyのシステムが大規模にスクレイピングされたという報道は、同社のカタログの完全性とプラットフォームのセキュリティに関するレーベル、ディストリビューター、アーティストへの表明に影響を及ぼす可能性があり、合理的な投資家が重要と見なす可能性のあるサイバーセキュリティリスク要因を提起します。
MusicTech.Solutionsの分析によれば、Spotifyの現在の公式声明は、規模や技術的詳細を肯定も否定もせず、「積極的に調査中」「一部のオーディオファイル」「新たな保護措置を導入」といった表現に終始しています。これは、SECのForm 8-K(重要なイベントの即時開示)の閾値を意図的に下回るように設計された「ダメージコントロール」である可能性が指摘されています。Form 8-Kは、大規模なオーディオ抽出が確認された場合、ライセンサーとの紛争や契約解除通知が発生した場合、規制措置が開始された場合、または修復費用や訴訟リスクが定量化可能になった場合に通常トリガーされます。
現時点では、SpotifyはForm 10-Q(四半期報告書)のリスク要因更新の範囲内でこの問題を扱おうとしているように見えます。そこでは、「不正アクセス、データ抽出、プラットフォームセキュリティに関連するリスク」として、第三者による不正アクセスやスクレイピング、DRM回避の事例を認めつつ、その範囲と影響を調査中であり、対策を講じていることを開示する可能性があります。しかし、このような開示は、評判の損害、規制当局の監視、ライセンサーとの契約紛争、訴訟、セキュリティ強化や執行努力に関連するコスト増大のリスクを伴います。さらに、抽出されたデータに機密性の高い個人情報が含まれていない場合でも、プラットフォームデータの大規模な集約は、分析、競合モデリング、または人工知能トレーニングなど、Spotifyが制御できない方法で第三者によって再利用される可能性があり、これがライセンサーやアーティストとの関係に悪影響を及ぼし、追加の法的、規制的、または商業的リスクを生じさせる可能性があります。
ビットトレントからAIの裏口へ:Spotifyが直面する皮肉な現実
Spotifyの創業者であるダニエル・エクは、P2P海賊版の影が色濃く残る時代にSpotifyを立ち上げました。音楽業界に対するSpotifyの当初の売り込みは明確で、集中化されたライセンスベースのアクセスが、ビットトレントに代わる音楽消費の主要な形態になるというものでした。この主張は、権利者たちを説得し、彼らのカタログを単一のプラットフォームであるSpotifyに集中させることに成功しました。Spotifyは、海賊版対策のソリューションとして、その固定価格とロイヤリティ構造とともに受け入れられたのです。
しかし、現在の状況は、この創業時のビジョンに皮肉な影を落としています。Spotifyは、現在、これまでに構築された中で最大級のキュレーションされた音楽コーパスの一つとなっており、まさに海賊版「アーカイブ家」やAI開発者が切望する対象です。そして、今回の疑惑は、些細なデータ漏洩ではなく、Spotifyが何らかの形で気づかなかったとされる「産業規模のスクレイピング」です。これは、Spotifyが海賊版対策として築き上げた集中型プラットフォームが、今や次のデータ抽出体制、すなわちAIスクレイピングの「裏口」となってしまった可能性を示唆しています。
さらに、ダニエル・エク自身が、AIおよび防衛セクターの主要な投資家として再評価されていることも、この状況を複雑にしています。彼は、完全に自動化された兵器の戦略的インフラとして人工知能を位置づけるHelsingのような企業を支援しています。AIセクターにとって最も価値のあるインプットはコードではなく、大規模でクリーンなラベル付けされたデータセットです。海賊版対策として音楽業界を説得し、そのカタログをSpotifyに集中させた創業者が、今やAIによる大規模なスクレイピングの「裏口」を開放したと疑われるプラットフォームを統括しているという事実は、現代のデジタル経済におけるデータ、著作権、そして倫理の複雑な絡み合いを浮き彫りにしています。海賊版は消滅したのではなく、集中化され、プロフェッショナル化し、そして今や「企業向け価格帯」を持つようになったのかもしれません。
参考情報
本記事は以下の情報源を参考に作成されました:
- -Activist group claims massive 300TB Spotify music scrape - https://www.computing.co.uk/news/2025/legislation-regulation/activist-group-claims-massive-300tb-spotify-music-scrape
- -Anna's Archive - Wikipedia - https://en.wikipedia.org/wiki/Anna%27s_Archive
- -Anna’s Archive, Spotify, and the Shadow‑Library Playbook: Why Spotify is a Crime Scene – Music Tech Solutions - https://musictech.solutions/2025/12/22/annas-archive-spotify-and-the-shadow-library-playbook-why-spotify-is-a-crime-scene