AIブームはデータの上に成り立っている。データはインターネットから生まれ、インターネットは我々から生まれた。

AIを訓練するために広く使われている公開データセットをワシントン・ポスト紙が分析したところ、今日のAI業界が、ニューラルネットワークを導くために、30年にわたるウェブ公開の宝庫をいかに広範囲にわたって実験してきたかが明らかになった。

重要な理由:あなたはブログを書いたことがあるだろうか?ウェブページを作ったことがありますか?Redditのスレッドに参加したことがありますか?あなたの言葉は、あらゆる場所でAIチャットボットの教育に貢献している可能性が高い。

全体像:この大規模な言葉の再利用は、フェアユースとして扱われるべきか盗用として扱われるべきかをめぐって大きな法廷闘争を引き起こしているが、それはまた、今日のオンライン世界を構築した何百万もの投稿の多くに個人的な清算を促している。

私たちは自分たちの心を共有しているつもりだった。

  • しかし、気づかないうちに、私たちは不完全だが豊かな人間表現のデータベースを作っていたのだ。
  • このデータベースが、ChatGPTやその競合他社の妙に巧みな文章完成体操を可能にしている。

Dall-E、Midjourney、Stable DiffusionのようなビジュアルAIツールが、ChatGPTのような言葉によるチャットボットが流行する前に普及したように、ビジュアルクリエイター(写真家、イラストレーター、ファインアーティスト)は、この現実に最初に対処した。

  • ミュージシャンも、先週のドレイクとザ・ウィークエンドのコラボ曲「Heart on My Sleeve」のように、自分の作品の複製を見つけることで、同じような啓示に直面する。

しかし、私たちの多くは、歌を録音したり絵を描いたりするよりも、インターネット上で数文字を入力する方が多い。

  • ワシントン・ポスト紙のプロジェクトでは、任意のインターネット・ドメイン名を入力することで、それがAIのトレーニング・データベースに貢献したかどうか、どれだけ貢献したかを確認することができる(これは、オープンAIがChatGPTや他のプロジェクトで使用したものとは異なる。)
  • 「このデータセットには50万以上の個人のブログが含まれており、データ内の「トークン」、つまり言語の個別の塊の合計の3.8パーセントを占めていた。(フェイスブック、インスタグラム、ツイッターのような独自のソーシャルメディア・プラットフォームの投稿は表示されない。)

:これらのトレーニング・データベースは巨大だが、代表的なものとは言い難い。ある文化、グループ、対象者はオーバーサンプリングされ、他の多くは不当に無視されている。そして、インターネット文化の偏見や限界、有害な側面はすべて、AIのトレーニングデータに現れる。

  • もしあなたが何らかのオンライン履歴を持っているなら、ポストの検索が提供する自己検証の機会は、自分の名前をググるようなもので、たまらなく魅力的だ(視覚的な補助のために、“Have I been trained? “という同様の検索ツールがある)。
  • 自分の仕事が掲載されているのを見つけたら、おそらく私と同じように、”これは私が望んでいたことなのだろうか?”、”なぜ私は相談されなかったのだろう?”、”これが来ることを知っていたらどうだっただろう?”と自問するだろう。

賢くなる:AIの学習データに対する貪欲さは、一般的なインターネットの30年の歴史全体に新たな光を投げかけている。

  • 今日のAIの進歩は、インターネットが人々に生み出させた情報、アイデア、感情のデジタル備蓄や埋立地の利用可能性なしには起こり得なかった。
  • しかし、私たちはAIのためではなく、お互いのためにこのすべてを生み出しているのだ。

この観点からすると、こうした膨大なデータの「死体」の存在は、ウェブそのものの出現が意図せざる重大な結果をもたらしたと言える。

  • ある世代が「www」とブラウザに夢中になった1995年、あるいはその10年後、別の世代がブログと「群衆の知恵」の出現を謳歌したとき、この結果は見え隠れしていた。
  • 2010年代に入り、機械学習革命の動きが一部の専門家を不安にさせ始めた。しかし、ウェブ全体がAI学習の餌食になろうとしていることを察知するには、かなり長い時間が必要だった。

今日、この予期せぬ結果は、私たちのオンライン体験の最前線にあり、私たちが今、AIを使って、AIのために行っていることすべてが、私たちが予測できない形で未来を形作ることになることを思い起こさせている。

  • 例えば、私たちが公共のネットワーク上にシミュラクラの氾濫を解き放てば、人々がオリジナルの作品を共有し続けたり、あるいは作ったりする意欲をなくす危険性がある。
  • そうなると、未来のAIモデルは、2000年から2020年頃の人類の凍結されたアウトプットから永遠に抜け出せず、新たに学ぶべきものが何もなくなってしまうかもしれない。

コンテンツはAxiosより