LLMはもはや、18年間のリンクや会話から隠れて学習し、利益を得ることはできない。

もしあなたが大規模な言語モデル(LLM)AIを訓練する企業で、u/420NarutoConspiracyサブレディットから学習させたいのであれば、すぐにその費用を支払わなければならなくなるだろう。

Redditの創設者兼CEOであるスティーブ・ハフマンは最近、ニューヨーク・タイムズ紙に対し、18年間にわたるほとんどが人間によって生成されたコンテンツを引き出すため、APIにアクセスする企業に課金する予定だと語った。新条件の詳細は、Redditに掲載されたその後の発表記事で確認できる。

APIは、ボットやその他のRedditツールに取り組む開発者や、学術的または非商業的なプロジェクトに取り組む研究者にとっては、これまで通り無料である。

しかし、簡単に言えば、AIのトレーニング目的のためのRedditの会話には、今後数週間のうちに正確な金額が提示されるだろう。

「Redditのデータコーパスは本当に貴重です」とハフマンはTimes紙に語った。しかし、その価値をすべて無料で世界最大級の企業に提供する必要はない。

「Redditを追跡し、価値を生み出しながら、その価値をユーザーに還元しないことは、私たちが抱えている問題です。物事を強化する良い機会だ。”

Redditのコメントや会話は、LLMのIAを訓練するための豊富なリソースとなっている。ChatGPTと GoogleのBardは、Redditのデータをソースの一つとして引用している。

Andy BaioとSimon Willisonは、Stable Diffusionの画像生成データセット(23億)のサブセット(1200万)の分析において、「ユーザー生成コンテンツプラットフォームは画像データの巨大なソースである」と指摘している。

本日、ワシントン・ポスト紙が発表した多くのAIに共通するデータソースに関する調査では、GPT-3に「Redditユーザーによって高く評価されたリンクのテキストコンパイル」が含まれていることが指摘されている。

AIへのアクセスを制限するつもりではあるが、Redditは開発者やモデレーターがコミュニティで働くためのより良いツールを提供したいと述べている。

RedditのiOSアプリとAndroidアプリは、ユーザーの履歴を素早く表示し、コミュニティルールを更新し、複数のModキューをより良く処理する方法を提供する。

The Informationによると、RedditのAPIアクセスに関する動きは、同社が2023年後半に株式公開を目指す中で行われた。同社は2021年12月に新規株式公開を秘密裏に申請した。

ロイターによると、同社は150億ドルの評価を見込んでいたが、市場環境、特にテクノロジー企業を取り巻く環境が改善するまで、申請を延期していた。ニュースソース:Arstechnica