Webデータ収集クローラー「GPTBot」について
●参照サイト
https://www.itmedia.co.jp/news/articles/2308/08/news124.html
OpenAIは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー(GPTBot)を開発した。
(Webクローラーとは、Webページを巡回して情報収集するプログラムのこと。これはGoogleで有名で、古くからWebサイト運営者は、Googleクローラーに自分のサイトを認識させ、キーワード検索にヒットさせようと試みている。)
併せて、同社はこの文書で、GPTBotのクローリングをブロックする手順を説明している。
OpenAIがなぜクローラーを作ったかというと、ネット上で収集した情報をAIモデルの改善と過学習に使用するというのが目的と考えられる。
なので今後は、このWebクローラーによって、ChatGPTを利用していない人でも、自分のWebページの情報・データがAiの学習のために使われる可能性があるということを認識しなければならない。それが嫌な人に対してOpenAIは拒否する方法を説明している。
GPTBot によるサイトへのアクセスを禁止・カスタマイズする方法
●参照サイト(OpenAIサイト内)
https://platform.openai.com/docs/gptbot
【GPTBot の禁止】
GPTBot によるサイトへのアクセスを禁止するには、GPTBot をサイトの robots.txt に追加する。
User-agent: GPTBot
Disallow: /
【GPTBot アクセスをカスタマイズする】
GPTBot がサイトの一部のみにアクセスできるようにするには、次のように GPTBot トークンをサイトの robots.txt に追加する。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
ChatGPTは2021年9月までの情報についての取り扱い
OpenAIがいつからGPTBotを使っているのかは不明だが、現行のChatGPTは2021年9月までの情報でトレーニングされている。(ChatGPTを使うとよくこの表現が出てきます)過去にトレーニングに使われたデータについては遡って削除することはできない模様。
コメント