AI大手企業は困難な壁にぶつかっています。
しかし、どうやらそのオアシスは幻に終わりそうです。法的な縛りと倫理的なジレンマの間で、AIは「学ぶべきことがもうない」という壁に直面しているのかもしれません。
このブログでは、AIの学習限界説について、探っていきます。
AI「人間から学ぶべきことが、もうない」
Earlier this week, The Wall Street Journal reported that AI companies were running into a wall when it comes to gathering high-quality training data. Today, The New York Times detailed some of the ways companies have dealt with this. Unsurprisingly, it involves doing things that fall into the hazy gray area of AI copyright law.
OpenAI transcribed over a million hours of YouTube videos to train GPT-4
AI(人工知能)は、私たちの生活をより便利で豊かにするために、多くの分野で活用されています。しかし、AIが賢くなるためには、大量のデータが必要です。
このデータは、AIが学習するための「教科書」のようなもの。世界の大手AI企業は、この大切なデータが不足しているという問題に直面しています。
AI学習を続けるために各企業が打ち出した作戦
ニューヨーク・タイムズ紙の報道によると、AI企業は高品質なデータを集めることに限界を感じており、法律の境界線を曖昧にするような方法を使ってデータを集めていることがわかりました。
Youtubeからデータ収集を開始
例えば、OpenAIという会社は、自分たちで作った「Whisper」という音声認識モデルを使って、YouTubeの動画を文字に変換し、新しいAIモデル「GPT-4」の学習に使っています。これは、法律的にはグレーゾーンにある行為ですが、OpenAIはこれがフェアユース(公正な使用)に当たると主張しています。
OpenAIは自社でデータを作ることも検討
OpenAIの広報担当者は、彼らが世界中のさまざまなデータを使って、AIが世界を理解するのを助けるためのデータセットを作っていると説明しています。また、自社でデータを作ることも考えているそうです。
法律のグレーゾーンに突入しようとしている
データを集める際には、著作権やプライバシーの問題が関わってきます。企業は、これらの法律やルールを守りながら、AIのためのデータを集める必要があります。
AI企業は、新しいデータを見つけるために、法律の解釈を広げたり、新しいポリシーを作ったりしています。AIの発展を支えるための新しいデータを集めることができるかもしれません。
AIが学習しなくなることの問題点
OpenAIだけでなく、GoogleやMetaといった他の大手企業も同じような問題を抱えています。
YouTubeの動画や書籍、ニュース記事など、インターネット上のさまざまなコンテンツからデータを集めてきました。しかし、データは次第に使い果たされつつあり、新しいデータをどうやって集めるかが大きな課題となっています。
AI性能が進まなくなる
データが不足すると、AIの学習が進まず、AIの性能が向上しなくなります。これは、学校で新しい教科書がなくなったら、生徒が新しいことを学べなくなるようなものです。
AI開発が止まってしまうかも
AIの未来は、データがどれだけ集められるかにかかっています。
私たちは、AIがより賢くなるために、適切な方法でデータを集めることが大切だと理解する必要があります。そして、AIが私たちの生活をより良くするために、どのようにデータを使うかを考えることも重要です。
まとめ
AIの未来は、技術の進歩が目覚ましく、私たちの生活を豊かにしてくれます。
しかし、他方では、データ不足と法的な問題がAIの成長を阻んでいます。OpenAIの例からもわかるように、イノベーションのためには時にグレーゾーンを歩む勇気も必要ですが、それには責任と倫理が伴わなければなりません。
AIが学ぶべきことはまだまだあるのです。それは、人間と共に成長し、共に学び合うことかもしれませんね。