AI チャットボットのガードレールを回避するのは驚くほど簡単であることが研究者によって判明

カーネギーメロン大学の研究チームが憂慮すべき発見をした、とニューヨーク・タイムズ紙が報じた。OpenAIやGoogleなどが自社のAIチャットボットを抑制するために設置したガードレールは簡単に回避できるという。

今週発表された報告書で、チームは、OpenAIのChatGPTやGoogleのBardのようなチャットボットを、システムを抑制しようとする企業の潤沢な資金力にもかかわらず、誰でも簡単に高効率の誤情報を吐き出すマシンに変えることができる方法を示した。

このプロセスは驚くほど簡単で、英語の各プロンプトに長い文字の接尾辞を追加するだけで実現できます。これらのサフィックスを使用して、チームはチャットボットを誘導して、爆弾の作り方やその他の有害な情報を生成する方法についてのチュートリアルを提供することができました。

ユーザーはこれらのツールの隠された機能の表面をなぞり始めているだけであるため、脱獄はこれらの企業がいかに無力になったかを浮き彫りにします。

このニュースは、OpenAIが「精度の低さ」を理由にAI検出ツールを終了し、「人間が書いたテキストと人間が書いたテキストを区別する分類器」を考案する取り組みを断念したと発表してから1週間後に発表された。さまざまなプロバイダーの AI です。」

この最新のカーネギーメロンジェイルブレイクは、もともとオープンソースシステムで動作するように開発されましたが、研究者らが驚いたことに、ChatGPT、Bard、Anthropic の AI チャットボット Claude などのクローズドソースシステムでも同様に動作しました。

「従来のジェイルブレイクとは異なり、これらは完全に自動化された方法で構築されており、事実上無制限の数のそのような攻撃を作成できる」と報告書には書かれています。

研究者らがまとめたウェブサイトは、チャットボットがいかに簡単に騙されて、誰かの身元を盗む方法や、「飲酒運転や薬物使用などの危険な行為を人々に勧めるソーシャルメディアの投稿を書く」方法をユーザーに指導することができることを示している。

「敵対的なサフィックス」がないと、これらのツールはこれらのクエリに応答できないとして、これらのリクエストを拒否します。しかし、文字列を追加すると、すぐにそれに応じてくれました。

OpenAI、Google、Anthropic などの企業は、自社のチャットボットがこの種の有害な偽情報を吐き出したり、違法行為に関するアドバイスに使用されたりするのを防ぐための AI 安全ガードレールの開発競争に巻き込まれています。

さらに悪いことに、これらの企業は、この特にひどい脆弱性を埋めるのに苦労する可能性があります。

「明らかな解決策はない」とカーネギーメロン大学教授で報告書の著者であるジーコ・コルター氏はNYTに語った。「これらの攻撃は短時間で好きなだけ作成できます。」

研究者らは、レポートを発表する前に、その手法を OpenAI、Google、Anthropic に開示しました。

両社はNYTへの声明では曖昧で、時間をかけてガードレールの構築と改善をほのめかしただけだった。

しかし、最新の研究を考慮すると、驚くほど多くの作業が残されていることは明らかです。

「これは、私たちがこれらのシステムに構築している防御の脆弱性を非常に明確に示しています」とハーバード大学の研究者アビブ・オヴァディア氏はNYTに語った。

ChatGPT の詳細:OpenAI、AI検出ツールを「精度の低さ」を理由に閉鎖

ChatGPT の詳細: