本ブログは、Updating our Vulnerability Severity Classification for AI Systems の抄訳版です。最新の情報は原文を参照してください。
マイクロソフト セキュリティ レスポンス センター (MSRC) は、マイクロソフトの製品やサービスで報告された脆弱性の影響を評価する方法を明確にし、透明性を提供する方法を常に模索しています。そのために、Microsoft Vulnerability Severity Classification for AI Systems を発表します。これは、マイクロソフトの既存の脆弱性深刻度分類(すなわち、マイクロソフトの「バグ バー」)を更新し、マイクロソフトの製品およびサービスにおける AI の使用に固有の新しい脆弱性カテゴリーをカバーするものです。
この更新の目的は、外部の研究者とマイクロソフトのセキュリティ エンジニアリング チームが、脆弱性の提出時に影響について議論するために、これまでのガイドよりも詳細な共通のフレームワークを提供することです。
新しい脆弱性カテゴリー
私たちは 3 つの新しいトップレベルカテゴリーを導入します。各カテゴリーには 1 つ以上の AI 固有の脆弱性タイプ*が含まれます。
1.推論操作
このカテゴリーは、個々の推論要求に対する AI モデルからの応答を操作するために悪用される可能性のある脆弱性で構成されますが、モデル自体を変更するものではありません。このカテゴリーには、コマンド・インジェクションと入力摂動の2つの新しい脆弱性タイプがあります。
コマンド・インジェクション は、モデルが意図した動作から逸脱するような命令をすることです。これは 「 プロンプト・インジェクション 」 の概念と少し似ていますが、私たちはプロンプト (の一部) への入力自体は脆弱性ではないことを明確にしたいと考えています。例えば、無関係な情報を入力することは脆弱性ではありませんが、モデルに全く異なるタスクを実行させるコマンド/命令を入力することは脆弱性になります。一方、コマンド・インジェクションは、プロンプト・インジェクションよりも広範です。なぜなら、入力されるコマンドは必ずしもテキストである必要はなく、モデルに意図した動作から逸脱させるあらゆるタイプのコマンド (例えば、マルチモーダルモデルの場合、特別に細工された画像など) である可能性があるからです。
入力摂動とは、モデルが正しくない出力を生成するように、有効な入力をかく乱することです。これは回避や敵対的な例とも呼ばれ、主に意思決定システムにて悪用されます。これは、AI が単に不正確な出力をする事例とは異なります。セキュリティの脆弱性と認定するには、一貫して不正確な出力につながり、セキュリティに実証可能な影響を与えるような、有効な入力に対する明確な摂動がなければなりません。
このカテゴリーの脆弱性の深刻度は、操作された応答が特定の製品やサービスでどのように使用されるかに依存します。脆弱性の潜在的な影響が攻撃者自身に限定される場合 (すなわち、操作されたレスポンスが攻撃者にのみ表示される場合) には、現在のところ、脆弱性とはみなしません。操作されたレスポンスが他のユーザーに直接表示されたり、他のユーザーに影響を与える意思決定に使用されたりする場合 (例:クロスドメインコマンドインジェクション) には、より高い深刻度を割り当てます。
2.モデル操作
このカテゴリーは、トレーニング段階でモデルを操作するために悪用される可能性のある脆弱性で構成されます。このカテゴリーには、モデル ポイズニングとデータ ポイズニングという2つの新しいタイプの脆弱性がありますが、どちらもトレーニング中にモデルを操作します。
モデル ポイズニングとは、モデルアーキテクチャ、トレーニングコード、またはハイパーパラメータを改ざんすることによって、トレーニング済みモデルを汚染することです。
データ ポイズニングはモデルポイズニングと似ていますが、訓練が行われる前にモデルの訓練に利用されるデータを変更することを含みます。
上記の脆弱性のいずれかに該当するためには、ポイズニングがなければ存在しなかったであろう、最終的なモデルへの実証可能な影響がなければなりません。例えば、トレーニング中のモデルにバックドアを挿入する場合、バックドアが最終モデルまで持続し、推論時に特定の入力によってトリガーされることが実証できれば、ポイズニングと評価します。このカテゴリーの脆弱性の深刻度は、影響を受けたモデルがどのように使用されるかに依存します。推論操作のカテゴリーと同様に、攻撃者のみに影響するモデル操作の脆弱性は現在のところ対象外ですが、他のユーザーに影響する可能性のある脆弱性はより高い深刻度が割り当てられます。
3.推論情報の開示
このカテゴリーは、モデルの学習データ、アーキテクチャ、重み、または推論時の入力データに関する情報を推測するために悪用される可能性のある脆弱性から構成されます。これは既存の情報漏えいのカテゴリーと似ていますが、情報の取得方法が異なります。“情報の漏えい”では、脆弱性が影響を受けるデータを直接明らかにするのに対して、“推論情報の漏えい” では脆弱性は影響を受けるデータについて何かの推測します。
このカテゴリーにはいくつかの新しい脆弱性タイプがあり、それぞれが異なる攻撃者の目標を考慮しています。特定のデータレコードがトレーニング中に使用されたかどうかの推測(メンバーシップ推測)、トレーニングデータレコードのセンシティブな属性の推測(属性推測)、トレーニングデータのプロパティの推測(プロパティ推測)などが含まれます。カテゴリーの別タイプの脆弱性は、モデルとの相互作用に基づいて、モデルのアーキテクチャや重みなど、モデル自体に関する情報を推論すること(モデルの盗用)でカバーしています。このカテゴリーの最後の脆弱性のタイプは、モデルのシステムプロンプトの抽出(プロンプト抽出)、または他のユーザーの入力に関する情報の抽出(入力抽出)を扱います。
このカテゴリーの脆弱性は、潜在的な攻撃者が達成可能な信頼度/精度の観点から評価され、攻撃者が十分な信頼度/精度を得ることができる場合にのみ適用されます。すべての場合において、深刻度は影響を受けるデータの分類 ( 例えば、学習データ、モデルの重み、システム プロンプト ) に依存します。私たちは、最近公表したマイクロソフトのオンラインサービスの脆弱性深刻度分類と同じデータ分類を使用しています。
既存の脆弱性分類の補完
留意いただきたいのは、これらは既存の脆弱性深刻度分類を更新したものであり、AI システムに影響を及ぼす可能性のあるすべての脆弱性を単独でリストアップしたものではない点です。実際、AI システムで発生する可能性のある脆弱性の多くは、すでに既存の深刻度分類でカバーされています。例えば、ストレージ アカウントの設定ミスを通じて学習済みモデルの重みを直接盗むことは、既存の “情報開示” のカテゴリーでカバーされています。学習済みモデルにて保存された重みを直接変更することは、「改ざん」の一例です。モデルの応答が遅くなるような脆弱性は、既存のDoS(Denial of Service)カテゴリーでカバーされます。
スコープ外の脆弱性タイプ
上記にて、特定のシナリオが “スコープ外” であることを示しました。これは通常、影響が攻撃者自身に限定される場合 ( 例えば、攻撃者にのみ表示される操作されたレスポンス ) です。このようなシナリオはバグではありませんが、対処をするべきと考えています。私たちは研究者に、他の非セキュリティ バグと同様に、それぞれのフィードバック・チャネルを通じて、影響を受ける製品やサービスに直接報告することを推奨しています。
他の分類法との関係
上記の新しい脆弱性の分類は、MITRE ATLAS、OWASP Top 10 for Large Language Model Applications 、NIST Adversarial Machine Learning taxonomyのような、最近公表された分類法と多くの類似点がありますが、必ずしも一対一に対応するものではありません。例えば、新しい OWASP Top 10 for LLMs におけるセキュリティ課題のいくつかは、上記の新しいカテゴリーに直接マッピングされています。その他の脆弱性も、私たちのバグ バーにある既存の脆弱性カテゴリーによってすでにカバーされおり、AI システムやサービスにも自動的に適用されます。さらに、上記で紹介する新しい脆弱性カテゴリーは、LLMに限定されるものではなく、すべての AI 様式をカバーすることを意図しています。つまり、新しいカテゴリーは、既存の分類法を補完するものだと考えています。
今後について
私たちは、この最初のアップデートが AI 特有の脆弱性の種類をすべて考慮していない可能性、また新しい脆弱性の種類がいつでも見つかる可能性を認識しています。私たちは今後もこの分野を監視し、必要に応じて脆弱性の種類を追加または更新します。私たちは、何十億ものお客様を守るためにセキュリティ脆弱性を発見し、報告してくれる外部の研究者とのパートナーシップを大切にしています。これらのリソースにより、マイクロソフトの脆弱性の深刻度分類の根拠が理解しやすくなり、研究者が最も影響の大きい分野に労力を集中する際の一助となれば幸いです。新しい脆弱性分類ガイドやMSRCについてご質問がある場合は、FAQページをご覧いただくか、secure@microsoft.com までお問い合わせください。
* この記事におけるすべての脆弱性の説明と例は、参考のためのものです。標準的な定義については、Microsoft Vulnerability Severity Classification for AI Systems を参照してください。