Webセキュリティ 2025.01.07

データ保管場所の多様化に対応する！ファイル可視化の重要性と生成AIを使用した最先端のDSPMとは？

DSPM

３行でわかる本記事のサマリ

クラウドサービスの普及によって、ファイルの保管場所は多様化し、データ保護の考え方は「経路を監視する」から「データそのものを保護する（データセントリックセキュリティ）」へ変わった
情報漏洩を防ぐためには、ファイルの可視化・管理が重要
ファイルの精確な可視化は、従来の正規表現等の手法では難しく、生成AIを利用した分類が有効

1.「ファイル保管場所の多様化」と「データ保護の考え方の変化」

クラウドサービスの普及によって、ファイルが社内IT環境だけでなくSaaS・IaaSにも保管されるようになりました。これにより、企業のデータセキュリティ対策も、新たな課題に直面しています。

従来は「どの機密ファイルがどこに保管されているか」をある程度把握できていたため、ファイルの流通経路を監視することで、情報漏洩を防ぐことが可能でした。しかし、クラウドサービスの普及に伴い、ファイル保管場所が多様化し、機密ファイルの所在把握や経路監視が困難になっています。このような背景から、データ保護の考え方は「経路を監視する」から「データそのものを保護する（データセントリックセキュリティ）」へとシフトしています。

2. DSPMとは？

データそのものを保護する（データセントリックセキュリティ）という考え方を取り入れたソリューションが、DSPM（Data Security Posture Management）です。DSPMは「データそのものを監視し、漏洩を防ぎやすい環境を構築する」ことを目的としています。

DSPMの構成要素は、以下の通りです。

DSPMの構成

①データの発見
SaaS・IaaS・オンプレミスのストレージ等をスキャン

②データの分類
どの様なデータが、どこに保存されているのかを可視化

③データリスクの評価
発見・分類の結果から、データが適切に取り扱われているかを評価

④漏洩の検知・防御
データ漏洩が疑われるアクティビティを検知・防御

3. DSPM実現のためには、ファイルの可視化が重要

PDFやOffice、画像などのファイルは、適切に管理していないと、誰でも容易に操作・持ち出しができてしまい、人為的ミスや内部不正による情報漏洩のリスクが高まります。そのため、ファイルが「どこに、どのように」保存されているかを可視化し、適切に管理することが重要です。事実、情報漏洩の原因の約半数は「誤表示・誤送信」「不正持ち出し・盗難」「紛失・誤廃棄」が占めています。

出典：株式会社東京商工リサーチ社の2023年「上場企業の個人情報漏えい・紛失事故」調査をもとに弊社にて図を作成

4. 機密ファイルの検知は非常に困難

機密ファイルを検知する手法として、「正規表現」「キーワード検索」「機械学習」などがよく用いられます。しかし、これらの手法だけですべての機密ファイルを正確に検知することは非常に困難です。

正規表現・キーワード検索の課題

文脈（機密性）等を考慮せず、パターン一致する箇所を検出してしまいます。その結果、機密ファイル以外にも厳しい情報保護ポリシーが適用され、業務効率が低下する可能性があります。実際に、弊社でこれらの手法を使って検証したところ、機密ファイルか否かの分類精度は、約20％程度にとどまりました。

また、正規表現を使用するには、深い技術知識が求められます。例えば、正規表現の構文、特殊文字（例: \d, \w, .*）、ネスト構造、否定条件などを組み合わせた高度な設計が求められ、構文ミスが意図しない結果を招くこともあります。このような知識はプログラミング経験などにも依存するため、初心者が正規表現を利用することはハードルが高いと考えられます。

機械学習の課題

機械学習は、既存の情報を教師データとして活用し、機密データなどの検出率を高める技術です。ただし、前述の正規表現やキーワード検索と同様に、文脈を考慮せずにデータを検出してしまう特性があります。
また、教師データに含まれていない新たな機密データを発見することはできません。

5. 生成AIを用いた最先端のDSPMソリューションとは？

Ohalo社のDSPMソリューション「Data X-Ray」では生成AIを活用しているため、文脈を考慮した機密ファイルの検出や、新たな機密データへの対応が可能です。本ソリューションの特徴をご紹介します。

高精度な機密ファイルの検出

生成AIを活用することで、機密ファイルの検出精度が大幅に向上します。弊社の検証では、機密ファイルの可視化精度が100％を記録しました。
※ 検証は本物の契約書や見積書に近いダミーデータを使用して実施

なぜ生成AIで高精度な機密ファイルの検出が可能なのか？

生成AIが機密ファイルを検出するまでのプロセスを以下に示します。

①文章を単語単位に分割
ファイル内の文章を単語単位に分割（トークン化）

②単語と文脈からファイルのパターンを解釈
分割した単語の前後関係をもとに、単語の意味や文脈を解釈し、パターンを判定

③パターンの照合
生成AIが持つ「機密ファイルのパターン」と照合し、一致すれば機密ファイルとして検出

このプロセスにより、文脈を考慮して機密ファイルの検出が可能です。
また、事前に学習していない機密データにも対応できます。

簡単なルール作成

Data X-Rayでは、生成AIとの「対話」感覚でルールを作成でき、専門知識は不要です。
以下は「請求書を検出するルール」と「請求書として検出されたファイル」の一例です。

「請求書を検出するルール」

「請求書として検出されたファイル」

このように、誰でもルールを作成することが可能です。
さらに、日本語で書いたルールであっても、英語のファイル等を検知できます。

「日本語で書いた契約書を検出するルール」

「契約書として検出された英語ファイル」

6. まとめ

クラウドサービスの普及により、ファイル保管場所が多様化したため、「データセントリックセキュリティ」が注目されています。この考えを基にしたDSPM（Data Security Posture Management）は、機密データの漏洩リスクを軽減します。正確な機密ファイルの検出には、従来の正規表現やキーワード検索、機械学習では文脈を考慮できないという課題があります。一方、Ohalo社の「Data X-Ray」は、生成AIを活用し、文脈を考慮した高精度な機密ファイルの検出が可能であるため、機密データの漏洩を防ぐことができます。

「Data X-Ray」に興味がありましたら、お気軽に弊社までご相談ください。

▼組織内のデータを見える化する「DSPMとは？」▼

　生成AIを利用しデータの可視化（発見・分類）を行うDSPMソリューション「Data X-Ray」について、約15分の動画でご紹介します。

RSSで購読する

ランキング

カテゴリ

タグ

月別アーカイブ