샘플문서 이용 자동 정책 설정, 새로 생성된 콘텐츠 신속 탐지

시만텍이 9일 기자간담회를 갖고 “DLP 11” 버전을 공개했다. 주목할만한 기술은 VML이란 학습 기능이다.

새 제품은 기계학습 기능인 VML(Vector Machine Learning)란 기술을 적용해 생성단계의 데이터에 대한 보안 중요도를 파악할 수 있게 했다. 이를 통해 기업의 민감한 핵심정보를 보다 효과적으로 보호할 수 있게 했다.

기업은 핵심 정보를 효과적으로 보호하기 위해선 가장 먼저 핵심정보가 어디 있는지 정확히 파악해야 한다. 지금까지 선보인 데이터 유출방지 솔루션은 ‘핑거프린팅’과 ‘데이터 정의’ 등 2가지 탐지 기술에 의존해 데이터 위치를 알아냈다고 한다.

핑커프린팅 방식은 보호대상 문서를 모두 수집한 후 각 파일에 고유한 지문을 할당한다. 이 기술의 대안인 데이터 정의는 핵심 정보의 위치를 파악하기 위해 일정한 수식과 키워드 목록을 생성하는 방식을 썼다.

그러나 두 가지 기술은 극복하기 어려운 단점을 갖고 있다. 광범위하게 흩어진 데이터를 갖고 있는 기업들은 핑거프린팅을 적용하기 곤란하며, 데이터 정의는 생성하는데 시간이 오래 걸리고 핑거프린팅보다 정확성이 떨어지는 단점을 갖고 있다.

언급한 두 가지 기존 보안 기술이 갖는 한계를 극복하기 위해 개발된 시만텍의 VML 기술은, 데이터 고유의 특성을 이해하고 민감한 데이터와 그렇지 않은 데이터 간의 미묘한 차이를 파악하기 위해 이미 생성된 샘플 문서를 사용해 학습하는 기능을 갖추고 있다.

학습이란 방법을 쓰기에 이 기술은 키워드 기반의 정책을 생성하거나 신규 문서 생성에 따른 지문 생성 과정이 필요 없다.

여기서 학습 기능이란, 기밀정보 데이터와 그렇지 않은 데이터의 특징을 추출해 학습하는 과정을 거쳐 새로 생성된 문서를 프로파일링한 후 유사도 점수를 뽑아 데이터의 기밀성을 측정하는 것을 말한다.

VML 기술을 사용하면 샘플문서만으로 충분히 정책을 생성할 수 있고, 시스템이 포지티브(지적재산이나 M&A 문서처럼 보호를 요구하는 데이터) 및 네거티브(웹에서 다운받은 오픈소스처럼 무시해도 좋은 데이터)를 추가 샘플을 활용할 수 있기 때문에 시간이 지날수록 정확성이 높아진다.

물론 학습기능을 적용한 초기엔 오탐의 문제가 존재할 수 있지만 교정을 계속 하면서 오탐율을 크게 낮출 수 있다고 시만텍의 윤광택 이사는 설명했다.

또한 학습 과정이 자동으로 실행되기 때문에 데이터 정의 기술에 비해 덜 복잡하고, 더 짧은 시간에 정확한 정책을 개발할 수 있는 장점도 있다.

시만텍은 이 기술이 오탐지율이 낮기 때문에 높은 정확성을 기대할 수 있다고 밝혔다. 특히 VML 기술은 지적재산과 같은 문서를 찾아 내도록 사전에 학습돼 있기 때문에 새로운 버전의 지적 재산정보가 추가되더라도 이를 손쉽게 탐지할 수 있다는 설명이다.

<데일리그리드>

<시만텍 DLP와 학습기능을 설명하고 있는 윤광택 이사>

저작권자 © 데일리그리드 무단전재 및 재배포 금지