데이터 관련 HW·SW·설비비용 절감책…컴플라이언스 등 고려해야

최근 CIO들은 폭증하는 데이터를 감당하기 위해 모든 것을 영원히 저장하는 기존의 접근 방법에서 벗어나 데이터 삭제와 유지에 관한 새로운 정책 수립 방안을 놓고 고민하고 있다.

미국 CVR Energy사는 이러한 고민을 보여주는 전형적인 예다. CVR Energy의 CIO인 마이크 브룩스는 "석유와 가스는 언젠간 소모돼 없어져버리는 것이지만 데이터는 무진장 생성되고 있다. 2008년 한 해에만 정보량이 3~5TB에 이르며, 그 규모는 매년 2배 이상 증가할 것"으로 예상했다.

브룩스는 디스크의 가격이 여전히 낮은 편이지만 그렇다고 모든 전자 정보를 하나하나 남김 없이 보관하는 것은 합리적일 수 없다고 밝혔다. 과도한 용량의 데이터를 보관할 경우 하드웨어나 소프트웨어, 설비 비용이 상승한다는 것 외에도 백업과 검색이 비효율적으로 변모되며 법적인 이디스커버리(e-discovery)에 대한 부담도 높아진다.

◆"쓸데없는 데이터는 없애라"=이러한 이유로, 연매출 30억 달러에 달하는 CVR은 정보를 얼마나 오랫동안 보관해둘지, 그리고 언제 폐기 처분할 것인지를 규정하는 데이터 처분(Data Disposition) 프로젝트를 진행하고 있다. CVR Energy은 이 프로젝트를 통해 새로운 규칙 하에서 데이터를 삭제하고 데이터 중복 제거 기술 등을 도입해 디스크 사용을 절반으로 줄일 계획이다.

이러한 움직임을 보이고 있는 곳은 CVR Energy만이 아니다. 많은 기업들이 아직 도입하진 않았더라도 현재 데이터 처분 전략을 평가 중이다. 가트너는 2013년에 이르면 글로벌 2000 기업들의 절반이 데이터의 수명 주기에 따라 정보를 관리하는 규격화된 시스템을 갖출 것이라고 추정하고 있다.

하지만 CIO들은 신중한 자세로 접근해야 한다. 기업들이 데이터를 '과감하게' 삭제하기 전에 기술적, 제도적, 조직적인 장애 요소들을 제거해야만 하기 때문이다. 가장 중요한 것은 컴플라이언스와 법적인 사항이다. 모든 업종은 정부가 규정한 데이터 유지 및 보관 규제 사항을 따라야 한다. 법적인 차원에서 보면, 고용 차별 등의 문제가 제기될 경우 이를 지원해줄 중요한 정보가 사라질 우려가 있다.

데이터를 제거하는 것은 기업이 그간 쌓아온 것들을 없애는 것이다. 정보를 생산하고 보호하며 보전하는데 많은 시간과 노력을 들여놓고 이제는 폐기 처분하기를 원한다는 것은 이치에 맞지 않을 수 있다.

◆스토리지 비용절감과 용량 재배치 효과 제공 = 무엇보다 경영진이 관심을 집중해야 할 것이 바로 법적인 소송이다. 법률적인 환경의 변화는 이러한 데이터 보전에 대해 기업들로 하여금 제고토록 요구하고 있다. 미국의 경우, 2006년 12월 연방민사소송법(Federal Rules of Civil Procedure)이 업데이트되어, 소송과 관련된 상대측의 기록 제출 요구 사항에 전자 문서를 포함토록 했다. 이는 소송에 연루된 양측이 물리적인 문서와 전자 정보 모두를 요청할 수 있다는 의미로, 기업들은 모든 관련 사항을 의무적으로 보관해두어야 한다는 것을 뜻한다. 여기에 포함되는 문서의 주요 대상은 이메일이지만 오피스 문서와 인스턴트 메시지, 텍스트 문서, .wav 파일 등도 포함되도록 그 범위가 확장되었다.

기업들은 엄청난 양의 비용을 이디스커버리(e-discovery)에 지불하고 있다. EMC의 컴플라이언스 사업부 제품 매니저인 피오나 슈래더는 듀퐁(DuPont)의 경우 한 건의 법적인 디스커버리 법안과 관련 비용이 약 1,100만 달러에 달하는 것으로 추정하고 있다. 듀퐁이 법률 소송에 총 1,100만 달러를 집행한 것이 아니라 디스커버리 부문에 1,100만 달러를 투자했다는 것이다.

또한 기업들은 법적인 데이터 삭제에 관한 또 다른 조항도 염두에 두고 있어야 한다. 소송이 발생하게 되면 해당 송사와 관련된 모든 정보를 그대로 보전해두어야 한다는 것이다.

기술적인 문제도 데이터 삭제를 꺼리게 하는 한 요인이 될 수 있다. 정보가 폐기되기 전에, IT 부서는 해당 정보가 어디에 있는지, 그리고 정보가 어떤 내용인지, 어떤 유지 정책을 따라야 하는지 자세하게 파악해야 한다. 기록 관리와 콘텐츠 관리, 이메일 검색 시스템은 유지 및 처분에서 중요한 역할을 담당한다. 하지만 전사적인 전략보다는 전술적으로 다뤄지는 경우가 많다.

◆데이터 처분 추진사례-미 석유가스 회사 CVR = 정보를 삭제하기 전에 해당 정보가 무엇인지 알아야 한다. 따라서 색인과 분류 기술이 중요하다. CVR의 브룩스 역시 여기에서부터 시작하고 있다. CVR은 Autonomy의 기업용 검색 및 분류용 소프트웨어 플랫폼인 Idol(Intelligent Data Operating Layer)을 도입해 10여 곳에 분산되어 있는 SAN을 중앙화했다. 이 플랫폼은 SAN의 콘텐츠를 검색하기 위해 커넥터를 사용한다.

브룩스는 190만 건의 이메일과 60만 개의 문서를 포함해 SAN에 저장된 색인이 없는(unindexed) 정보의 백로그부터 시작했다. 이러한 데이터를 검색이 가능하도록 만드는데 10일이 걸렸지만 Idol 엔진을 통해 스토리지 네트워크로 이동이 가능한 새로운 데이터로 유지할 수 있게 되었다. 하지만 정보를 검색할 수 있도록 만들 경우 전체 데이터의 볼륨이 증가하는 단점도 있는 것으로 나타났다.

다음 단계는 데이터 유지와 처분을 위해 이러한 정보를 분류하는 것이다. CVR은 현재 데이터 처리 정책을 수립해 이에 따라 분류하고 있는데, 2009년 1분기 경에나 완료될 것으로 예상된다.

브룩스는 법무팀과 회계팀 등 여러 부서와 연계해 정보 보유에 대한 모든 요구 사항에 부합하도록 다양한 정보 범주로 분류하고 있다. 일단 정책이 수립되면 Idol 엔진이 가장 적절한 카테고리로 데이터를 배치하게 된다.

CVR의 정책이 아직 최종 확정되지 않았기 때문에 데이터를 삭제하지 않고 있다. 브룩스는 정보가 유지하는데 한계점에 도달하게 되면 해당 데이터를 폐기할 것인지에 대해 '수동적인' 검토 작업에 들어갈 예정이라고 언급했다. 하지만 그의 최종 목표는 폐기 작업을 자동화하는 것이다. 그는 "수동으로 진행할 경우 많은 시간이 투입될 수밖에 없으며 알고리즘과 파라미터 등을 토대로 자동화가 이루어진다면 일관적으로 정보 보유 및 삭제가 가능해질 것"이라고 밝혔다.

영향 평가: 데이터 보전과 삭제 정책

장점 위험성
IT 부서 데이터 보전과 삭제 정책은 스토리지 인프라를 효율화해준다. 정보 디스커버리와 분류 등 관련 시스템의 경우 스토리지 아키텍처의 효용성을 높여준다. 데이터 보전 및 삭제는 적절한 정책이 뒷받침되지 않을 경우 달성하기가 쉽지 않으며 여러 유관 부서간 긴밀한 협조 체제가 마련되어야 한다.
비즈니스 부서 직원들의 정보 검색 및 보관에 대한 정책이 확립될 경우 관련 기술의 도입이 이루어지게 됨에 따라 생산성 향상에 기여한다. 어떤 데이터를 삭제하고 보관할 것인가에 대한 표준화된 방법론이 아직 없으며 기업 개개인의 필요에 따라 진행된다면 향후 규제 요구 사항이나 법률적인 요구 사항에 적절히 대응하기 못할 위험이 제기된다.
비즈니스 경쟁력 데이터 보전과 삭제는 효과적인 정보 관리 시스템의 '시금석'이 된다. 소송에 휘말릴 경우 디스커버리 비용이 크게 절감될 수 있다. 부적절하게 데이터를 삭제한다면 소송에서 패소하는 등 비즈니스 경쟁력에 치명적인 피해를 끼치게 될 수 있다.



종합 평가: 정보를 무한대로 보유한다는 것은 합리적이지 않다. 구조화나 체계화되지 않은 데이터가 폭발적으로 늘어나고 있는 상황에서 데이터를 적절하게 보관하고 삭제하는 기술의 경우 정보 관리 시스템의 중요한 축을 담당하게 될 것이다. 견고한 정책이 수립된다면 법적인 디스커버리의 비용도 줄일 수 있다.

또한 그는 법적인 상황도 이해하고 있다. 소송이 제기될 경우, Idol 기술을 사용해 관련 데이터를 검색한 다음 해당 정보를 별도의 저장소로 이동시킬 계획이다. 아울러 브룩스는 노트북이 기업 네트워크에 접속될 때마다 노트북의 데이터를 SAN으로 이동시키는 에이전트 소프트웨어를 도입했다. 데이터가 SAN에서 폐기될 경우 에이전트가 노트북에서도 해당 정보를 삭제하게 된다.

◆ECM업체, 데이터 처분 관련 솔루션 제공 = 데이터를 처분하는 분야에는 많은 벤더들이 참여하고 있다. 예를 들면, 엔터프라이즈 콘텐츠 관리(ECM) 시스템 벤더인 EMC나 오픈 텍스트, IBM(파일네트 소프트웨어를 통해) 등은 자사 제품군에 분류와 유지, 처리 기능을 추가하고 있다. ECM 제품들은 비즈니스 계약이나 법적인 서류 등 공식 문서와 전자 기록에 대한 엄격한 통제를 위해 기록 관리에 초점을 맞추고 있다. 또한 문서에 대한 콘텐츠 저장소의 출입 현황도 제공한다.

EMC의 다큐멘텀(Documentum) 콘텐트 관리 시스템은 특정 유지 정책을 집행할 수 있도록 폴더를 만들게 해주는 EPS(Retention Policy Services) 모듈을 제공한다. 다큐멘텀은 최근 마이크로소프트에 인수된 패스트(Fast) 기업용 검색 엔진을 라이선스하고 있다.

오픈 텍스트(Open Text)의 엔터프라이즈 라이브러리 서비스(Enterprise Library Services; 2007년 10월 출시)는 아카이브나 파일 시스템, 마이크로소프트 쉐어포인트, SAP 등 다양한 콘텐트 저장소에서 정보 유지 및 처분 정책을 제공한다. 2007년 12월, IBM은 파일네트와 IBM Classification Module 사이에 SOA 기반으로 연결할 수 있는 모듈을 발표했다. 이 모듈은 이메일처럼 체계화되어 있지 않은 콘텐츠를 풀 텍스트(full-text) 분석을 통해 자동으로 분류한다. 지난 3월 HP는 호주의 문서 및 기록 관리 벤더인 타워 소프트웨어(Tower Software)에 대한 인수를 발표해 디스커버리와 컴플라이언스 분야를 확대하고 있다.

◆컴플라이언스와 법적규제 등 고려해야 = 정보를 분류하는 것도 쉽지 않지만 그 방법을 찾는 것은 훨씬 더 어렵다. NAS(network-attached storage) 필터나 이메일 아카이브와 같은 주요 데이터 스토어는 파악하기가 쉽다. 스토리지 관리자들은 해당 데이터가 일반적으로 어디에 있는지 알고 있다. 하지만 그 밖의 데이터 스토어는 찾기가 쉽지 않다. 예를 들어, 쉐어포인트 서버의 경우 도입하기에는 비교적 수월해 IT의 허가나 통보 없이도 각 부서의 매니저들이 '알아서' 설치할 수가 있다. 이 경우 해당 서버에 보관된 정보는 유지 및 처분 정책에 부합되지 않을 수 있다.

소셜텍스트(Socialtext)나 Pbwiki, 구글 닥스(Google Docs) 등 온라인 협업 툴도 또 다른 해결 과제이다. 사용자들은 IT 부서에 알리지 않고 기업용 콘텐츠를 이들 사이트에 올려놓을 수 있기 때문이다.

데스크톱과 노트북도 중요한 고려 대상이다. 사용자의 하드 드라이브에는 기업 데이터가 저장되어 있기 때문이며 플래시 드라이브나 착탈식 저장 장치도 예외로 규정해서는 안 된다.

이를 해결하기 위해서는 어떻게 해야 할까? 엔드 유저 단말기의 경우에는 에이전트를 도입하면 된다. EMC는 정보 관리를 위한 엔트포인트에 구축되는 RSA Data Loss Prevention 에이전트를 보유하고 있다. 이 에이전트는 특정 정보가 이메일에 첨부되지 않도록 차단하거나 착탈식 드라이브에 저장되지 않도록 사용자 정책을 집행하는데 초점이 맞춰진 것이다. 하지만 사용자의 엔드포인트에 있는 정보가 유지 정책에 부합되도록 보장하기 위해서는 분류 기능을 변경해야 한다. 백업 에이전트 역시 비슷한 역할을 할 수 있다.

데이터 보전 및 삭제에 관한 전략 수립은 IT와 비즈니스 부서 모두에게 혜택을 줄 수 있다. 견고한 정책이 마련될 경우 기업들은 스토리지 비용을 줄이고 디스크 용량을 재배치할 수 있다. 데이터를 찾고 분류하는데 필요한 툴의 경우 정보 관리 전략의 일부로 활용이 가능하다. 정기적인 정화 작업 역시 소송에 연루될 때 디스커버리 비용을 낮춰줄 수 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지