카링고, EMC, HDS, 퍼마비트, 넥산 등의 불변 콘텐츠 저장 첨단기술 비교

정부나 법률 기관의 데이터 제출 요청에 대해 기업들은 자사의 전자 데이터가 완전하고 변경되지 않았다는 점을 얼마나 입증할 수 있을까?

기업들이 요청기관에 증거자료로 데이터를 제출하기 전에 교묘하게 위조하거나 중요한 부분을 삭제할 수 있다는 점이 널리 알려지면서 음성 녹음과 디지털 사진 등 다양한 전자 기록들을 법적으로 보관하도록 규제하는 컴플라이언스의 중요성이 갈수록 강조되고 있다.

컴플라이언스의 대표적인 예는 데이터 장기 보존 명령이다. OSHA(Occupational Safety and Health Administration 미 연방산업안전청) 규제를 받는 조직들은 신체 검사 기록을 직원이 퇴사한 뒤 30년간 보존해야 하고, HIPAA(의료보험의 상호 운용성과 설명 책임에 관한 법률)는 의료 시설들에게 기록을 20년 이상 보존할 것을 요구하고 있다. 이는 월말, 또는 연말 백업 테이프 사본을 보존하는 것으로는 문제가 해결되지 않기 때문이다. 또 테이프의 상태가 나빠지지 않는다 하더라도 그것을 읽어들일 드라이브를 갖고 있지 않는 것도 그 이유로 들 수 있다.

카링고, EMC, HDS, 퍼마비트 테크놀로지, 넥산 테크놀로지 등 스토리지 벤더들은 불변 콘텐트 데이터를 저장하는 다양한 기술을 제공한다. 이 시스템들이 비싸긴 하지만 소송은 잘못하면 더욱 많이 비용이 들 수 있다는 점에서 도입을 고려할 만하다. 최신 부정 조작 방지 CAS(Contents addressable storage)와 locked NAS 장치들을 살펴보자.

◆WORM, 아카이빙 솔루션으로 각광=규제가 많은 산업은 오랫동안 데이터의 재기록과 삭제가 불가능한 솔루션으로 WORM을 사용해왔다. WORM은 단 한번만 기록할 수 있고 데이터가 삭제되지 않도록 보호하는(write once, read many) 기술이다. 광학 WORM 디스크들은 30년 이상 안전하게 데이터를 보존할 수 있어 불변 콘텐트의 아카이빙 솔루션으로 각광을 받고 있다.

플라즈몬의 고밀도 광학 WORM 디스크는 한장에 60GB까지 저장할 수 있는데, 긴 매체 수명을 필요로하는 조직에 매우 적합하다. 모든 WORM 디스크처럼 이 제품도 기록을 하려면 WORM을 인식할 수 있는 아카이빙 소프트웨어가 필요하다. 플라즈몬의 최신 보관 시스템인 엔터프라이즈 액티브 아카이브는 넥산의 어슈리온 CAS 소프트웨어를 사용한다.

기업들은 데이터를 저장할 때 일반적으로 처음에는 RAID에 기록하고, 이어 장기적으로 보관할 수 있는 스토리지로 옮긴다. 장기 보관용 스토리지로는 테이프가 주로 사용된다. 테이프는 중급의 LTO 제품부터 최고급인 썬마이크로시스템즈의 T10000까지 모두 특수 WORM 카트리지를 식별하는 펌웨어를 갖추고 있다. 일단 데이터가 쓰여지면, 덧쓰기나 삭제를 방지한다. 카트리지당 800GB 용량을 갖고 있는 WORM 테이프를 RAID 캐시 후방에 사용하면 최저의 비용으로 대규모의 아카이브에도 고작 수 분만에 액세스할수 있다.

CAS 시스템은 MD-5나 SHA-1과 같은 해시 기능을 사용하여 저장할 때 첫번째 식별자로 파일의 이름과 계층 디렉터리에서의 위치를 사용하는 대신 전역적으로 하나밖에 없는 식별자(GUID)를 각 파일에 지정한다. 파일은 그 GUID에 기초하여 저장된다. CAS 장치가 CIFS나 NFS 인터페이스를 제공하면 데이터베이스를 검색하여 GUID를 찾은 다음 완전 경로를 확인하여 파일을 추출한다. 이렇게 함으로써 얻어지는 이점은 CAS 시스템이 자동적으로 싱글-인스턴스 스토리지를 제공할 수 있다는 것이다.

저장된 파일이 시스템에 이미 존재하는 파일과 동일한 콘텐츠를 갖고 있을 때는, 새 파일이 동일한 해시 값을 만들어준다. 해시 값 GUID가 스토리지의 프라이머리 키 값이므로 시스템은 두 파일을 동일한 GUID로 저장하지 않고 하나의 파일이 시스템 내에서 여러번 참조되었다는 것을 기록한다. 싱글 인스턴스 스토리지는 필요한 공간을 줄여준다.

◆CAS, 싱글-인스턴스 스토리지 자동 제공=해시 기반 싱글 인스턴스 스토리지와 마찬가지로 해시 충돌 때문에 CAS 시스템에 서로 다른 두개의 파일이 보내졌을 때 하나만 저장되는 것을 염려하는 CIO들이 있다. 이런 일이 발생할 확률은 천문학적 숫자- 제일 기본적인 해시 함수라도 10의 25승 분의 일-이지만 벤더들은 SHA-512 처럼 충돌이 발생할 확률을 훨씬 더 줄여주는 방법을 제공하고 있다.

실제로 CAS가 구현되는 방식은 각 객체와 함께 사용자 메타데이터를 저장하고 시스템 관리자를 포함하여 누구라도 보존 기간이 끝날 때까지 데이터를 삭제하지 못하게 하는 데이터 유지 강화 매커니즘을 제공한다.

EMC의 센테라는 최초의 상업적 CAS 시스템으로 여전히 시장 점유율 1위다. 센테라 독립 노드 리던던트 어레이(RAIN) 아키텍처는 액세스 노드를 사용하여 애플리케이션이 파일을 저장하고 추출하며 디스크와 추가의 처리 용량을 포함하는 스토리지 노드를 사용한다. 센테라는 전통적인 RAID 컨트롤러를 사용하지 않고 각 객체의 사본을 두 개의 저장 노드나 객체 기반 패러티 스킴에 저장함으로써 데이터를 보호한다. 센테라 클러스터는 IP 네트워크 상의 데이터를 복제할 수도 있다.

HDS의 콘텐트 아카이브 플랫폼(CAP)은 2007년 아카이바스를 인수해 내놓은 제품으로 CAS와는 접근 방법이 다르다. 파일의 위치를 프라이머리 식별자로 사용하고 데이터가 저장된 다음 해시 토큰을 만든다. CAP는 부착된 파이버 채널 어레이에 파일을 저장할 때 세개 이상의 무디스크 프론트-엔드 노드를 사용하며 다른 데이터에도 사용할 수 있다.

백-엔드 스토리지나 프론트-엔드 연산 노드를 추가하여 용량과 스피드를 높일 수도 있다. 커스텀 API에 의존하는 대신 HTTP, NFS, CIFS, WebDav를 이용하여 데이터를 쓰고 추출할 수 있다. 아카이브 애플리케이션은 단순한 텍스트 또는 XML파일을 각 폴더에 작성함으로써 보존 시간, 저장되는 데이터 사본의 개수 및 그 밖의 메타데이터를 지정할 수 있도록 해준다.

◆HDS의 'CAP' 접근방식 독특=HDS는 싱글-인스턴스 스토리지, 인덱싱과 데이터 무결성 검사를 백그라운드 작업으로 실행하기 때문에 데이터 저장 속도가 시스템의 해시와 인덱싱 속도에 의해서 제한받지 않는다. 데이터는 아카이브 디스크에 암호화되어 저장되고 SAN을 거쳐 원격 사이트에 있는 다른 CAP 클러스터에 복사된다. CAP는 복수의 사본을 유지하는 것 이외에도 네트워크 데이터 매니지먼트 프로토콜(NDMP)를 직접 지원하여 아카이브를 테이프에 백업한다.

퍼마비트의 CAS 시스템은 복수의 1U 서버 RAIN을 액세스와 스토리지 노드로 설정하여 구축된다. 데이터 디듀플리케이션과 Fast Search & Transfer사의 풀 텍스트 인덱싱을 전용 노드에, 그리고 파일이 저장될 때 여러 버전의 파일 추적을 자동으로 유지하는 유연한 NAS 인터페이스를 제공한다. 문제는 각 노드마다 사용 가능한 용량이 1 TB 밖에 되지 않기 때문에, 큰 아카이브는 많은 랙 공간과 전력을 잡아먹을 수 있다는 점이다. 마이크로소프트가 Fast를 인수했지만 Fast의 여러 OEM 계약은 적어도 당분간은 영향받지 않을 것이다.

넥산의 어슈어리온을 사용하면 단순 스토리지용 RAID 어레이나 연산과 저장 기능을 가진 노드를 쉽게 추가할 수 있다. 어슈어리온은 데이터 디듀플리케이션과 MAID 기술을 포함하여 요구되는 저장 공간과 전력 소모를 줄인다. 어슈어리온은 광학 디스크나 WORM 테이프 라이브러리 전단에서 RAID 캐시 역할을 할 수도 있으며 윈도우 파일 시스템 감시자가 있어 윈도우 파일이 저장될 때 또는 일정 시간이 지나서 파일이 완성되었다고 판단될 때 자동으로 사본을 만든다. 시스템의 판단이 잘못되면 여러 개의 드래프트 문서를 저장하게 되는 단점이 있다.

마지막으로 카링고의 CAStor 소프트웨어는 인텔 기반 PC 서버를 CAS 클러스터로 만들어준다. CAStor는 EMC 센테라와는 달리 독점 API를 프라이머리 인터페이스로 사용하는 것이 아니라 HTTP를 사용하며 CIFS/NFS 액세스를 추가할 수도 있다. CAStor는 LAN 복사 WAN 복사, 데이터 보존, 객체 수준에서 정의 될 수 있는 복사 수준 등 대부분 조직들이 원하는 CAS 기본 기능들을 갖고 있다. 표준 서버와 디스크로 CAS 클러스터를 구축하는 것이 여전히 매력적이지만, 자체적으로 CAS 시스템을 구축하는 것을 대부분의 기업들은 편하게 생각할 것 같지 않다.

◆CAS 대 locked NAS=CAS는 사용자나 관리자가 파일을 삭제하거나 변경하는 것을 방지하는데 적합하지만 복잡하다는문제점이 있기 때문이다. 넷앱은 운영체제인 Data ONTAP에 SnapLock을 소프트웨어 옵션으로 추가해 NAS 스토리지에서 WORM을 구현할 수 있게 한다. 하나의 시스템으로 백업과 복사 그리고 관리까지할 수 있어 비용 절감도 되고 복잡함도 줄일 수 있다.

Locked NAS 또한 개발자들을 편하게 해준다. 새로운 XML-기반 API를 사용하지 않고 간단하게CIFS나 NF를 통하여 locked NAS에 쓸 수 있다. 데이터 보존 기간은 각 폴더별로, 심지어는 파일별로 정의할 수 있다.

넷앱이 내놓은 독점 어드밴스드 싱글 인스턴스 스토리지(A-SIS) 서브파일 데이터 디듀플리케이션 기술은 같은 파일이 두개 생기는 것 뿐만아니라, 파일내의 데이터가 이중으로 생기는 것까지 방지할 수 있다.

CAS와 비교할 때, locked NAS는 객체에 대한 메타데이터를 저장하는 매커니즘이 없다. 이것이 얼마나 문제가 될 것인가는 사용하는 아카이브 소프트웨어가 얼마나 훌륭한가에 달려있다. CAS 시스템은 XML 인터페이스를 사용하여 파일 메타데이터를 저장할 수 있도록 한다. 하지만 locked NAS를 선택하는 조직들은 아카이브 소프트웨어나 엔터프라이즈 컨텐트 관리 시스템으로 메타데이터를 저장해야 한다.
저작권자 © 컴퓨터월드 무단전재 및 재배포 금지