구글, 애플, 아마존이 모두 사용하는 기술을 아시나요? [경제용어사전: 아이스버그]
더스쿠프 Econopedia 데이터 저장 기술 아이스버그 넷플릭스 엔지니어링팀 개발 대규모 데이터 분석에 용이 다양한 엔진 상호 지원해 빅테크, 아이스버그로 대체 중
■ 아이스버그(Iceburg) = 대규모의 데이터 세트를 정확하고 유연하게 관리할 수 있는 데이터 저장 기술이다. 비영리 오픈소스 재단 ‘아파치 소프트웨어 재단’이 오픈소스로 운영하고 있어 아파치 아이스버그라고도 불린다. 인공지능(AI)과 클라우드 기술의 발전으로 데이터를 좀 더 효율적으로 관리해야 할 필요성이 커지며 주목받기 시작했다.
아이스버그의 장점은 빠른 속도와 범용성이다. 아이스버그는 단순히 데이터를 저장·처리하는 것을 넘어 다양한 시스템과 클라우드에 쉽고 빠르게 적용된다. 아이스버그 전前 세대 모델로 여겨지는 델타레이크와 비교해보면 쉽게 이해할 수 있다.
글로벌 데이터·AI업체인 데이터브릭스가 운영하는 델타레이크는 데이터를 로그(일지) 기반으로 저장한다. 데이터나 데이터 변경 내용을 일지처럼 기록한다는 뜻이다. 이에 따라 특정 플랫폼 내에서의 데이터만 처리할 수 있다. 다른 플랫폼으로 이동하면 일지를 새로 쓰듯 데이터를 처음부터 재작성해야 한다.
반면 아이스버그는 사진을 찍듯이 특정 시점의 데이터 상태를 그대로 기록하는 스냅샷(Snapshot) 방식을 취한다. 이 때문에 데이터를 특정 시점으로 그대로 되돌리거나, 필요한 시점의 데이터만 업데이트하는 방식이 가능하다.
아이스버그의 이같은 기술을 처음 개발한 건 흥미롭게도 넷플릭스의 데이터 엔지니어링팀이다. 2017년 넷플릭스는 대규모 ‘데이터 레이크(데이터를 로 데이터로 저장하는 단일 저장소)’에서 데이터를 찾고, 꺼내 활용하는 데 불편함을 겪고 있었다.
당시 데이터 엔지니어링팀에 소속된 라이언 블루와 댄 윅스는 각자 다른 시스템에서도 데이터가 일관적인 형태를 유지할 수 있는 방안을 찾기 위해 아이스버그 개발을 시작했다. 이후 이 기술을 오픈소스로 공개했고, 2018년 11월 아파치 소프트웨어 재단에 기부했다.
IBM 싱크(IBM Think)의 AI 모델 분야 선임 기자인 데이브 버그만은 “아이스버그는 전체 파일 크기를 델타레이크보다 상당히 작은 수준으로 유지하면서도 10배 빠른 업데이트 속도를 보인다”며 “전세계의 다양한 데이터 팀이 기존 포맷에서 아이스버그로 전환하고 있다”고 평가했다.
실제로 현재 아이스버그를 사용하고 있는 기업 중엔 우리에게 익숙한 이름들이 많다. 구글 클라우드, 애플, 아마존웹서비스(AWS), 오라클 등이다.
조서영 더스쿠프 기자
syvho11@thescoop.co.kr