추천 시스템의 비밀 

2007년 스트리밍 서비스를 시작한 넷플릭스는 2020년 1억8800만명의 회원을 보유한 회사로 성장했다. 명실상부한 영상 콘텐트의 강자다. 넷플릭스는 사용자에게 맞춤 콘텐트를 적절하게 제공하는 콘셉트를 발판으로 성공가도를 달렸다. 이를 실현해 준 건 방대한 사용자의 정보를 분석해준 ‘추천 시스템’이었다. 그렇다면 궁금하지 않은가. 나도 모르는 내 취향을 이 기업이 어떻게 알았을까.

추천 시스템으로 사용자들은 원하는 제품과 서비스를 고르는 시간을 단축하게 됐다.[사진=게티이미지뱅크]
추천 시스템으로 사용자들은 원하는 제품과 서비스를 고르는 시간을 단축하게 됐다.[사진=게티이미지뱅크]

여름휴가로 캠핑을 가기로 정한 당신. 휴가 때 쓸 ‘코펠(캠핑용으로 고안된 휴대용 조리기구)’을 마련하고 싶다. 그런데 코펠이란 단어가 떠오르지 않는다. 머릿속을 맴도는 연관단어인 ‘냄비’나 ‘작은 프라이팬’ 등으로 검색을 하다가, 화면 한쪽에 ‘추천제품’이 떠오른다. 코펠이다. 쇼핑몰은 어떻게 당신도 모르는 이 제품을 권할 수 있었을까. 

비결은 추천 시스템이다. 일반적으로 인기 있는 온라인 쇼핑몰에는 20억여개의 제품이 있다. 1초에 하나씩 본다고 해도 65년이 걸린다. 일생을 쇼핑몰 제품만 찾아보면서 보낼 순 없다. 비단 쇼핑몰만의 얘기가 아니다. ‘추천 서비스’가 없다면 수십억명의 인터넷 사용자들은 자신이 원하는 ‘서비스’를 찾기 위해서 망망대해를 떠다녀야 한다. 

추천 서비스의 시작은 1990년으로 거슬러 올라간다. 전산언어학자 유시 칼그렌이 ‘디지털 책장’이란 개념으로 처음 선보였다. 이후 20년간 미국 MIT대학교와 정보통신기술 연구소 벨코어의 연구자들이 성능을 개량했다. 

이런 추천 시스템이 대중의 이목을 끈 건 넷플릭스가 우편 DVD 대여 서비스에서 ‘동영상 스트리밍’을 제공한 2007년부터다. 당시 넷플릭스는 사용자가 ‘좋아할 것 같은 영화’를 추천하는 시스템의 정확도를 끌어올리기 위해 100만 달러의 상금까지 걸었다. 

 

지금은 아마존, 페이스북, 바이두, 알리바바 등 IT 기업도 ‘추천 시스템’을 적극적으로 활용 중이다. 이를 통해 사용자는 원하는 걸 찾는 시간을 줄이고, 기업은 매출을 늘릴 수 있으니 일석이조다. 가령, 일부 대형 플랫폼에선 ‘추천 상품’이 매출의 30%를 차지할 정도다. ‘추천 상품’의 질을 1%만 개선해도 수십억 달러의 수익이 발생한다는 분석이 나온 이유다. 

그럼 이 신통방통한 추천 시스템의 작동방식은 무엇일까. 동영상 스트리밍 앱은 사용자가 ‘보고싶다’고 표시한 영화, 평가와 리뷰, 구매내역, 온라인에서 했던 사용자의 과거 활동 등을 모두 수집한다. 무엇을 ‘클릭’했고, 얼마나 ‘오래’ 머물렀는지도 체크 대상이다. 아울러 특정 영화를 몇시간 봤는지, 어떤 광고를 클릭했는지, 어떤 친구와 연락했는지 등도 추적한다. 

디지털 책장에서 넷플릭스까지

이렇게 앱이 모은 정보는 데이터센터로 전달되고, 실시간으로 확장되는 다차원 ‘표’의 형태로 분석된다. 표를 한데 모아놓고 보면, 수많은 사람들의 선호도와 관련한 방대한 정보를 확인할 수 있다. 

이때 사용하는 기술은 협업 필터링과 콘텐트 기반 필터링 두가지다. 협업 필터링은 특정 사용자와 비슷한 사용자를 분석해 해당 사용자가 선호하는 정보를 찾을 수 있도록 돕는다. 

 

예를 들어 특정 사용자의 선호 음악은 모르지만 좋아하는 책의 정보가 있다면, 같은 책을 좋아하는 사용자가 선호하는 음악을 추천하는 식이다. 같은 관심사를 가진 두 사람이 다른 분야에서도 유사한 취향을 갖고 있을 가능성이 높다는 가정에서다. 

콘텐트 필터링은 제품·서비스·콘텐트의 기본 기능을 분석한다. 사용자가 영화 ‘유브 갓 메일’과 ‘시애틀의 잠 못 이루는 밤’을 좋아한다는 정보가 있다면 두 영화의 주연배우인 톰 행크스와 멕 라이언이 나오는 또 다른 영화 ‘볼케이노’를 추천한다. 

늘어난 데이터 감당하려면…

이 때문에 추천 시스템을 구축하는 데 가장 필요한 건 ‘데이터’다. 또한 그 데이터를 분석할 수 있는 인공지능(AI) 인프라도 필수다. 많은 기업이 추천 시스템을 구축하는 과정에서 곤란한 일을 겪는 이유가 여기에 있다. 처리할 데이터 양이 수없이 많은 데다 인프라 유지 비용이 생각보다 크기 때문이다. 

 

이런 점에서 기업의 고민을 풀어줄 만한 인프라가 갈수록 개선되고 있다는 점은 긍정적인 소식이 아닐 수 없다. 엔비디아의 추천 앱 프레임워크 ‘멀린(Merlin)’의 예를 들어보자. ‘멀린’은 고성능 엔비디아 그래픽처리장치(GPU)를 활용해 추천 시스템의 수집·훈련·배포를 위한 모든 과정을 다룬다. 

이를 발판으로 데이터 처리지연 시간을 줄이고 처리량은 높였다. 가령, 100테라 규모의 데이터 세트로 추천 시스템을 만들 때 기존엔 4일이 걸렸지만 ‘멀린’을 이용하면 20분이면 충분하다. 

이렇게 진화한 기술력을 바탕으로 추천 시스템은 앞으로도 여러 서비스의 필수품이 될 가능성이 높다. 유통 플랫폼뿐만 아니라 금융·헬스 등 다양한 방면의 기업이 자신에게 맞는 추천 시스템을 개발하고 있어서다. 

그래서인지 방문하는 사이트마다 우리를 쫓아다니는 추천상품 배너광고가 너무도 당연한 일이 됐다. 문제는 데이터가 쌓일수록 신속한 분석을 내놓기가 어려워진다는 점이다. 추천 서비스 시스템을 구축하더라도 반드시 비즈니스의 성공으로 이어지는 건 아니란 거다. 관건은 속도다. 

최아름 더스쿠프 기자
eggpuma@thescoop.co.kr

저작권자 © 더스쿠프 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음