빅데이터의 출현과 그 의미

빅데이터의 출현과 그 의미

The Rise of Big Data

How It’s Changing the Way We Think About the World
By Kenneth Neil Cukier and Viktor Mayer-Schoenberger
May/June 2013


(Getty Images / John Elk)

사업의 운영과 정부의 기능, 그리고 사람들의 삶을 인터넷이 바꿨다는 사실은 모두가 알고 있다. 그러나 인터넷만큼 변화를 의미하는 기술 트렌드가 새로이 하나 생겨났다. 잘 보이지 않는 기술이다. 다름 아닌 빅데이터이다. 빅데이터는 오늘날 그 어느 때보다 거대한 양의 정보가 떠 다닌다는 사실부터 시작한다. 이 데이터를 가지고 놀랍게 활용하는 것이다. 비록 웹 덕분에 데이터를 모으고 공유하기가 한결 수월해졌지만 빅데이터는 인터넷과 거리를 두고 있다. 빅데이터는 통신 그 이상이다. 우리가 거대한 정보로부터 배울 수 있다는 아이디어로서 적은 양의 데이터를 사용했다면 아마 이해 못 했을 것이다.

기원 전 300년 당시 알렉산드리아의 도서관은 인류 지식을 집대성한 곳이라고 했었다. 오늘날 세상에 있는 정보는 알렉산드리아가 갖고 있던 모든 컬렉션의 320배를 각자에게 모두 줄 수 있다. 대략 1,200 엑사바이트의 가치이다. 이 모든 정보를 만약 CD로 구워 쌓는다면 그 CD는 달까지도 닿을 수 있다.

이러한 데이터의 폭발은 상대적으로 새로운 소식이다. 2000년, 세상에 저장된 정보의 1/4만이 디지털이었고 나머지는 종이나 필름, 그 외 아날로그 미디어에 들어 있었다. 그러나 디지털 데이터의 확산이 너무나 빠르게 이뤄졌기 때문에(매 3년마다 두 배가 늘었다), 상황은 급변했다. 오늘날 전체 정보 중 디지털이 아닌 정보는 2%가 채 못 된다.

이 정도의 대규모 정보에서 빅데이터를 크기만으로 생각할 수도 있겠다만 그렇게 하면 오해하는 것이다. 빅데이터는 데이터를 이전까지 전혀 재지 않았던 여러 측면으로 해석할 수 있는 것으로 이해할 수도 있다. 이를테면 “데이터화(datafication)”라 부를 수 있다. 가령 위치 정보의 데이터화를 생각해 보자. 처음에는 거리와 고도였다. 보다 최근에는 GPS 인공위성 시스템으로 가능해졌다. 컴퓨터가 수 백 년에 해당되는 책 속의 단어를 데이터로 취급할 수도 있다. 심지어 우정과 “like” 또한 페이스북을 통해 데이터화됐다.

이런 종류의 데이터는 저렴한 컴퓨터 메모리와 강력한 프로세서, 똑똑한 알고리듬과 소프트웨어, 기본적인 통계에서 빌려온 수학의 도움으로 정말 믿을 수 없는 새로운 사용처를 찾아냈다. 언어간 번역이나 자동차 운전처럼 뭔가를 어떻게 하는지 컴퓨터를 “가르치기” 대신(인공지능 전문가들이 수 십년간 시도해 왔지만 별로 성공을 거두지 못 했다), 컴퓨터에 충분한 데이터를 안겨다 줘서 신호등이 녹색일지 적색일지 확률을 재도록 하거나, 영어 단어 light(빛/가볍다)의 프랑스어 번역으로서 lumière(빛)가 더 적합할지, léger(가볍다)가 더 적절할지를 따지게 할 수도 있다.

이런 방식으로 거대한 양의 정보를 사용하려면, 데이터에 접근하는 방식에 대해 근본적인 변화 세 가지가 필요하다. 첫 번째는 이제까지 100년 넘도록 통계학자들이 해 왔듯 샘플, 혹은 소규모의 데이터가 아니라 아주 많은 데이터를 모아서 써야 한다. 둘째, 고도로 잘 골라내고 깨끗한 데이터보다는 혼란을 받아들여야 한다. 워낙 상황 가짓수가 많기에 어느 정도의 부정확성은 받아들일 수 있다. 엄청나게 많은 데이터의 사용에서 나오는 이익이, 정확한 데이터의 소규모 샘플을 사용할 때 수반되는 비용을 능가하기 때문이다. 셋째, 많은 경우 원인을 발견하기 위한 탐색을 포기해야 할 필요가 생길 것이다. 대신 상관 관계를 받아들이면 된다. 빅데이터가 있는 경우 엔진이 어째서 고장 나는지, 혹은 약의 부작용이 어째서 사라지는지 정확히 이해하는 것 대신, 거대한 양의 관련 정보를 모아서 앞으로 어떻게 될지 예측하는 데에 도움이 될 패턴을 분석하면 된다. 빅데이터는 왜가 아니라 무엇에 대한 답변을 도와주고, 그것만으로 충분할 때가 종종 있다.

인터넷은 인간의 통신 방식을 바꿔 놓았지만 빅데이터는 다르다. 빅데이터는 사회가 정보 처리하는 방식을 전환 시켰다. 당분간 빅데이터는 세상에 대해 우리가 생각하는 방식을 바꿀 것이다. 우리가 더 많은 데이터를 다뤄서 사건을 이해하고 결정을 내릴 수록, 우리는 인생의 많은 측면이 특정한 경우라기보다는 확률이라는 사실을 발견할 것이다.

APPROACHING “N=ALL”

역사 대부분에 있어서 정보의 수집과 조직화, 저장, 분석 수단이 열악했기에 상대적으로 적은 규모의 데이터만 작업해 왔었다. 그래서 더 쉽게 조사할 수 있도록 최소한의 정보만을 다뤘다. 현대 통계학의 천재성이 바로 여기에 있다. 원래 19세기 후반에 등장했던 통계학 덕분에 사회는 데이터가 거의 존재하지 않았을 때에도 복잡한 현실을 이해할 수 있었다. 오늘날은 기술 환경이 179도 바뀌었다. 언제나와 마찬가지이겠지만 우리가 다룰 수 있는 데이터에는 한계가 있기 때문에 180도까지는 아니다. 다만 지금은 예전보다 훨씬 더 제한이 없으며 시간이 갈수록 제한은 더욱 더 사라질 것으로 보인다.

과거 정보를 수집하는 데에 따르는 문제는 샘플링으로 해결했었다. 데이터를 수집하는 일은 비용이 많이 들고 그 처리가 까다로우며 시간이 많이 걸렸기 때문에 샘플링을 할 수 밖에 없었다. 현대적인 샘플링은 특정 오차율에서 적은 부분 집합(이 샘플이 랜덤이라는 조건을 갖는다)을 가지고 전체를 추정할 수 있다는 아이디어에 기반을 두고 있다. 따라서 선거할 때 출구 조사는 선별된 장소에서 수 백 명의 투표만 가지고 전체 투표의 결과를 추정하는 식으로 나타난다. 단도직입적으로 말해서 이러한 과정은 잘 작동한다. 그렇지만 샘플 안에서 그룹을 나누고 싶을 경우에는 잘 들어맞지 않는다. 가령 30세 이하의 싱글 여성은 어느 후보에게 투표하는지 알기 위해서는 어떻게 해야 할까? 대학 교육을 받았으며 30세 이하인 아시아계 미국인 여자는 누구에게 투표를 할까? 랜덤으로 택한 샘플이 갑자기 무력해지는 순간이다. 당연히 샘플 안에 그러한 조건에 맞는 사람이 있기는 하겠으나, 그 수가 매우 적어서 전체 하위 집합이 어떤 투표 성향을 보일지 알아내기에 통계적인 의미가 없다. 하지만 모든 데이터, 통계학 용어로 표현할 때 “n=all”을 모은다면 이 문제는 사라진다.

위의 사례는 전체 데이터가 아닌 부분 데이터를 이용할 때의 또 다른 단점을 드러낸다. 사람들이 데이터 일부만을 모았을 때 무엇을 모을지, 어떻게 사용할지도 종종 결정을 내려야 한다. 오늘날 모든 데이터를 모을 때, 데이터를 어떻게 사용할지는 생각도 안 한다. 물론 모든 데이터를 모으기가 항상 가능하지는 않지만 단순히 모든 데이터를 모아들인다는 목표라기보다, 훨씬 더 많은 현상을 캡처할 수 있게 되어가고 있는 것만은 사실이다. 빅데이터는 거대한 샘플을 만들어내는 것만이 아니라 현재 연구중인 것에 대해 기존 데이터를 될 수 있는 한 많이 끌어내는 것이기도 하다. 통계학은 여전히 필요하다. 소규모 샘플에 더 이상 의존할 필요가 없어졌을 뿐이다.

물론 일장일단은 있다. 규모를 늘릴 때 깔끔하고 주의 깊게 다듬은 데이터는 포기하고 혼란함을 받아들여야 하기 때문이다. 지난 수 백 년 동안 사람들은 적은 샘플링 데이터를 다뤄 왔었기 때문에 이와는 반대되는 아이디어가 빅데이터이다. 하지만 정확성에 대한 집착은 정보가 제한적인 환경을 여러모로 인위적으로 만들게 된다. 데이터가 많지 않을 때에는 될 수 있는 한 정확하게 데이터를 모아야 했다. 엄청나게 더 많은 데이터는 우리가 이제 거대한 데이터가 제공하는 통찰력으로부터의 혜택을 받기 위해 어느 정도 부정확성을 허용할 수 있게 됐다는 의미다. (물론 데이터 집합이 전적으로 그르지 않다는 가정 하에서다.)

언어 번역을 보자. 컴퓨터는 대량의 정보를 저장하고 빠르게 불러들일 수 있기에 번역을 잘 할 수 있음이 확실하다. 그러나 불어-영어 사전으로부터 단순히 단어 대치만 하다 보면 번역은 엉망이 돼 버린다. 언어는 복잡하다. 다만 IBM에서 통계적인 번역 기계를 고안했던 1990년대에 한 번 전환이 있었다. IBM은 불어와 영어 모두로 이뤄진 캐나다 의회 속기록을 컴퓨터에 집어 넣어서 한 언어에 대해 최고의 대안이 되는 단어를 유추하도록 프로그래밍했다. 이 과정은 번역 작업을 확률과 수학의 거대한 문제로 바꿔냈다. 하지만 이런 그 이후 개선은 멈춰져 있었다.

그 다음에는 구글이 등장한다. 구글은 캐나다 의회 속기록같은 고품질 번역의 적은 샘플링이 아니라 고품질이라 할 수는 없을 인터넷 상의 데이터를 끌어 모으기로 했다. 기업 웹사이트는 물론 유럽연합의 모든 언어로 된 문서, 심지어 구글의 책-스캐닝 프로젝트 번역까지 모두 다 받았다. 구글은 수 백만 페이지 규모의 텍스트가 아니라 수 십억 규모의 텍스트를 분석했다. 그 결과 구글의 번역은 상당히 좋아졌다. IBM보다 더 좋다. 그리고 65개의 언어를 다룬다. 거대한 양의 혼잡 데이터가 소규모의 깔끔한 데이터를 능가한 것이다.

FROM CAUSATION TO CORRELATION

IBM과 구글의 사례는 데이터에 대한 우리의 사고방식을 변화 시켰다. 소수에서 전체로, 정리된 데이터에서 혼잡 데이터로 말이다. 따라서 세 번째 변화, 인과 관계(causation)에서 상호 관계(corelation)으로 바뀌었다. 세상이 어떻게 돌아가는지 더 깊은 이유를 이해하는 것부터, 단순하게 현상들 중의 상호 관계를 알아보는 쪽으로 변화 했다는 의미다.

물론 원인을 아는 것이 바람직하기는 하다. 다만 그 원인을 알아내기가 극도로 힘들 때가 종종 있으며, 여러 경우 스스로의 환상으로 이유를 알아냈다고 생각할 때가 많다. 행동 경제학은 원인이 전혀 존재하지 않는 곳에서조차 인간은 원인을 알아 보도록 맞춰져 있음을 보여줬다. 따라서 우리는 특히 우리 스스로를 속이는 인식 왜곡을 막아야 할 필요가 있다. 우리가 아닌 데이터가 말하게 하는 것이다.

배송 회사인 UPS를 보자. UPS는 운송 수단의 부품에 센서를 놓는다. 부품에 문제가 생겼을 경우 일어나는 열이나 흔들림을 알아내기 위해서이다. 이런 방식을 사용하여 UPS는 고장이 일어나기 전에 고장이 날 것을 예측할 수 있으며, 필요시 도로상이 아니라 미리 미리 부품을 교체할 수 있도록 했다. 이 데이터는 열이나 진동 패턴, 그리고 부품 고장 간 정확한 관계를 알려 주지 않는다. 부품이 어째서 문제인지 UPS에게 알려주는 것이 아니다. 다만 가까운 장래에 무엇을 해야 할지, 문제의 부품이 존재할 때 해결을 위해 어떻게 해야 할 지를 알려줄 뿐이다.

사람의 병을 치료할 때도 유사한 접근 방식이 쓰이고 있다. 캐나다의 연구자들은 빅데이터를 사용하여 증상이 명시적으로 나타나기 이전에 미성숙 아동의 감염을 알아내는 방법을 개발했다. 심장 박동과 혈압, 호흡, 혈중 산소량 등 중요 정보 16가지를 초당 천 개 이상의 데이터 포인트에 집어 넣음으로써 사소한 변화가 보다 심각한 문제점 간에 관계가 있음을 찾아낼 수 있게 하는 방식이다. 궁극적으로 이 기술 덕분에 의사가 생명을 살리기 위해 사전적으로 행동할 수 있게 됐다. 시간이 지나면 관찰의 기록은, 실제로 어떤 원인 때문에 문제가 생기는지 이해할 수 있게 해 줄 것이다. 그러나 신생아의 건강이 위독할 때는 이유가 정확히 무엇인지 이해하는 것보다 일단 무슨 일이 일어날 지를 아는 편이 훨씬 더 중요하다.

설사 실제 이유를 모른다 하더라도 빅데이터를 통한 상호 관계를 아는 편이 어째서 극도로 가치가 높음을 알려주는 의학 사례가 또 한가지 있다. 2009년 2월, 구글은 의학계를 뒤흔드는 일을 했다. 구글 연구자들이 네이처(Nature) 지에 논문을 하나 제출했는데, 이 논문은 구글 검색 기록만을 사용하여 계절 독감의 발생을 추적할 수 있음을 보여 줬었다. 구글은 미국 내 매일 일어나는 10억 건 이상의 검색 기록을 모두 저장해 놓는다. 구글은 2003년부터 2008년까지 제일 검색이 빈번한 5천만 가지의 검색어를 골라서 미국 질병통제예방센터(Centers for Disease Control and Prevention)의 역사적인 인플루엔자 데이터와 비교했다. 따라서 특정 검색어가 독감 전염과 일치하는지 알아보는 것이 이 논문의 주제였다. 다르게 말하자면, 특정 지역에서 특정 검색어를 자주 할 수록, 그 지역은 질병통제예방센터의 독감 전염 데이터와 관계 있는 지역인지 알아보는 것이 주제였다. 센터는 실제 환자의 병원 방문을 전국 병원에 걸쳐서 데이터로 모으지만 센터측의 보고서는 1~2주일 정도의 시차를 보일 수밖에 없다. 전염벙의 경우 1~2 주일이면 영원에 가까운 시간이다. 이에 반해 구글 시스템은 거의 실시간이다.

구글은 어느 정도의 검색이 제일 잘 일치하는지 알려 하지 않았다. 그 대신 구글은 알고리듬을 통해 독감 전염과 관계 있는 검색어 순위를 정하도록, 해당하는 검색어를 모두 돌려 보았다. 그 다음 이들 검색어를 조합하여 실제로 순위 정하는 모델을 개선 시켰는지 알아봤다. 마침내 데이터를 갖고 5억 회의 계산을 돌려 본 결과 구글은 45 가지의 검색어를 발견해냈다. 가령 “두통”과 “콧물”은 질병통제예방센터의 독감과 강한 연관성을 갖고 있었다. 구글이 발견해낸 45 가지의 검색어는 인플루엔자와 관계가 있었다. 그렇지만 하루 10억 회의 검색이 일어난다면, 무엇이 제일 잘 들어맞는 검색어인지 사람이 추측하기란 불가능에 가깝다.

더군다나 데이터는 완벽하지 않다. 독감 알아보라고 모은 데이터가 아니기 때문이다. 철자가 틀리거나 완전하지 않은 문장으로 검색할 때도 많다. 그렇지만 그 혼잡성과 규모가 주는 보상은 확실했다. 물론 그 결과는 상호 관계 뿐이다. 특정 검색어를 왜 치는지 그 이유는 전혀 알려주지 않는다. 실제로 아픔을 느껴서이거나 옆 책상에서 재채기를 들어서, 혹은 뉴스를 보고 검색했을 수도 있다. 구글 시스템은 그 이유까지 알지 못 하며, 신경 쓰지도 않는다. 실제로 지난 12월, 구글 시스템은 미국 내 독감 수를 과도하게 측정한 듯 했다. 즉, 예측은 확률에 불과하며 실제로 들어맞진 않다. 특히나 예측의 근거가 인터넷 검색인 경우, 언론 보도와 같은 외부 영향에 취약하며, 끊임 없이 변화하기 때문이다. 그래도 빅데이터는 현재 일어나고 있는 방향에 힌트를 줄 수 있으며 구글 시스템은 바로 그 점을 보여줬다.

BACK-END OPERATIONS

빅데이터가 1980년대 디지털 혁명의 혈통을 계승했다고 믿는 기술자들이 많다. 당시 마이크로프로세서와 컴퓨터 메모리의 진보 덕분에 정보를 저장하고 분석할 수 있었다. 단 깊이는 없었지만, 정보의 수집 및 저장, 처리, 공유 비용을 낮춤으로써 컴퓨터와 인터넷은 분명 빅데이터를 도왔다. 빅데이터는 세상을 이해하고 계량화 시키려는 인류의 최신 노력에 불과하기는 하다. 어떻게 이런 일이 이뤄졌는지를 이해하기 위해서는 그 역사를 짧게나마 돌아보는 편이 좋겠다.

도쿄에 있는 산업기술대학원대학(産業技術大学院大学)의 코시미즈 시게오미(越水重臣) 교수는 사람의 뒷면에 대한 이해가 예술이자 과학이다. 사람들이 앉는 방식이 정보라는 생각을 한 사람은 거의 없었지만 정보가 될 수 있기 때문이다. 사람이 앉을 때 몸의 윤곽과 자세, 무게는 모두 계량화가 가능하다. 코시미즈 교수와 그의 엔지니어 팀은 자동차 좌석에 센서를 놓고 360 가지의 다른 지점에서의 압력을 측정해 데이터를 모았다. 그 다음 각 지점에서의 데이터를 0에서 256까지 계량화 시켰다. 그 결과 각 개인에게 고유한 디지털 코드가 나왔다. 실험에서 시스템은 98%의 정확성으로 누가 누구인지 구분할 수 있었다.

연구가 터무니 없지는 않았다. 코시미즈 교수는 이 기술로 자동차용 도난 방지 시스템을 만들 계획이었다. 승인 받은 운전자가 아닌 사람이 운전 좌석에 앉았을 때 자동차를 움직이려면 암호를 묻는 식으로 할 수 있기 때문이다. 앉는 자세를 데이터로 전환하는 일은 유망한 서비스이자 잠재력이 있는 사업으로 바뀔 수 있다. 그리고 그 유용함은 도난 방지에서 끝나지 않을 수도 있다. 가령 해당 데이터는 운전자의 자세와 도로 안전 간의 관계를 알아내는 단서가 되어 사고가 나기 직전의 자세 변화를 드러낼 수도 있기 때문이다. 시스템은 또한 운전자가 피곤할 때를 알아차리고 경고를 내거나 자동적으로 브레이크를 내도록 할 수도 있다.

코시미즈 교수는 데이터로 취급한 적이 없었던 것, 혹은 정보화 시킬 가치가 있으리라 상상도 못 했던 것조차 계량 데이터화 시켰다. 이런 식의 정보 전환을 포괄하는 좋은 단어는 아직 없지만 “데이터화(datafication)”이 적당해 보인다. 데이터화는 디지털화와 동일하지 않다. 디지털화는 책과 영화, 사진 등의 아날로그 콘텐트를 컴퓨터가 읽을 수 있도록 0과 1의 디지털 정보로 바꿀 때 사용하는 단어이다. 데이터화는 훨씬 그 범위가 넓다. 인생의 모든 측면을 받아서 데이터로 바꾸는 일이기 때문이다. 구글의 증강현실 안경은 시각을 데이터화 시킨다. 트위터는 사소한 생각마저 데이터화 시킨다. 링크트인(LinkedIn)은 전문가 망을 데이터화 시킨다.

일단 데이터화 시키고 나면, 목적대로 전환하여 정보를 새로운 가치를 갖는 형태로 바꿀 수 있다. 가령 IBM은 2012년, “securing premises using surface-based computing technology”라는 기술의 미국 특허를 취득했다. 이 기술은 터치-센서가 붙어 있는 바닥을 묘사한다. 바닥이 거대한 스마트폰 화면처럼 된다는 의미다. 바닥을 데이터화 시키면 온갖 종류의 잠재력을 지닐 수 있다. 어느 물체가 놓여 있는지 알 수 있다면 사람이 들어 왔을 때 불을 키거나 문을 열 수 있다. 더군다나 이 기술은 무게에 따라, 혹은 서 있거나 걷는 자세에 따라 누가 누군지도 알 수 있다. 누군가 넘어져서 다시 일어나지 못 하는 경우도 알 수 있을 텐데, 노인들에게 특히 유용할 것이다. 상점의 경우는 상점을 통해 고객의 흐름을 추적할 수 있다. 이런 종류의 활동을 데이터화 시켜 놓으면 저장하여 분석이 가능해진다. 그러면 세상에 대해 더 많은 사실을 알 수 있다. 쉽게, 혹은 저렴하게 측정할 수 없었기 때문에 이전에는 결코 몰랐을 사실이다.

BIG DATA IN THE BIG APPLE

빅데이터는 의학이나 소매업보다 훨씬 더 넓은 의미를 갖는다. 정부가 정치 세계를 어떻게 대할지도 근본적으로 바꿀 수 있기 때문이다. 경제 성장을 일으키거나 공공 서비스를 제공할 때, 혹은 전쟁할 때 빅데이터를 일궈낼 수 있는 사람이 그럴 수 없는 사람보다 훨씬 더 우위에 설 것이다. 지금까지 제일 흥미로운 일은 데이터에 대한 접근과 실험이 더 쉬운 지자체 수준에서 일어나고 있는 중이다. 마이클 블룸버그(Michael Bloomberg) 뉴욕 시장(데이터 사업으로 재산을 모은 사람이다)이 주도하여 뉴욕시는 현재 빅데이터를 사용하여 공공서비스를 개선하고 비용을 줄이고 있다. 새로운 화재-방지 전략이 그 사례이다.

불법적으로 개조(subdivide)한 빌딩은 다른 빌딩보다 화염에 더 잘 휩싸인다. 뉴욕시는 빌딩에 대한 과도한 민원을 받는다. 단, 해마다 2만 5천 건의 불만성 민원을 접수하지만, 답할 인력은 200명에 불과하다. 그래서 이러한 수요와 공급의 불일치에 대해 시장 사무실의 소규모 분석 전문가 팀은 빅데이터가 유용할 수 있음을 알아냈다. 그래서 뉴욕시는 19개 대행사를 동원하여 시내에 있는 90만 곳에 이르는 빌딩 전체에 대한 데이터베이스를 만들었다. 재산차압권과 비-정상적인 전기/수도 사용량, 서비스 단절, 납입금 연체, 구급차 방문, 범죄율, 설치류 불만 접수건 등을 데이터화한 것이다. 그 후 이 데이터베이스를 통해 지난 5년간 화재 기록을 분석하여 관계성을 알아낼 수 있으리라는 희망 하에 심각성에 따른 순위를 정했다. 그러자 놀랍지 않은 결과가 나왔다. 빌딩의 종류나 건립된 해에 따른 화재 예측이 가능해진 것이다. 하지만 외장 벽돌 허가와 낮은 심각성 화재율 간의 관계라는 예기치 못한 결과도 있었다.

이 모든 데이터를 사용하여 뉴욕시는 민원 중 어떤 민원에 특히 관심을 기울여야 하는지를 검출하는 시스템을 구축했다. 빌딩에 대한 위와 같은 데이터가 불을 일으키지는 않는다. 다만 위의 데이터를 가지고 화재 발생율을 늘리거나 줄일 수는 있다. 그 정도 사실만으로도 가치는 대단히 높다. 과거 빌딩 감독관들은 방문한 빌딩 중 13%에게만 소개(疏開) 명령을 내렸다. 하지만 새로운 방법을 사용하면서 그 명령율은 70%로 올랐다. 효율성이 엄청나게 상승한 것이다.

물론 보험 회사들 또한 화재 위험도를 측정하기 위해 유사한 방법을 오랜동안 사용해 왔었다. 그렇지만 그들은 주로, 불과 직관적으로 관련성이 있는 소수의 요인에 의존했었다. 이와 반대로 뉴욕시의 빅데이터 접근 방식은, 화재 위험성과 전혀 관계 없는 듯한 요인을 포함하는 등, 훨씬 더 많은 변수를 갖고 조사할 수 있으며, 뉴욕시의 방식이 훨씬 더 빠르고 저렴했다. 기존의 데이터를 활용하기 때문이다. 빅데이터 위주의 예측이 훨씬 더 목표에 집중한다는 점 또한 제일 중요할 것이다.

빅데이터는 또한 민주주의 정치의 투명성도 높이는 데에 도움을 준다. “오픈 데이터”의 아이디어를 두고 성장한 운동이 있다. 현재 선진국에서 주로 일어나고 있는 정보의 자유, 그 이상을 노리는 운동이다. 지지자들은 정부에게 위험도가 없는 막대한 양의 공공 데이터를 대중에게 공개하라 요구하고 있다. 이 운동의 최일선에는 미국이 있으며, 미국은 Data.gov 웹사이트를 통해 데이터를 공개하고 있고, 미국을 따르는 나라들이 많다.

이와 동시에 정부가 빅데이터 활용을 장려할수록, 불건전한 시장 지배로부터 시민을 보호해야 할 필요성도 커진다. 구글과 아마존, 페이스북(잘 알려지지 않은 Acxiom과 Experian과 같은 “데이터 브로커”도 포함한다)과 같은 기업들이 모두에 대한 막대한 양의 정보를 축적하고 있는 상황이다. 다만 반독점 법은 소프트웨어나 언론 같은 재화와 서비스에 대한 시장 독점을 막고 있다. 소프트웨어나 언론과 같은 시장은 상대적으로 측정이 쉽기 때문이다. 그러나 정부가 반독점 규칙을 빅데이터에 적용할 때는? 끊임 없이 변하고 있는 시장을 어떻게 규정 지을까? 더 많은 데이터는 결국 더 많은 개인 정보의 수집도 수반하기 때문에 프라이버시에서 우려가 더 커질 것이다. 현재의 기술과 법으로는 보호가 어려울 것으로 보이는 빅데이터의 단점이라 하겠다.

빅데이터에 대한 규율은 국가들 간에서도 싸움 거리로 떠오르는 중이다. 유럽 정부들은 이미 반독점과 프라이버시 건으로 구글을 조사중에 있다. 유럽위원회(EC)가 마이크로소프트에 대해 10년 전에 내렸던 조치를 방불케 하는 일이다. 페이스북 또한 전세계에 걸쳐 유사한 행동의 목표가 될 것이다. 개인에 대해 워낙 방대한 정보를 갖고 있어서이다. 외교관들은 마치 자유무역처럼 정보의 흐름을 갖고 싸울 것이다. 미래에 중국이 인터넷 검색을 검열한다면 중국은 언론의 자유만이 아니라 불공정 거래행위로도 비판을 받을 일이다.

BIG DATA OR BIG BROTHER?

빅데이터가 일으키는 새로운 취약성으로부터 시민과 시장을 지켜야 할 필요가 있다. 그러나 빅데이터 자체가 빅브라더가 될 수도 있다는 점을 염두에 둬야 한다. 모든 나라, 특히 민주주의가 아닌 국가들에서 빅데이터는 국가와 국민 간 권력의 불균형 상태를 더 심화 시킬 수 있다.

그러한 불균형은 워낙 거대해서 마이너리티 레포트와 같은 공상과학 영화에서 생생하게 그려낸 빅데이터 권위주의를 탄생 시킬 수 있다. 2002년에 나왔던 이 영화는 톰 크루즈(Tom Cruise)가 범죄를 막는 “사전범죄”과의 수장으로 나온다. 단 사전범죄과는 가까운 장래, 범죄를 막 저지르려는 사람들을 식별해내는 예지자들에게 의존한다. 이 영화는 시스템의 분명한 오류율, 혹은 자유의지의 부정을 주제로 삼고 있다.

실제로 범죄를 저지르기 이전에 범죄를 저지를 사람이 누구인지 판별해낸다는 아이디어가 허무맹랑해 보일 수 있지만, 빅데이터때문가 있으면 실제로 가능할지도 모른다. 2007년, 국토보안부(Department of Homeland Security)는 FAST라는 연구 프로젝트를 발족했다. FAST는 Future Attribute Screening Technology의 약자로서 개인의 바이탈 사인과 몸짓 언어, 그 외 생리적 패턴에 대한 데이터를 분석하여 잠재적인 테러리스트를 식별하자는 프로젝트이다. 로스앤젤레스와 멤피스, 리치몬드, 산타크루즈와 같은 여러 도시의 경찰은 “예측 치안” 소프트웨어를 채택했다. 이전 범죄를 바탕으로 데이터를 분석하여 다음 범죄가 언제 어디에서 일어날지를 알아내는 소프트웨어다.

당분간 이런 시스템이 특정 개개인을 혐의자로 간주하지는않고 있지만 결국은 그런 방향으로 나아갈 것이다. 아마도 나중에는 어떤 젊은이가 가게 물건을 훔칠지 알아낼 수 있을지도 모르겠지만, 범죄라기보다는 부정적인 사회적인 결과를 막을 때 정당한 이유가 될 수 있다. 가령 95%의 확률로 10대 소녀가 임신할 수 있다거나 10대 소년이 자퇴할 확률을 말할 수 있다면, 도움을 줄 수 있지도 않을까? 끌리는 사례이다. 예방이 단죄보다 낫기 때문이다. 하지만 처벌을 하지 않고 도움을 제공하는 형태의 개입이라 할 지라도, 그 개입 자체가 처벌을 구성할 수도 있다. 적어도 다른 사람들 눈에는 전과자로 비쳐질 것이다. 어떤 행위가 일어나기 전에 국가가 처벌을 하는 의미가 될 텐데, 이 경우 자유 의지의 존엄함을 제거하게 될 것이다.

정부가 데이터의 힘에 너무나 많은 신뢰를 둘 수 있다는 우려도 있다. 인류학자인 제임스 스코트(James Scott)가 1999년에 쓴 책인 Seeing Like a State는 데이터 수집과 계량화에 의존한 나머지 정부가 사람들의 생활을 비참하게 만들어버릴 수 있음을 보여주고 있다. 살고 있는 사람들에 대해 알지 않은 채, 지도를 사용하여 마을을 재조직한다거나, 농사에 대해 조금도 알지 못한 채 농산물 수확을 결정하기 위해 데이터의 기다란 표를 사용하는 경우다. 사람들이 오랜 시간동안 상호 작용하는 불완벽하고 유기적인 방법을 사용하여 오로지 계량화를 위해 그들을 묶는다는 의미다.

이러한 맹목적인 신뢰는 역풍을 불러 일으킬 것이다. 데이터의 오류가 갖는 매력때문에 조직화가 이뤄질 수 있으며 수치(數値)에게 필요 이상의 의미를 부여할 수도 있다. 베트남 전쟁의 교훈 중 하나이기도 하다. 미국의 당시 국방부 장관인 로버트 맥나마라(Robert McNamara)는 통계에 집착하여 전쟁의 상황을 측정하려 했었다. 그와 그의 동료들은 사살한 적군 수, 그러니까 신문에 매일 나오는 기사와 지휘관에 의존했다. 그 수를 갖고 데이터 포인트로 삼은 것이다. 전쟁 지지자들에게 있어서 사상자의 증가는 전쟁이 잘 진전되고 있다는 증거였지만, 전쟁 반대자들은 되려 전쟁의 비도덕성의 상징으로 삼았다. 그러나 사상자 통계는 분쟁의 복잡한 현실을 거의 알려주지 않았다. 그나마 그 수치도 부정확할 때가 자주 있었고 성공의 척도로 삼기에는 거의 가치가 없었다. 비록 삶을 개선 시키기 위해 데이터로부터 배우는 것이 중요하기는 하지만, 일반상식은 스프레드시트를 넘어서게 마련이다.

HUMAN TOUCH

빅데이터는 우리가 살아가고 일하며 생각하는 방식을 바꿀 태세에 있다. 인과 관계의 중요성에 기반하여 세워진 관점이 상호 관계의 지배라는 도전을 받고 있다는 의미다. 한 때 과거에 대한 이해를 의미했던 지식의 소유는 이제 미래에 대한 예측력으로 바뀌고 있다. 빅데이터가 야기한 도전은 해결하기 쉽지 않을 테지만, 빅데이터는 세상을 이해하기 위한 최고의 방법이 무엇인지에 대한 끝 없을 논쟁의 다음 단계일 뿐이다.

세상은 많은 문제를 다루는 데에 있어 점차 빅데이터를 통합하고 있다. 기후 변화 문제에 있어서, 어디서부터 시작을 해야 최고일지, 문제를 해결하기 위한 최고의 방법은 무엇일지는, 공해 데이터부터 분석해야 한다. 스마트폰에 들어가 있는 센서를 포함하여 세상에 놓여 있는 센서는 워낙 많은 데이터를 제공하기 때문에 기후 온난화에 대해 더 정확한 모델을 만들 수 있게 해준다. 또한 의료 비용을 낮추고 의료를 개선한다거나, 증상이 나타나기 전에 전염을 검출한다거나 암세포 조직 검사를 하는 것처럼 컴퓨터가 할 수 있는 일이 있다. 현재로서는 사람의 판단을 요구하는 일이다. 이런 일들을 자동화 할 필요가 있다.

궁극적으로 빅데이터는 “정보 사회”가 그 이름값을 드디어 해 내는 순간을 찍을 것이다. 데이터가 중앙 무대에 오르는 순간이다. 그동안 모아 둔 모든 디지털 비트를 새로운 목표를 위해 참신한 방법으로 모아 들여서 새로운 형태의 가치를 뽑아 내는 것이다. 그렇지만 빅데이터는 동시에 새로운 방식의 사고(思考)를 필요로 하며 각 기관과 정체성에 대해 도전할 것이다. 데이터가 결정을 더 내리는 세상이 될 수록 사람과 직관, 사실과 반대되는 경우는 어떻게 될까? 모두가 데이터에 호소하고 빅데이터 툴을 활용한다면 차별화의 중심점이 뭐가 될지는 정말 불확실해질 것이다. 직관과 위험 수반, 사고, 심지어 오류에 이르는 인간의 요소는 어떻게 될까? 데이터 및 기계가 만드는 답변이 몰아내지 않을 직관과 상식, 우연성을 보존할 공간을 별도로 취급해야 할 필요가 있다.

사회의 진보에 대한 관념에 있어서 중요한 시사점이다. 빅데이터 덕분에 우리는 더 빠르게 실험을 하고 더 많은 단서(leads)를 찾아낼 수 있게 됐다. 그 결과 더 많은 혁신이 생길 수 있다. 그렇지만 데이터가 말하지 않는 발명이 나올 때가 있다. 존재하지를 않았으니 확인하거나 입증할 데이터가 전혀 없는 뭔가가 있다는 의미다. 헨리 포드(Henry Ford)가 빅데이터 알고리즘으로 소비자가 무엇을 원하는지 발견했더라면 아마 (포드가 했던 유명한 말을 빌려 표현할 때) “더 빠른 말”이나 키웠을지도 모를 일이다. 빅데이터의 세상에서도 창조성과 직관, 지적인 야망을 조성할 필요가 있다. 인간의 천재성이야말로 진보의 원천이기 때문이다.

빅데이터는 자원이자 툴이다. 설명하기보다는 알려주는 의미로서 말이다. 빅데이터는 이해를 가리키지만 몰이해를 가리킬 수도 있다. 얼마나 잘 휘두르냐에 달려 있다. 그리고 빅데이터가 나타내는 힘이 얼마나 눈 부실지 모르지만 빅데이터의 유혹이 빅데이터의 본질적인 불완벽함을 가려서는 안 된다. 우리는 이 기술의 힘은 물론 그 한계도 알면서 빅데이터를 채택해야 한다.

The Rise of Big Data | Foreign Affairs

위민복님이 번역한 글입니다.

Leave a Comment

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.