진보적미디어운동연구저널 Act!

[ACT! 84호 리뷰] 방 안의 코끼리, 빅데이터

『빅데이터: 승리의 과학』

[편집자 주] 이 글은 『빅데이터: 승리의 과학』이란 책을 통해 현재 IT계에서 가장 뜨거운 주제인 빅데이터를 둘러싼 여러 가지 이슈를 살펴보고 그 중에서 보안과 프라이버시 관련 내용을 중점적으로 언급하고자 한다.

*빅데이터(Big Data) : 큰 규모의 데이터를 바탕으로 수집, 저장, 검색, 분석, 체계화하기 위한 도구와 플랫폼, 분석기법을 포괄하는 용어. 체계화된 형식에 맞춰 입력되어 분류가 수월했던 기존의 데이터와는 달리 비정형의 다양하고 잡다하기까지 한 데이터를 대상으로 쉴 새 없이 해석하여 새로운 가치를 창출해 내는 작업을 일컫는다.



▲『빅데이터: 승리의 과학』(고한석 지음 | 이지스퍼블리싱 | 2013)



빅데이터의 시대
구글에서 빅데이터(Big data)를 검색하면 16억 개의 검색결과가 나오고, 다음에서 뉴스를 검색하면 2013년에만 6900여 건의 기사가 검색된다. 언론에서는 빅데이터의 유용성에 대해 하루가 멀다시피 떠들어 대고, IT업계에서는 SNS의 등장 이후 한동안 공백상태였던 스트라이커 자리에 빅데이터라는 뜨거운 화두를 선정하고는 대동단결하여 밀어주기를 하고 있는 형국이다. 바야흐로 빅데이터의 시대가 열린 것이다. 그런데 우후죽순 쏟아진 빅데이터 관련 서적들은 단순한 기술 설명이거나 기업경영이나 마케팅에서의 유용성을 강조할 뿐, 실제적으로 일반인들에게 와닿을 만큼 쉽거나 실용적인 설명은 부족한, 아직까지는 설익은 내용들이 대다수다. 오히려 블로거들이 올린 짧은 글이 한 권의 책보다 유용한 정보를 담고 있는 경우도 있었으니 정보통신기술, 의료, 언론, 보안, 경영에 이르기까지 각 분야를 뜨겁게 달구고 있는 화제성에 비하면 참고할 만한 자료는 턱없이 부족한 것이 사실이다.
오바마의 선거운동에서 활용된 데이터 마이닝 기법(Data-mining)을 중심으로 빅데이터를 설명한 '빅데이터: 승리의 과학'은 다른 서적들에 비해 관련 개념을 알기 쉽게 설명하고 있으며, 2012년 미국 대선 현장에서 활용된 사례를 중심으로 이야기를 풀어 나가기 때문에 실제적이고 실용적인 내용들을 담고 있다. 얼핏 생각하기에는 선거운동의 사례만 나오기 때문에 다른 분야에서도 유효할 수 있을까란 선입견도 가질 수 있겠으나 다양한 자료를 바탕으로 쉽게 설명된 집필 스타일 때문에 향후 빅데이터가 바꾸어 놓을 사회 전반의 모습까지 예측하기에 부족함이 없어 보인다.
이 글에서는 책의 내용을 언급하며 빅데이터가 우리의 삶과 일과 생각하는 법을 어떻게 바꾸게 될 것인지를 예측하는 것과 동시에 현재 이뤄지고 있는 빅데이터 논의에서 간과되고 있는 개인정보 보호와 사생활 침해의 위험성 같은 '빅브라더'와 감시사회 담론까지 언급하려고 한다.


빅데이터의 아이러니
빅데이터도 얼핏 보면 그저 각종 IT기기가 만들어 내는 상상 초월의 데이터를 말하는 것처럼 보인다. 2012년 현재 인류가 단 하루에 생성하는 데이터량은 2.8제타바이트(ZB=1조 기가바이트)로 인류가 그동안 생생해온 데이터를 모두 합쳐도 부족할 정도로 거대한 규모다. 그렇게 방대해진 자료를 바탕으로 처리되는 업무의 효율성과 정확성은 예전에 비할 수 없이 늘어날 것으로 예측된다. 하지만 꼭 그렇다고 할 수 있을까? 무조건 데이터의 양이 많다고 의사결정에 도움을 주고 최종 결과에서 유용한 값을 가져올까? 그런 논리라면 막대한 자본을 바탕으로 충분한 자료를 수집할 수 있는 대기업의 마케팅은 늘 성공을 거두고, 여론조사를 위한 표본집단의 수만 늘린다면 여론조사만으로도 선거의 결과를 예측할 수 있을 것이다. 하지만 그런 예측은 현실의 상황과 맞지 않는다는 것을 우리는 이미 알고 있다. 우리가 살고 있는 세계는 정형화된 틀 속에서 얌전히 있지 않고 유동적이며 예측이 어려울 정도로 혼란스러운 카오스계이기 때문이다.
사람의 가치판단으로만 논의의 범위를 한정지어 보자면, 정치적 입장이 진보에 속한 사람이라고 해서 모든 사고를 진보적으로 하는 것은 아니다. 원자력발전과 유전자 조작 식품에 반대하지만 총기 휴대는 찬성할 수 있고, 낙태와 동성결혼은 찬성하지만 의료보험에는 반대할 수도 있다. 요컨대 한 사람이 결정을 내리는 데에는 단순히 정치적 입장이나 신념과 같은 특정 가치 판단 유형으로는 설명할 수 없을 정도로 복잡한 없는 요인들이 오묘하게 작용한다. 그런 요인들을 한 단어로 말하자면 욕구라고 할 수 있다.
인간이 어떤 결정을 내릴 때에는 그들이 갖고 있는 수많은 욕구들이 움직여서 최종 판단을 내리는데, 재미있는 것은 그런 욕구들은 도무지 예측을 할 수 없다는 점이다. 위에서 예를 든 것처럼 어울리지 않는 것처럼 보이는 선택도 그렇고, 때에 따라 변하는 변덕도 그렇다. 이런 모습만 보면 인간의 사고와 행동을 분석하고 예측하고 활용하는 것에 대해서는 회의적일 수밖에 없을 정도다. 아무리 많은 양의 정보를 바탕으로 인간의 욕구를 분석한다 하더라도 외부인들이 그들의 의사결정을 예측한다는 것은 불가능에 가까웠다. 데이터가 부족해서도 그렇고 그들 사이의 연관성을 찾기도 힘들기 때문이다. 그런데 빅데이터의 등장은 이런 회의적인 태도를 일거에 일소할 정도로 획기적이었다. 적어도 오바마 캠프의 선거운동에서 활용된 빅데이터 기반의 선거 전략은 그랬다. 아이러니하게도 그들이 성공할 수 있던 건 수집하고 활용한 데이터가 크기 때문이 아니었다. 정반대로 너무도 작고 사소한 데이터들까지 무시하지 않고 활용했기에 그들은 성공할 수 있었다.


데이터를 수집하고 분류하라
한 후보의 선거 캠프가 선거에서 이기기 위해 전략을 세우고 활동을 하기 위해서는 방대한 자료를 필요로 한다. 유권자들의 이름, 성별, 나이, 거주지 등의 기본정보부터 평소의 정치적 성향, 사회활동, 소속 모임 등의 민감한 정보까지 많이 알면 알수록 효율적이고 적극적인 선거운동을 펼칠 수 있기 때문이다. 국가에 등록된 유권자 명단만으로는 선거공보물을 보내는 원시적인 수준의 선거운동만 가능하기 때문에 그 이상의 정보를 구하기 위해 모든 수단을 동원해야 하는데 모든 유권자가 당원이나 적극적인 지지자들처럼 자발적으로 정보를 제공하지 않고 동시에 프라이버시가 중시되는 현대사회에서 그런 자비를 기대하는 것은 무리다. 따라서 선거 캠프는 어떻게 해서든 유권자들의 성향을 판단하고 전략을 세울 수 있는 자료들을 수집하는 데에 혈안이 될 수밖에 없다.
상업적 용도로 소비자 정보를 수집, 보관하는 데이터베이스 업체들은 소비자들이 선호하는 취향을 예측하기 위해 각종 구매 기록과 매장 방문 기록, 즐겨 접하는 매체와 프로그램, 인터넷 방문기록 등을 '합법적'으로 수집하고 있는데 수십 년간 개인정보 데이터베이스를 구축한 이런 회사들의 정보력은 국가기관을 능가할 정도에 이르러 2001년 9.11 테러 직후에 미국 정보가 이들 업체의 협조로 테러범의 정보를 찾기도 했다. 이들에겐 정보란 곧 재화이기 때문에 누구나 적당한 대가만 지불하면 정보를 제공해주는데, 유권자 정보를 찾고 있는 선거 캠프들도 역시 이들의 고객이 될 수 있었다.
자료를 수집했으면 활용을 해야 하는데 데이터베이스 업체를 통해 입수한 정보만으로는 아무 것도 알아낼 수 없다. 그 자체로는 개인식별정보가 배제되어 있는 반쪽정보고, 어떤 자동차를 타는지, 어떤 식당을 가는지 같은 정보만으로는 어떤 후보를 뽑을 지를 알려주지는 못한다. 그렇기 때문에 민주당의 선거 캠프는 여러 전문가들을 영입해서 높은 현실예측력을 갖춘 알고리즘(결과에 영향을 주는 다양한 요소들에 다른 가중치를 반영한 방정식)을 만들기 위해 고군분투했다. 사소할 수 있는 다양한 요소들이 서로 얽혀서 작용할 때 어떤 연관성을 갖고 있는지를 분석해서 가장 높은 확률로 다음 선택을 예측할 수 있는 시스템을 구축했다. 그러기 위해서 저마다 다르게 설계된 시스템의 자료 입력 방식을 통일하였고, 당원이나 후원금 기부자 명단, 자원봉사자들의 명단과 교차 비교를 하여 특정한 경향을 찾았다. 이런저런 선택을 하는 사람들은 어떤 후보를 뽑을 경향이 높다는 식의 모델을 만들어 낸 것이다. 수천만 명 이상의 데이터들은 처음에는 개개인의 생활방식 일부를 나타낸 의미없는 데이터에 불과했지만, 이런 예측 모델의 분류를 거친 뒤에는 가치 있는 '정보'로 재탄생하게 된 것이다.


데이터 마이닝과 마이크로 타기팅
2억 5천만 명의 미국 국민들의 500~1000개 항목에 달하는 잡다한 정보들이 정보로 탈바꿈하는 데에는 군집분석, 다변수 회귀분석, 연관성 분석 등의 기법이 동원되는데 이런 분석기술을 데이터 마이닝(Data-mining)이라고 부른다.
군집분석은 수집된 데이터들 중 유사한 특성을 가진 여러 집단을 각종 변수에 기초하여 이리저리 묶어 보며 가장 높은 동질성을 갖게 분류하는 것을 말하는데 개인식별정보, 인구사회학적 변수, 라이프 스타일 변수, 정치 활동 변수, 정책 입장 변수 등에 따라 나뉜 소집단들은 나중에 연관성을 분석하기 위한 기반이 된다. 다변수 회귀분석은 다양한 독립 변수가 최종 결과인 종속변수에 대해 얼마나 영향을 미치는 지를 알아내는 작업이다. 인종, 성별, 연령, 거주지, 소득, 이슈 관심도 등에 따라 특정 값을 입력하면 오바마를 지지할 확률이 구체적인 수치로 나오도록 공식을 만드는 작업이라고 할 수 있다. 연관성 분석은 하나의 행위와 상관관계에 있는 항목을 찾아내는 작업이다. 인터넷 서점에서 책을 살 때 같은 책을 산 다른 사람들의 구매 상품을 추천하는 것이나 스바루나 현대차를 모는 사람은 민주당을 지지하고 투표에 적극적으로 참여한다는 식의 분석이 그것이다.
데이터 마이닝이 끝나고 나면 축적된 데이터들을 갖고 정교한 선거운동을 하기 위해 대상을 설정해야 한다(마이크로 타기팅(Micro-targeting)). 노동자 계층이나 흑인이라면 오바마를 지지하겠지 라는 식의 주먹구구식의 대상 설정은 요즘 같이 다양화된 사회에서는 의미를 잃은 지 오래다. 인구수만큼 다양한 대상 설정은 불가능하더라도 높은 연관성을 바탕으로 나뉜 대상들은 분명 다른 비중을 지닐 것이다. 굳이 노력을 해도 입장을 바꿀 수 없는 이들에게 노력을 하느니 설득이 잘 먹힐 수 있는 대상들을 우선 순위별로 분류한 뒤 순서대로 접근을 하는 것이 훨씬 효율적이지 않을까? 이런 과정은 특정 대상들에게 효과적인 접근 방법을 모색할 수도 있을 뿐만 아니라 정치후원금이나 자원봉사자 같은 한정된 자원을 효율적으로 배분하기 위한 필수적 과정이기도 하니 일석이조라 할 수 있다.


구관이 명관
아무리 기술이 발전해도 어떤 류의 정보는 쉽게 얻을 수 없다. 개인들 간의 수다나 컴퓨터나 전자장치를 쓰지 않는 이들이 만들어 내는 정보는 전산화가 되지 않기 때문에 원시적인 방법까지 동원해야 할 때도 있다. 그래서 오바마 캠프는 노인 자원봉사자들을 이용했다. 데이터를 수집하기 위해 컴퓨터 앞에 앉아 손가락만 움직이기보단 '가정방문'이나 '올드미디어' 활용까지 불사할 정도로 저돌적으로 달려들었다. 각 지역마다 풀뿌리처럼 활동 중인 자원봉사자들이 지역방송을 통해 라디오 토크쇼에 전화를 거는 청취자의 이름을 수집하고, 집 앞에 지지후보 팻말을 꽂아둔 이웃의 정보를 기록했고, 동네 파티에 참가해서 참가자들이 주고받는 말조차 가볍게 흘리지 않았다. 이렇게 수고해서 모은 자료들은 자원봉사자들이 갖고 있는 스마트폰과 컴퓨터를 통해 중앙시스템에 모여들었고, 그 자료들은 페이스북, 트위터, 구글 같은 곳에서 일하던 젊은 IT전문가들이 만든 프로그램을 통해 유의미한 정보로 가공되었다. 민주당 지지자 할머니가 지역 신문의 부고란에서 사망자의 이름을 보고 유권자 데이터베이스의 정보를 갱신함으로써 민주당의 홍보우편물 발송 비용 44센트를 절약하는 건 절대 무시할 수 없는 기여 아닐까.
이런 모든 노력들에 힘입어 2012년 미국 대선 결과는 버락 오바마 대통령의 재선 성공으로 끝맺었다. 그 과정에서 빅데이터 기반 선거 운동이 힘을 발휘했으리란 건 선거 이후 캠프 구성원들에게 영입 제의가 쏟아진 것만 봐도 알 수 있다. 이 책이 나온 이유도 바로 그런 성공 사례에 초점을 맞췄기 때문이리라. 갈수록 효율성만 추구하고 삭막해 지고 있는 요즘 최첨단 기술을 통해 국민 개개인의 취향과 생각에 맞는 메시지를 전달한다는 건 얼마나 아름다운가. 인간들은 갈수록 기계처럼 변해 가는데, 기술은 한없이 인간을 향해 다가가는 이 모순적인 상황이란.


빅데이터로 여는 미래
그렇다면 빅데이터는 인류에게 더 나은 미래를 약속할까? 이 책에서 말하는 것처럼 빅데이터가 그동안 주먹구구식으로 운영되던 수많은 의사결정과정을 획기적으로 뒤바꿔 자원의 낭비를 막고 개개인에게 딱 들어맞는 서비스를 해줄 수 있을지는 모르지만 그 과정에서 수많은 사람들의 개인정보와 프라이버시를 엄청난 위험 속으로 몰아넣는 것은 아닐까. 기술이 발달될수록, 특히 빅데이터처럼 개인정보를 처리하는 기술이 첨단화될수록 개인의 가치는 고스란히 금전적 가치로 치환될 것이고 그들의 프라이버시를 보호하기 위한 장치는 하나씩 제거될 것이고 누군가 한 사람의 정보를 알아내기 위해서 별다른 수고를 하지 않고도 목적을 이룰 것이고, 종국에는 기업이나 국가가 개인들의 모든 것을 감시하고 통제할 수 있게 되지 않을까. 어쩌면 혹자는 이런 우려를 기우라 하겠고, 이 책의 저자도 그런 입장인지 책 전체에서 빅데이터 활용을 찬양하다가 맨 끝에서야 '네 쪽'의 지면을 이용해 빅데이터가 빅브라더로 변하는 것에 대한 걱정스러운 시선을 조금 전하고 있다.
그런데 사생활침해의 위험성과 국가와 기업의 감시체계 구축은 그 정도로 가볍게 다룰 만한 성질의 문제가 아니다. 어쩌면 인권과 민주주의의 근간을 뒤흔들만한 엄청난 성질의 사건인데 다들 빅데이터가 가져다 줄 장미빛 미래에 도취되어 그 점을 간과한다. 아니면 알면서도 의도적으로 무시하던가.


▲ 페이스북의 좋아요 버튼 (출처: http://shegznstuff.com/?p=1621)



손가락 하나로 여는 새로운 미래
오바마 캠프의 선거 운동 중 페이스북을 이용한 사례 중 한 가지를 소개하겠다. 요즘 젊은 유권자들은 휴대전화만 갖고 있어서인지 전화번호부에 등재되어 있지 않아 캠프 측에서 선거운동에 어려움을 겪을 수밖에 없다. 그래서 오바마 캠프는 지지자나 관심 있는 사람들이 오바마의 페이스북에 방문할 때 공유하기 버튼을 눌러줄 것을 부탁했고, 버튼을 누르는 순간 그들의 담벼락에 오바마 홍보 게시물이 게재되어 일종의 다단계 홍보가 펼쳐졌다. 100만 명의 방문자들이 공유하기를 누르는 순간 500만 명의 페이스북 이용자들이 오바마 홍보물에 노출되었고 그들은 일반 배너 광고를 클릭하는 것보다 두 배 이상의 관심을 보여주었다. 아마 평소에 웹서핑 중 무작위로 뜨는 광고의 경우에는 쉽게 무시하곤 했지만 지인의 담벼락에 올라와 있는 글은 인간관계의 영향으로 인해서 뭔가 다를 것이란 판단을 내렸을 확률이 높다. 이 정도 수준의 홍보방법이라면 기존의 입소문 전략과 별로 다를 게 없으니까 크게 문제될 것이 없어 보인다. 그저 일회성의 광고일 뿐이고 내가 클릭하지 않으면 아무런 영향은 없는 것이니까. 그렇다면 포털사이트에서 기사를 읽거나 타인의 블로그 게시물을 볼 때마다 끊임없이 따라다니는 광고라면 어떨까.


▲ DAUM 가입 절차 중 개인정보 수집 및 이용 동의 항목


우리가 흔히 어떤 사이트에 가입하든가 어떤 서비스를 무료로 이용할 때마다 '개인정보 수집 및 이용 동의' 항목 밑에는 길다란 약관이 붙어 있다. 아마 인터넷 이용자 중 매번 약관 조항을 모두 읽고 동의하는 사람은 거의 없을 것이다. 그도 그럴 것이 아무리 읽어 내려가도 끝이 없는 것처럼 길고 꽤 어려운 법률 용어까지 섞여 있다 보니 몇 줄 읽다가 이내 포기할 만 하다. 그런데 내가 '동의' 항목에 체크를 하는 순간 넘어가는 정보의 종류와 양에 대해 알게 된다면 그리 쉽사리 클릭하지는 못할 것이다. 아래는 국내 포털사이트 '다음'의 가입 시 수집하는 정보이다.

사례1

Daum은 회원가입, 원활한 고객상담, 각종 서비스 등 기본적인 서비스 제공을 위한 필수정보와 고객 맞춤 서비스 제공을 위한 선택정보로 구분하여 아래와 같은 개인정보를 수집하고 있습니다.

● 수집항목

<개인 회원>
필수항목: 아이디, 비밀번호, 이름, 성별, 연락처 (이메일 또는 휴대폰 또는 유선전화번호 중 1개 선택)
선택항목: 주소, 생년월일, (관계 법령이 이용을 허용한 경우)주민등록번호, (본인확인을 한 경우) 본인확인값
<모바일 및 소셜네트워크 서비스 이용 시>
선택사항 : 생년월일, 성별, 학교명(입학년도), 직업, 관심사, 혈액형, 사진, 폰번호, 폰 주소록, 위치정보(현위치기능 이용 시)
<유료 서비스 이용 시>
결제 등을 위해 신용카드 정보, 은행계좌 정보, 결제기록 등의 정보가 수집될 수 있습니다.
IP Address, 쿠키, 방문 일시, 서비스 이용 기록, 불량 이용 기록
<본인확인 시>
관계 법령 준수를 위해 본인확인이 필요한 경우 이름, 생년월일, 성별, 내/외국인, 휴대폰 번호, 이동 통신사정보(선택), 또는 아이핀 정보(선택), 본인확인값 이 수집될 수 있습니다.

선택정보를 입력하지 않은 경우에도 서비스 이용 제한은 없으며 이용자의 기본적 인권 침해의 우려가 있는 민감한 개인 정보(인종, 사상 및 신조, 정치적 성향 이나 범죄기록, 의료정보 등)는 기본적으로 수집하지 않습니다.
다만 불가피하게 수집이 필요한 경우 반드시 사전에 동의 절차를 거치도록 하겠습니다.


어떤 서비스를 이용하기 위해 사이트에 가입하면서 개인 정보 제공에 동의하는 순간 이름, 성별, 연락처, 주민등록번호, 학교, 직업, 혈액형과 같은 개인 정보부터 위치정보, 결제기록, 서비스 이용 기록과 같은 사생활이 드러날 수 있는 정보에 이르기까지 자발적으로 제공하겠다고 동의하는 것이다. 세상에 공짜는 없으니 무료로 서비스를 이용하기 위해 이 정도쯤은 대가로 넘길 수 있다는 식으로 받아들인다면 큰 문제는 아닐 수도 있다. 해당 업체가 보안만 잘 지켜줘서 범죄자들이 악용하는 일만 없다면 순순히 받아들일 수도 있지 않은가. 그럼 이런 건 어떨까.

사례2

저희는 다음 항목을 포함해 회원님에 대한 다양한 종류의 정보를 수집합니다.

회원님의 정보
회원님의 정보는 회원님이 사이트에 가입할 때 필요한 정보와 회원님이 공유하기로 정한 정보입니다.

■가입 정보
Facebook에 가입하려면 이름과 이메일 주소, 성별, 생년월일 등의 정보를 제공해야 합니다. 때로는 전화 번호 등의 정보를 이용해 가입할 수도 있습니다.
■회원님이 공유하기로 정한 정보
'회원님의 정보'에는 회원님이 Facebook 상에서 의도적으로 공유한 정보, 즉 상태 업데이트, 사진, 친구의 소식에 대한 댓글 등도 포함됩니다.
■여기에는 또한 사이트상에서 친구 추가, 페이지나 웹사이트의 좋아요 버튼 클릭, 소식 내에 장소 추가, 연락처 가져오기 기능 이용, 연애/결혼 상태 입력 등의 활동을 하는 과정에서 회원님이 의도적으로 공유한 정보도 포함됩니다.

회원님의 이름, 프로필 사진, 커버 사진, 네트워크, 사용자 이름, 사용자 아이디는 모든 사람에게 공개하기로 선택한 정보와 같이 취급됩니다. 자세히 알아보세요.
회원님의 생년월일은 저희가 연령대에 맞는 콘텐츠와 광고를 맞춤 표시하는 데 사용됩니다.

다른 사람들이 공유한 회원님에 대한 정보
회원님의 친구들과 다른 사람들이 회원님의 연락처 정보를 업로드하거나 회원님이 나온 사진을 게시하거나 사진, 상태 업데이트, 장소에서 회원님을 태그하거나 그룹에 회원님을 추가하는 등의 활동을 할 때 저희는 이들로부터 회원님의 정보를 받습니다.
사람들이 Facebook을 사용할 때 초대와 연락처를 업로드하고 관리하면서 자신들이 갖고있는 회원님과 다른 사람들에 대한 정보를 저장하고 공유할 수 있습니다.

Facebook에 전달되는 회원님에 관한 기타 정보
회원님과 관련하여 다음과 같은 정보도 저희에게 전달됩니다.

■저희는 회원님이 다른 사람의 타임라인을 보거나 메시지를 송수신하거나 Facebook과 정보를 동기화하거나 친구 또는 페이지를 검색하거나 콘텐츠를 클릭 또는 조회하는 등의 활동을 하거나 Facebook 앱을 사용하거나 Facebook 크레딧이나 다른 물품을 구매하는 등 Facebook과의 교류 활동을 할 때마다 회원님에 대한 데이터를 수집합니다.
■사진, 동영상 등을 Facebook에 게시하실 때에는 사진이나 동영상을 찍은 시간, 날짜, 장소 등과 같은 추가 정보도 전달될 수 있습니다.
■저희는 회원님이 Facebook에 접속하기 위해 사용하는 컴퓨터, 휴대폰, 기타 기기로부터 데이터를 전달받으며 여기에는 다수의 사용자가 같은 기기를 이용해 로그인하는 경우도 포함됩니다. 여기에는 회원님의 IP 주소와 회원님의 인터넷 서비스, 위치, 사용중인 브라우저의 종류(식별자 포함), 방문한 페이지 등에 관한 기타 정보가 포함될 수 있습니다. 예를 들면, 저희는 어느 친구가 근처에 있는지 회원님에게 알려줄 수 있도록 회원님의 GPS 위치나 다른 위치 정보를 파악할 수도 있습니다.
■회원님이 Facebook 플랫폼을 사용하는 게임, 앱, 웹사이트를 방문하거나 Facebook의 기능(소셜 플러그인 등)이 설치된 사이트를 방문할 때마다 저희에게 데이터가 전달되며 이때 쿠키가 종종 사용됩니다. 여기에는 해당 사이트를 방문하신 날짜와 시간, 웹 주소 또는 URL, IP 주소에 대한 기술 정보, 사용하신 브라우저와 운영 체제, Facebook에 로그인한 경우 사용자 아이디가 포함될 수 있습니다.
■때로 저희는 저희 제휴사, 광고 파트너, 고객, 저희(또는 제삼자)가 광고를 게재하고 온라인 활동을 파악하며 Facebook 서비스를 전반적으로 개선하는 것을 돕는 다른 제삼자로부터 데이터를 전달받습니다. 예를 들어, 광고주는 광고의 질을 향상시키거나 효과를 측정하기 위해 회원님이 Facebook이나 다른 사이트 상의 특정 광고에 대해 어떻게 반응했는지 저희에게 알려주기도 합니다.

저희는 또한 저희가 보유하고 있는 회원님과 친구들에 관한 데이터를 분석하기도 합니다. 예를 들어, 뉴스피드에서 어떤 친구를 표시할지, 게시하신 사진에서 어떤 태그를 제안할지를 결정하기 위해 회원님과 관련된 데이터를 분석합니다. 저희는 때로 회원님과 회원님의 친구들에게 근처에 있는 사람이나 이벤트를 알려주거나 좋은 쿠폰을 소개하기 위해 저희가 가진 회원님에 대한 GPS와 다른 위치 정보와 회원님의 현재 거주지 정보를 종합할 수도 있습니다.
저희가 회원님의 GPS 위치를 파악하면 이는 저희가 보유한 회원님에 관한 다른 위치 정보(거주 도시 등)와 함께 종합됩니다. 그러나 저희는 회원님에게 관련 알림을 제공하기 위해 회원님의 최근 GPS 정보를 저장하는 등 회원님에게 서비스를 제공하기 위해 필요한 시점까지만 이 정보를 보관합니다.
저희는 회원님의 이름이나 다른 개인 식별 정보를 삭제하거나 회원님의 신원을 알 수 없도록 다른 사람들의 정보와 통합한 후에만 데이터를 광고 파트너들과 고객들에게 제공합니다.


페이스북에서 수집하는 회원 정보에 관련된 내용인데, 요약하자면 '다른 사이트들에서 수집하는 개인 정보' + '사진, 동영상 정보' + '인맥 관련 정보' + '게시물, 댓글 쓰는 행동 습관 등'을 수집하는 것과 동시에 수집한 정보를 제휴사, 광고 파트너 등의 제삼자와 공유하겠다는 걸 당당히 밝히고 있다. 다시 말해 내가 제공한 기본 정보 이외에도 활동하며 인터넷 상에 올린 글, 사진, 동영상 등과 관련된 내용을 모두 분석하고, 내가 맺고 있는 친구관계를 분석하고, 게시하는 위치 정보 등을 분석하겠다는 것이다. 이유는? 서비스의 질을 향상시키기 위해서라고 한다.


과자 부스러기를 따라 모이는 개미들

이때 유용하게 쓰이는 것 중 '쿠키(cookie)'가 있다. 쿠키란 사용자가 인터넷을 이용할 때 발생하는 모든 동작의 값, 즉 방문한 사이트, 클릭한 주소, 머문 시간, 입력한 내용 등의 모든 정보를 말하는 것으로 이용자의 DNA라고 할 수 있다. 물론 대부분 철저한 보안기술에 의해 암호화되고 있고 개인 식별정보는 배제된 채 여러 업체들에 제공되지만, 이를 낱낱이 분석해보면 내가 주로 어떤 사이트에 방문하는지, 어떤 내용의 페이지에서 오래 머물고 어떤 내용의 광고를 클릭하는지, 또 검색어로 어떤 내용을 입력했는지가 고스란히 드러나기 때문에 나의 관심사와 행동 습관 자체가 공개되는 것이나 다름없다. 실제 세상에서 신체의 유전자로 나의 고유함을 증명하듯, 온라인 세상에서는 내가 좋아하고 원한다고 욕구를 표현하는 행위인 '클릭'이 담긴 쿠키 값이 곧 이용자 자신이라고 해도 과언이 아니다. 이런 엄청난 정보를 우리는 포털 사이트를 이용하기 위해, 게임을 하기 위해, 전자 상거래를 위해, 영화와 음악을 내려 받기 위해 클릭 몇 번에 서비스 업체에 제공하고 있다.
그 결과는 이미 우리가 체험하고 있는 바와 같다. 인터넷 사이트를 방문할 때 이용자가 남자라면 전자제품 광고가, 여자라면 의류 광고가 뜰 확률이 높고, 비키니나 노출 관련 기사를 클릭하거나 검색어로 입력한 경험이 있는 사람이라면 성인용품 광고가, 육아정보 사이트에 방문하거나 소아과나 유치원을 검색했던 사람이라면 어린이 학습 교재 광고가, 데이트를 위해 교외의 맛집을 검색한 사람이라면 근사한 분위기의 카페 광고가 뜰 것이다. 선거 운동 사례를 예로 든다면 은퇴와 연금 관련 기사를 클릭하거나 검색한 중장년층에게는 노인복지 관련 정책이 담긴 홍보물이 메일로 날아갈 것이고, 강남 부동산 시세를 검색한 사람에게는 종부세나 양도세와 관련된 공약이 담긴 후보의 광고가 발송될 것이다.
마치 땅바닥에 떨어진 과자 부스러기에 모여드는 개미들처럼 수많은 기업과 단체가 개미떼처럼 내가 흘린 쿠키를 노리고 달려들고 있다.


빅브라더를 먹여 살리는 '좋아요'

아직까지 부족하긴 하지만 예전보다는 많은 사람들이 개인 정보의 중요성이나 사생활 침해의 심각성에 대해 문제의식을 느끼고 있다. 클릭 한 번에 몇 만원이 결제되는 스팸문자나 악성코드를 경계하며 스마트폰에 백신을 깔고, 대형 사이트의 개인 정보 유출에 분노하고 집단 소송까지 제기하곤 한다. 조지 오웰의 소설 '1984'의 빅브라더를 떠올리게 만드는 미국의 에셜론 같은 첨단 감시 체계나 시위 채증, 폐쇄회로 카메라(CCTV)와 같은 국가의 일상적이고 노골적인 감시, 통제 방식에 대해서는 적극적 반감을 갖고 있기도 하다. 사회가 진보하고 시민의식이 향상될 때 동반되는 당연한 결과이리라.
그런데 신기하게도 스마트폰과 소셜네트워크서비스(SNS)가 대중화될수록 사람들은 현실 세계에서와는 정반대의 모습을 보이고 있다. 자기가 방문한 장소의 사진과 정보를 페이스북에 올리고, 관심 있게 본 기사를 트위터를 통해 공유한다. 각종 글과 사진, 위치 정보 등을 통해 자신이 누굴 만나고 어딜 가고 무슨 생각을 하고 있는 지 '자발적'으로 올리기 시작한 것이다. 구시대의 감시 체계와 기술에 대해서는 반감을 갖고 있는 사람들조차 공유와 자기 표현이란 명목 아래 스스로 자신을 노출하고 있다. 적어도 과거의 감시 주체들은 감시 대상들의 표현하지 않은 생각과 가치관, 은밀한 욕구까지 알아내진 못했다. 누군가의 시선을 느낄 수 있기에 자기 검열을 통해 보여주고 싶은 모습만 보여 주거나 거짓말을 통해 감시망을 유유히 빠져나갈 수 있었기 때문이다. 하지만 요즘의 인터넷 사용 방식은 전세계 수많은 이용자들이 자발적으로 혹은 의도하지 않게 흘린 수많은 정보들을 통해 자신도 모르는 사이에 많은 것들을 누군가에게 알려 줄 수 있게 만들었다. 만약 기업이나 국가가 마음만 먹는다면(실제로 그러고 있지만) 얼마든지 한 사람의 은밀한 욕구를 알아내고 심지어는 이용자 자신조차 알지 못했던 생각의 경향까지 알아낼 수 있다. 감시자들에겐 이 얼마나 반가운 일인가. 엄격한 감시로 비롯된 시민들의 자기 검열 내재화보다 이쪽이 더 통제하고 이용하기에 좋지 않을까.
무심코 누른 '좋아요' 버튼 하나에, 선의에서 비롯된 '공유' 버튼 하나에 서비스 제공업체는, 거대 기업은, 그리고 국가는 나의 취향과 가치관과 사상에 대해 알게 되고 그에 맞춰 자신들의 다음 행동을 결정할 수 있게 된다. 예측가능한 사람처럼 만만한 대상이 어디에 있을까. 결국 모두가 그렇게 두려워하던 빅브라더를 우리 스스로 양육하고 있는 것일 지도 모른다.


방 안의 코끼리

인터넷상에서 개인 정보가 '공공재'가 되어 갈수록 인격권이나 자기정보통제권과 같은 기본적인 가치들은 희석되고 나란 존재는 수많은 데이터 중 하나로 사소하게 취급될 것이다. 존재 자체만으로도 존중받아야 하는 한 인격체가 아닌 통계자료집을 펴고 아무데나 짚으면 나오는 수많은 숫자 중 하나로만 취급될 것이다. 더욱 끔찍하고 참기 힘든 점은 그런 비참한 취급에 내가 '동의'했다는 것이다. 삶을 쉽고 편리하게 만들어 준다는 서비스를 이용하기 위해 내가 자발적으로 동의하고 제공했기 때문에 누굴 원망할 수도 없는 것이다. 물론 관련 법규를 제정하고 엄격히 운영해서 다양한 형태의 정보들이 개인의 인권을 침해하지 않는 범위 내에서 수집되고 활용되도록 제한하고, 이 모든 과정을 정보 제공 당사자가 인지하고 투명하게 감시할 수 있는 제도를 만드는 일도 필요하다. 하지만 그보다 먼저 모든 시민이 자신의 정보가 소중하다는 것을 깨닫고 함부로 누군가에게 제공하기를 멈추는 것부터 시작되어야 하지 않을까. 늘 그렇듯 편리한 건 한 번 길들여지면 쉽사리 빠져나오기 힘든 법이니까.
이름조차 유사한 빅브라더와 빅데이터. 그 둘은 필연의 관계다. 오바마의 선거 운동 사례에서 볼 수 있듯 고전적인 데이터 수집 활동 혹은 감시활동으로는 국민들 개개인에 맞는 적절한 대응을 하기 어려웠지만 인터넷을 통해 수집되는 엄청난 양의 정보들을 가지고는, 특히 ‘스스로’ 제공하는 날 것의 빅데이터를 갖고는 무엇이든 할 수 있다. 양질의 서비스를 제공할 수도 있고 생각과 행동을 예측해서 감시자의 피해를 최소화한 채 국민을 조종할 수도 있다. 아마 역사상 모든 권력자들과 자본가들이 그토록 바라던 세상이 도래한 것일 지도 모른다.
영어권 표현 중에 ‘방 안의 코끼리’란 말이 있다. 누구나 알아 볼 수 있을 정도로 큰 사안이지만 딱히 거론하고 싶지 않거나 더 큰 문제를 일으키고 싶지 않아 회피하는 상황을 말하는 것인데 빅데이터 논의에서 개인 정보와 프라이버시 문제를 묘사하기에 딱 들어맞는 말처럼 보인다. 우리는 누구나 개인의 존엄성을 인정하고 프라이버시를 존중해야 한다고 말한다. 국가의 부당한 감시와 개입을 거부하고 기업의 건전한 경영과 정정당당한 마케팅을 요구한다. 하지만 빅데이터를 언급하면서 개인 정보 유출과 사생활 침해의 위험성을 논하지 않고, 국가와 기업에게 무소불위의 절대반지가 될 수도 있다는 경고를 무시한 채 달콤한 과실만 골라서 따먹을 수 있을까. 선거 운동과 마케팅에서만 아니라 머지않아 사회 전체에 도입될 빅데이터란 신기술의 등장을 지체시킬까봐 뻔히 보이는 코끼리를 안 보이는 척 해야 할까. 분명 답은 정해져 있다. 누군가가 나서서 코끼리가 있다고 외쳐야 한다. 부디 되돌릴 수 없을 만큼의 피해를 입기 전에 코끼리의 존재를 깨닫길 바란다.


▲ 출처: http://www.123rf.com



* 참고자료
- 위키피디아 쿠키 페이지 http://ko.wikipedia.org/wiki/HTTP_쿠키
- 위키피디아 에셜론 페이지 http://ko.wikipedia.org/wiki/에셜론
- 감시사회 강연(진보넷) http://bigbrother.jinbo.net
- `빅 데이터` 프라이버시 논의 시작할 때
http://www.etnews.com/news/opinion/2771598_1545.html
- 미 정보당국 "'프리즘'은 합법적 감시시스템"
http://media.daum.net/foreign/newsview?newsid=20130609125307665
- ‘빅데이터 시대’ 진입 한국은 왜 힘든가
http://news.khan.co.kr/kh_news/khan_art_view.html?artid=201305040954571&code=940100
- 고런처가 해킹기능을? 누리꾼 논란 점화
http://www.zdnet.co.kr/news/news_view.asp?artice_id=20130526113829



[필자소개] 주일(ACT! 편집위원회)

해양학자-프로그래머-경찰-소설가를 거쳐 지금은 창작자라는 꿈을 10년 넘게 포기하지 않고 있다고 전해진다.

영화를 비롯한 각종 영상제작을 하고 있으며 가끔 학교안팎에서 젊은 학생과 늙은 학생들을 가르치는 모습이 목격되기도 한다.


많이 본 글
현장기자석
참세상 속보
진보매체광장 전체목록

온라인 뉴스구독

뉴스레터를 신청하시면 귀하의 이메일로 주요뉴스를 보내드립니다.