관리 메뉴

ScienceBooks

과학 수다 (4) [빅 데이터, 세상을 바꾸다] 빅 브라더를 넘어서 본문

완결된 연재/(完) 과학 수다

과학 수다 (4) [빅 데이터, 세상을 바꾸다] 빅 브라더를 넘어서

Editor! 2013. 4. 15. 14:57

과학의 세계로 이끄는 흥미롭고 친절한 안내

아시아태평양이론물리센터(APCTP) 주최/ 프레시안 공동기획 '과학 수다' 코너를 사이언스북스 블로그에서도 소개합니다. 과학 수다는 매월 첫 째주에 아태이론물리센터 웹진 크로스로드와 프레시안 books를 통해 소개됩니다. 


[빅 데이터세상을 바꾸다빅 브라더를 넘어서

 

빅 데이터이건 또 뭔가 싶죠?

 

이런 독자는 지금 당장 포털 사이트에 "빅 데이터"를 입력해 보세요. 29일 현재 네이버(naver.com)에서는16849건의 뉴스가 검색됩니다. "빅 데이터 시대 카운트다운" "빅 데이터로 본 강남", "삼성전자빅 데이터 본격 행보", "빅 데이터가 '빅 브라더된다면'데이터 사이언티스트육성 절실", "민심의 보고 '빅 데이터'"등의 제목이 눈에 띕니다.

 

구글(google.com)에 영어로 "Big Data"를 입력하면 결과는 더 극적입니다무려 문서 2320만 건이 검색됩니다.

책들은 또 어떻고요? <빅 데이터경영을 바꾸다>(함유근·채승병 지음삼성경제연구소 펴냄), <여기에 당신의 욕망이 보인다-빅 데이터에서 찾아낸 70억 욕망의 지도>(송길영 지음쌤앤파커스 펴냄), <빅 데이터,세상을 이해하는 새로운 방법>(박순서 지음레디셋고 펴냄), <빅 데이터 혁명>(권대석 지음, 21세기북스 펴냄등 2012년 3월부터 1년 새 "빅 데이터"를 제목에 포함한 책도 서른여섯 권이나 나왔습니다.

 

이 정도면 뭔가 대단한 일이 진행 중인 것 같습니다하지만 빅 데이터를 둘러싼 이 난리법석 속에서도 그것이 도대체 무엇인지 친절하게 설명하고또 그것이 왜 중요한지 집요하게 따져 묻는 모습은 없습니다늘 그렇듯이 한 쪽에는 '열광'과 '호들갑'이 그리고 다른 쪽에는 '냉소혹은 '무관심'이 있습니다.

 

"과학과 미래 그리고 인류를 위한 비전"을 찾는 <크로스로드>와 프레시안 books'가 공동으로 진행하는 '과학 수다'는 이번에 빅 데이터의 이모저모를 파헤쳐 봅니다한국과학기술원(KAIST) 물리학과에서 박사 학위를 받고 나서경계를 훌쩍 넘어 삼성경제연구소에서 연구 중인 채승병 박사가 빅 데이터 가이드로 나섰습니다.

 

이번에도 물리학자 김상욱 교수(부산대학교)와 천문학자 이명현 과학문화위원이 빅 데이터의 이모저모를 따져 보는 까다로운 질문자가 되었습니다수다 정리는 뉴미디어에서 10년째 밥벌이를 하면서 빅 데이터 생산에 작은 기여를 하고 있는 <프레시안강양구 기자가 맡았습니다.

 

비록 지금은 기업의 돈벌이 수단에 머물러 있지만인공 지능과 같은 과학기술의 혁신을 선도하고궁극에는 우주의 미래를 책임질지도 모르는 빅 데이터의 세계로 여러분을 초대합니다. <편집자>

 

'빅 데이터'는 '큰 데이터'가 아니다

 

강양구 오늘 수다의 주제는 '빅 데이터(Big Data)'입니다.그대로 번역하면 '큰 데이터'인데요. (웃음최근에는 기업이나 언론에서도 이 용어를 많이 사용하곤 하는데정의는 저마다 제각각입니다본격적으로 얘기를 시작하기 전에,도대체 빅 데이터가 무엇인지 그 정의부터 따져볼까요?

 

채승병 빅 데이터는 이른바 '3V'로 통칭되는 다음 세 가지 특징을 염두에 두고 정의를 내려야 합니다. 3V는 '규모(Volume)', '다양성(Variety)', '속도(Velocity)'인데요.명실상부한 빅 데이터로 불리려면 이 세 가지 특징을 어느 정도 만족해야 합니다우선 규모부터 살펴볼까요.

 

이명현 데이터의 규모는 빅 데이터의 본질과 관계된 특징이죠도대체 어느 정도나 큰 데이터를 빅 데이터라고 부르는 겁니까?

  


채승병 엄밀한 정의는 없지만대략적으로 수 테라바이트에서 많게는 수 페타바이트 정도 크기의 데이터를 빅 데이터로 간주합니다. 10테라바이트를 빅 데이터의 양적 기준으로 삼으면 될 것 같아요그런데 10테라바이트라고 해도 대다수 독자는 그게 얼마나 큰 양인지 감이 없겠죠? (웃음)

 

비유를 해보죠요즘에는 가장 작은 USB 메모리의 용량도 수 기가바이트를 넘습니다. 1기가바이트(10억 바이트)를 생수통 절반을 채울 정도의 모래로 비유해 볼게요그렇다면, 1테라바이트(1조 바이트)는 85제곱미터(약 25아파트에 10센티미터 깊이로 모래를 채울 정도의 양입니다. 1페타바이트(1000테라바이트)는 해운대 백사장의 모래 정도고요.

 

그런데 이 정도의 빅 데이터가 드물지 않아요스위스 제네바 근처의 유럽입자물리연구소(CERN·세른)에는100미터 지하에 전체 길이 27킬로미터의 LHC(Large Hadron Collider, 대형 강입자 충돌기)가 있어요LHC에서 2010년 한 해에만 무려 13페타바이트의 데이터가 쏟아져 나왔습니다.

 

과학뿐만이 아니에요세계 최대의 유통 업체 월마트는 전 세계 15개국에 8500곳이 넘는 매장을 가지고 있어요월마트에서 관리하는 각종 거래 데이터만 벌써 2500테라바이트를 넘어섰어요데이터 웨어하우징 인스티튜트(TDWI)의 조사 결과를 보면미국 기업의 약 37퍼센트가 이미 10테라바이트 이상의 데이터를 갖고 있다고 합니다.

 

강양구 일단 빅 데이터의 양적 기준은 10테라바이트 정도라는 건 확인했습니다그런데 빅 데이터가 단순히 큰 데이터는 아니죠?

 

채승병 맞아요단순히 큰 규모만으로 빅 데이터라고 할 수 없는 이유는 오늘날 쏟아지고 분석해야 할 데이터의 형태가 매우 다양하기 때문입니다이제까지 분석의 대상이 되었던 데이터는 대부분 비교적 형태가 균질한 것이었어요. '마이크로소프트 엑셀'과 같은 스프레드시트로 열과 행을 정리해 당장 표로 만들 수 있는 데이터입니다.

 

하지만 최근에 쏟아지는 데이터는 이처럼 미리 형식이 정해지지 않았요당장 우리가 일상적으로 이용하는 인터넷 포털 사이트에 쌓이는 데이터만 보세요뉴스블로그나 온라인 커뮤니티 게시판의 글이나 사진유튜브 등에 올라와 있는 동영상팟캐스트음악 등 아주 다양합니다이런 데이터를 일목요연한 표로 만드는 일은 아주 어려운 작업입니다.

 

이처럼 데이터 하나하나마다 크기와 내용이 달라서 통일된 구조로 정리하기 어려운 데이터를 '비정형 데이터'라고 부릅니다이런 비정형 데이터는 갈수록 그 비율이 늘어나서앞으로 맞닥뜨릴 전체 데이터 가운데 약 90퍼센트 이상을 차지할 것으로 전망됩니다바로 빅 데이터의 중요한 특징을 다양성이라고 보는 이유입니다.

 

이명현 마지막으로 속도가 있네요데이터가 쏟아지는 속도가 예전과는 비교할 수 없을 정도로 빨라졌다는 얘기죠?

 

채승병 : 2011년 5월 2일 새벽(파키스탄 현지 시각)에 미군이 파키스탄 북동부 아보타바드의 안전가옥에 은신 중이던 오사마 빈 라덴을 급습해 사살했어요작전이 종결되고 시신을 후송하는 단계에서백악관은 51일 밤 9시 45(미국 동부 시각)에 몇 시간 내로 대통령의 중대 발표가 있을 거라고 예고했습니다.

 

불과 40분 만인 밤 10시 24부시 행정부 당시 도널드 럼스펠드 국방장관 보좌관이었던 키스 어반이 "믿을 만한 소식통을 통해서 빈 라덴이 죽었다는 소식을 들었다"고 트위터에 올렸어요이 소식은 순식간에 전 세계로 퍼져나갔는데그 속도가 무려 초당 5000회에 이를 정도였습니다대통령의 공식 발표(밤 11시 35)전에이미 전 세계의 사이버 공간은 이 소식으로 떠들썩했지요.

 

빅 데이터 시대 이전에는 어떤 사건이 일어나도 그 데이터를 수집처리해서 사람에게 전달하기까지 시간 간격이 컸어요. TV 생중계가 보편화하기 이전에는 보통 아침저녁에 신문에 보도되기까지 하루이틀 정도의 시간차가 있었습니다하지만 이제 대중은 동영상 생중계 혹은 트위터와 같은 사회 연결망 서비스(SNS)를 통해서 거의 실시간으로 소식을 접합니다당연히 이 과정에서 수많은 데이터가 굉장히 빠른 속도로 축적되지요.

 

강양구 규모다양성속도를 염두에 둔 빅 데이터의 정의는 대충 이런 식이 될 것 같군요. <빅 데이터경영을 바꾸다>에서 정의한 내용입니다.

 

"빅 데이터란 보통 수십에서 수천 테라바이트 정도의 거대한 크기를 갖고여러 가지 다양한 비정형 데이터를 포함하고 있으며생성-유통-소비(이용)가 몇 초에서 몇 시간 단위로 일어나 기존의 방식으로는 관리와 분석이 매우 어려운 데이터 집합을 의미한다." (<빅 데이터경영을 바꾸다>, 36)

 

채승병 그런데 현실에서 빅 데이터는 데이터 집합뿐만 아니라 더욱더 넓은 의미로도 쓰이고 있어요빅 데이터를 다루려면 비교적 작은 크기의 정형화된 데이터에서 쓰이던 것과는 다른 차원의 기술과 인력이 요구됩니다따라서 좁은 의미의 빅 데이터를 관리하고 분석하는 데 필요한 기술과 인력 등을 한데 묶어서 빅 데이터로 정의하기도 합니다이런 식으로요.

 

"빅데이터란 기존의 방식으로는 관리와 분석이 매우 어려운 데이터 집합그리고 이를 관리분석하고자 필요한 인력과 조직 및 관련 기술까지 포괄하는 용어이다." (<빅 데이터경영을 바꾸다>, 37)

 

빅 데이터, '인공 지능'을 꿈꾸다!

 

김상욱 얘기를 듣고 보니 학생에게 가끔씩 던지는 질문이 떠오릅니다. "아메바가 크냐작냐?" 당연히 학생들의 첫 반응은 '바보 같은 질문?' 이런 식이죠. "아메바가 작지 그럼 커요?" 하고 반문합니다하지만 아메바는 사람보다는 작지만 원자보다는 크죠그래서 물리학자는 절대로 크다,작다 이런 말을 비교 대상 없이 쓰지 않아요.

 

물리학자에게는 그냥 '크다이런 말은 의미가 없어요저 같은 양자 물리학자에게는 우주사람아메바 모두 뉴턴의 만유인력의 법칙이 그대로 적용되는 같은 규모의 세계거든요그런데 빅 데이터는 그냥 '크다이런 것만 강조하는 것 같아요빅 데이터가 기존의 작은 데이터와 어떤 근본적인 차이가 있나요?

 

 

 

채승병 맞습니다굉장히 중요한 지적입니다일단 데이터의 속성이라는 면에서는 근본적인 변화라고 할 만한 건 없어요더구나 빅 데이터에 맞춤한 관리분석 방법이 계속해서 나오고 있지만 '그것이 과거 데이터를 다루는 접근과 근본적인 차이가 있느냐', 하고 물어보면 답변이 군색한 게 사실이고요.

 

그래서 빅 데이터 유행을 좀 비판적으로 보는 학자 중에는 이렇게 비아냥거리는 사람도 있습니다. '만날 하던 건데빅 데이터라고 사기를 쳐!' 이렇게요그런데 좀 다른 측면에서 따져보면 어떨까요빅 데이터의 효과를 염두에 두면그것이 세상을 이해하는 우리의 접근 방식을 근본적으로 바꾸는 계기가 될 수 있거든요.

 

그러니까 과학자 입장에서는 '빅 데이터이게 뭐야하고 대수롭지 않게 생각할 수 있지만일상생활과 밀접하게 맞닿아 있는 부분 즉 비즈니스 현장과 같은 곳에서는 빅 데이터가 엄청나게 큰 변화를 유발할 수 있거든요우리가 빅 데이터를 놓고서 얘기할 때도 바로 그런 변화에 초점을 맞춰볼 필요가 있을 것 같아요.

 

강양구 구체적인 예를 놓고서 수다를 이어가면 어떨까요?

 

채승병 아까 세른의 LHC 얘기도 잠깐 했습니다만물리학 천문학 생물학 등 과학의 여러 분야에서는 이미 빅 데이터를 계속해서 다뤄왔습니다그러니까 자연을 이해하는 중요한 수단으로 빅 데이터를 활용해온 거죠앞으로도 자연과학에서 빅 데이터의 중요성은 더욱더 커질 거예요.

 

 

이명현 천문학에서도 이제 과거의 찍은 사진을 디지털 이미지로 가공을 하기 시작했어요그 과정에서 해상도가 좋아지면서예전에는 보지 못했던 새로운 사실이 드러납니다금성만 해도 그래요금성이 예전에는 죽은 행성이라고 생각했는데, 1970년대에 금성을 찍은 사진을 다시 해상도를 높여보니까 화산이 폭발하는 등 활발히 활동하고 있는 거예요.

 

명왕성도 공식 발견한 해는 1930년입니다그런데 이미 그 이전에 한 천문대에서 찍은 사진에 명왕성이 찍혀 있었던 거예요나중에 사진을 디지털 데이터로 바꾸는 과정에서 확인이 된 거죠이렇게 데이터를 재해석하는 과정에서 나타나는 발견이 많으니 아예 '프리커버리(precovery)'라는 새로운 용어까지 등장했어요.

 

 


채승병 그런데 이제는 과학뿐만 아니라 선거와 같은 사회 현상을 이해하는 중요한 수단으로 빅 데이터의 활용을 모색 중이에요.

 

오바마 대통령이 재선에 성공한 지난 2012년 미국 대선도 그 중 한 예입니다민주당이든 공화당이든 미국의 정당이 선거에서 데이터의 중요성을 강조해온 건 어제오늘의 일이 아닙니다그런데 지난 2008년 미국 대선 때부터 이런 데이터에 질적인 변화가 나타났어요오바마 대통령을 지지하는 흑인여성, 20~30대의 피 끓는 열정이 인터넷 게시판을 달군 거죠.

 

특히 트위터페이스북과 같은 SNS를 통한 선거 운동이 활발했는데요. SNS를 비롯한 인터넷 게시판에 축적된 엄청난 데이터는 과거 선거 운동에 활용된예를 들자면 여론 조사 데이터 등과는 질적으로 다른 것이었어요그리고 선거가 끝나고 나서 민주당은 이런 데이터를 통합하는 작업을 수행합니다.

 

그리고 이렇게 축적된 빅 데이터를 바로 이번 대선에서 활용한 거예요지역별세대별인종별계층별로 차별화된 정책을 다양한 방식으로 홍보하고또 SNS의 여론 동향을 2008년과 비교해서 판세를 점검하고불리한 쪽에 막대한 홍보비를 쏟아붓는 식의 맞춤형 선거 운동을 한 거죠그리고 그 결과 오바마 대통령은 예상 외의 낙승을 거뒀습니다.

 

이번 미국 선거 운동의 사례는 빅 데이터가 앞으로 어떻게 활용될 수 있을지를 보여주는 예입니다인류의 역사를 살펴보면과학기술의 관점에서 보면 보잘 것 없는 혁신이었는데 그것이 결과적으로 사회에 굉장히 큰 영향을 준 게 많아요빅 데이터가 바로 그런 역할을 하리라고 예상합니다.

 

강양구 공감합니다뉴미디어에서 기자 생활을 하다 보니기존에 다양한 형식으로 흩어져 있던 데이터를 단순히 통합하는 것만으로도 전혀 다른 효과를 낳는 모습을 종종 보거든요그런 점에서 빅 데이터가 사회에 주는 충격은 생각보다 훨씬 더 클 수도 있으리라고 생각합니다.

 

이명현 얘기를 듣다 보니언뜻 생각이 났는데요물리학에서 '창발(emergence)' 개념이 주목을 받고 있습니다네트워크를 구성하는 여러 요소들이 상호 작용하면서 각각의 요소에서는 볼 수 없었던 전혀 다른 성질을 보이는 현상을 일컫는 개념이죠빅 데이터도 일종의 창발이 아닐까요개별 데이터에서는 기대할 수 없었던 어떤 효과를 데이터의 집합이 낳는 거니까요.

 

채승병 바로 생각나는 게 구글 번역 서비스입니다예전의 번역 서비스는 연역적인 접근이었어요문법부터 시작하는 겁니다번역을 해야 할 영어 문장이 있으면 "I"는 "" "am"은 "이다" "boy"는 "소년이렇게 따지는 거예요그렇게 11로 대응을 시킨 다음에 미리 입력한 문법에 따라서 번역어를 조합하는 거지요그 결과는 도저히 읽을 수 없는 번역 문장이었고요.

 

그런데 구글 번역 서비스는 귀납적인 접근입니다수많은 문장을 통째로 일정한 유형(pattern)으로 분류해서 입력해 놓고서상황에 따라서 적당한 번역 문장을 내놓아요이런 번역 서비스가 제대로 되려면 엄청난 데이터가 축적되어야 합니다현재까지는 데이터가 적지만앞으로 더 많은 데이터가 쌓이면 굉장히 그럴 듯한 번역 서비스를 제공받을 수 있을 거예요.

 

강양구 듣고 보니한 후배 기자가 사내 게시판에 올려서 기자들끼리 낄낄대던 일화가 생각납니다구글 번역 서비스에서 한국어를 영어로 번역을 하면 그 결과가 신통치 않아요그런데 한국어를 문법 구조가 비슷한 일본어로 번역을 하면 꽤 그럴듯하거든요그런데 이 일본어를 다시 영어로 번역하면 애초 한국어 문장에 상응하는 상당히 정확한 영어 문장이 나옵니다.

 

도대체 왜일까요일본 야동(야한 동영상)의 힘이죠. (웃음영어권의 사용자들이 일본에서 생산된 야동애니메이션만화 등의 대사를 자꾸 번역을 하다 보니일본어를 영어로 번역한 데이터가 쌓이고그 결과 일본어를 영어로 번역하면 그럴듯한 문장이 나오게 된 겁니다의외의 곳에서 방금 지적한 빅 데이터의 효과가 나타난 거예요.

 

이명현 사실 구글 번역 서비스는 인간 지능과도 유사하죠그런 점에서 빅 데이터는 '인공 지능(AI, Artificial Intelligence)'과도 통하는 것 같네요.

 

채승병 맞습니다우리가 문법부터 배워서 말을 하는 게 아니잖아요계속 듣고쓰다 보니 특정한 문장의 유형이 머릿속 신경망에 각인이 되고또 그런 데이터가 쌓이면서 '이럴 때는 높임말을 해야지하는 예외적인 상황이 부가되면서 일상생활에서 의사소통이 가능해졌잖아요.

 

그런데 예전에는 인공 지능을 연구하는 과학자들이 이런 인간 지능의 작동 방식을 적용할 수 없었어요왜냐하면 인간 지능처럼 작동하는 인공 지능을 구현하려면 엄청난 데이터가 필요하니까요그런데 빅 데이터 시대가 되니까이렇게 인간 지능과 유사한 방식의 인공 지능이 드디어 가능한 거죠.

 

구글은 공공연하게 자신을 인공 지능 회사로 자리매김합니다. '왜 이렇게 데이터를 축적하느냐고왜냐하면 우리는 인간을 행복하게 해주는 진짜 똑똑한 인공 지능을 만들고 싶어서.' 바로 이게 구글의 비전입니다그리고 실제로 구글은 엄청난 데이터를 활용해 좀 더 똑똑한 검색 결과를 사람에게 내놓고좀 더 똑똑한 광고 방법으로 기업을 유혹하죠.

 

김상욱 그렇다면이런 빅 데이터는 거스를 수 없는 흐름이겠군요왜냐하면방금 예를 든 구글의 방식이야말로 자연스럽잖아요우리가 아는 지능을 가진 대부분의 생명체가 그런 식으로 학습을 하니까요다만 지금까지 우리는 생명체가 하는 방식을 흉내 내지 못했죠엄청난 자원이 필요했으니까요그런데 이제는 빅 데이터로 그런 게 가능해지고 있다는 거잖아요.

 

그런 점에서 빅 데이터야말로 궁극의 데이터라는 생각도 드는군요이거 얘기를 들을수록 빅 데이터의 매력에 빠져들고 있습니다. (웃음)

 

빅 데이터, '해석'이 중요하다

 

강양구 여기서 제가 좀 찬물을 끼얹어 볼게요. (웃음앞으로 빅 데이터는 자연과학뿐만 아니라 인문·사회과학에서도 여러 가지 충격을 줄 가능성이 큽니다인간이나 사회를 이해하는 데 빅 데이터가 활용될 여지가 앞으로 많아지리라는 겁니다그런데 그럴 때마다 굉장히 조심해야 할 것 같아요최근에 <프레시안지면에서 비판한 좋은 예가 있어요. (관련 기사 부자 신문 <동아일보>의 '무지혹은 '혹세무민'?) http://www.pressian.com/article/article.asp?article_num=50130312160844

 

얼마 전 <동아일보>에서 "중증 질환부자가 더 걸린다", "가난이 병은 옛말부자 동네 4대 중증 환자 더 많다등의 자극적인 제목의 기사를 실었어요이 기사는 국민건강보험공단의 의료 이용 자료를 놓고서 빅 데이터 분석을 시도한 거예요그런데 우리가 아는 상식과는 정반대잖아요그래서 <동아일보>와 해당 기자가"얼씨구나!" 하고 1면에 실었겠죠.

 

그런데 이 기사를 본 건강 불평등을 연구하는 학자 몇몇이 <프레시안>에 공동으로 반박 기고를 했습니다. "가난한 계층가난한 동네에서 질병 유병률사망률이 높다는 논문이 매년 수십 편씩 나오고 있고심지어 보건복지부와 질병관리본부의 <국민 건강 통계>도 이런 사실을 뒷받침하고 있다"고요.

 

도대체 어디서부터 잘못된 걸까요이 빅 데이터 분석이 완전히 잘못된 이유는 '맥락'을 고려하지 않았기 때문이에요국민건강보험공단의 의료 이용 자료는 의료 기관의 진료비 청구를 위해서 작성된 자료이기 때문에질병이 있어도 의료 이용을 하지 않거나 혹은 질병이 없는데도 의료 이용을 하는 경우를 배제하지 못합니다.

 

그러니 이 빅 데이터 분석의 정확한 해석은 이런 거죠. '부자들은 중증 질환 의료 이용을 더 많이 하는 반면에저소득층은 그렇지 못하다.' <동아일보>가 완전히 헛짚은 건데요앞으로 인간이나 사회를 이해하려는 빅 데이터 분석이 많아질수록 이런 식의 잘못된 해석이 많아질 것 같아서 걱정입니다.

 

채승병 정확한 지적입니다사실 그건 빅 데이터가 아니라 모든 데이터 분석에서 공통적으로 부딪치는 문제입니다빅 데이터에 대한 사회적 관심이 높아질수록 갈수록 '해석'의 중요성이 커지고 있어요그리고 더 나아가 빅 데이터에 어떤 가치를 담을 것인지를 놓고도 논쟁이 많아지고 있고요.

 

아예 요즘에는 빅 데이터 분석에 이공학도만 참여하는 것을 놓고도 문제 제기하는 이들이 많아요이공학도에게만 맡겨서는 제대로 된 해석이 나올 수 없다는 겁니다왜냐하면 인문·사회과학자가 같이 참여했을 때 좀 더 정확한 해석이 가능할 테니까요아까 국민건강보험공단의 의료 이용 자료를 해석하는 데도 건강 불평등 연구자가 참여했다면 어땠을까요?

 

강양구 아까 선거 얘기를 했잖아요그런데 SNS를 비롯한 인터넷 공간에 축적된 빅 데이터를 선거 등에 활용할 때도 좀 더 주의가 필요할 것 같아요왜냐하면 그런 빅 데이터에는 세대 간계층 간의 '디지털 디바이드(digital divide, 정보 격차)'의 문제가 분명히 각인되어 있거든요.

 

우리나라만 하더라도, SNS 공간의 여론은 거의 20~30대가 장악하고 있습니다그런데 지난 대선 때 확인했듯이 막상 뚜껑을 열어보니 어땠나요빅 데이터의 대부분이 디지털 정보라는 점을 염두에 두면해석을 할 때는 이런 점을 꼭 염두에 둬야 한다고 생각합니다현장에서 보기에는 어떤가요?

 

채승병 맞아요난점입니다지난 대선 때 민주당이 판세를 잘못 읽은 것도 바로 그런 점을 제대로 보정하지 못한 탓입니다. SNS 여론만 보고서 '이겼다!' 이런 거예요한 편에서는 이런 민주당을 보고서 '그러니,너희가 하수지!' 하고 비아냥거리기도 하고요. (웃음어차피 데이터 분석에는 '편견'이 들어갈 수밖에 없는 거고 그걸 보정하는 게 또 실력이니까요.

 

방금 지적한 디지털 디바이드는 그 자체로 굉장히 중요한 문제입니다요즘에는 정부나 지방자치단체에서 제공하는 여러 가지 유용한 생활 정보가 많잖아요그런데 정작 그런 정보는 꼭 필요한 저소득층 또는 노령 인구에게는 제대로 전달이 안 됩니다인터넷을 통해서 그런 정보를 공지하는데저소득층이나 노령 인구의 인터넷 이용률이 낮으니까요.

 

그래서 파격적이지만 이런 것도 고민해 봅니다지금 전 국민에게 주민등록증을 지급하잖아요이제 어느 시점이 되면 스마트폰까지는 아니더라도최소한 일상적으로 인터넷 공간에 접속할 수 있는 디바이스는 전 국민에게 하나씩 지급해야 하지 않을까요물론 주민등록증에도 알레르기를 일으키는 분들이라면이런 제안에 경악을 하겠지만요. (웃음)

 

빅 데이터와 빅 브라더를 넘어서

 

강양구 사실 빅 데이터는 곧바로 '빅 브라더(Big Brother)'를 연상시킵니다. (웃음조지 오웰의 <1984>(정희성 옮김민음사 펴냄)에 나오는 빅 브라더에 가장 가까운 기업이 구글이나 애플 같아요우리가 구글의 안드로이드폰이나 애플의 아이폰을 사용하면우리의 모든 데이터가 축적되고 있거든요.

 

좋은 쪽으로 해석하면 과거에는 상상도 하지 못했던 인공 지능 서비스를 받을 수 있지만다른 쪽으로 해석하면 세련된 방식의 감시 사회의 도래잖아요감시당하는 이들이 자발적으로 자기 정보를 가져다 바치면서 감시를 자청하니까요기막힌 사회죠이런 점을 염두에 두면빅 데이터는 곧바로 개인 정보 보호 즉 프라이버시와 연결됩니다.

 

채승병 정말로 중요한 문제입니다그래서 혹자는 빅 데이터라는 이름을 잘못 붙였다고 투덜대기도 해요. (웃음)

 

강양구 곧바로 빅 브라더가 연상이 되니까요. (웃음)

 

채승병 맞습니다빅 데이터를 놓고 얘기를 나누는 회의에 가면 만날 부딪치는 문제가 바로 프라이버시입니다빅 데이터가 어마어마한 인권 침해의 소지가 있다고 걱정하는 사람이 한둘이 아니죠그리고 이들은 굉장히 빽빽한 규제의 필요성을 강조합니다실제로 빅 데이터에는 그런 프라이버시 침해 위험이 분명히 있습니다.

 

영국 같은 경우는 세계에서 가장 CCTV가 많은 나라잖아요더구나 요즘엔 CCTV 해상도도 아주 좋습니다.영국 경찰청에서 이런 CCTV 정보를 어떻게 활용하겠어요? CCTV의 동영상 데이터를 안면 인식(facial recognition) 기술과 접목시키면할리우드 영화 <마이너리티리포트>에 나오는 것처럼 범죄자의 위치를 실시간으로 확인할 수 있죠뉴욕 경찰청도 마이크로소프트와 손잡고 같은 일을 시작했고요.

 

이러니 빅 데이터가 무시무시한 경찰국가의 출현을 예고하는 게 아닌가하는 의혹이 생길 수밖에 없습니다.이런 우려는 당연히 충분히 공론화가 되어야 한다고 생각합니다하지만 그런 해악만 강조하는 건 바람직하지 않아요어떤 새로운 과학기술이 등장하면 항상 그것의 위험에 대한 경고가 있었죠인류는 그 위험을 최소화하면서 과학기술의 발전을 도모해 왔습니다.

 

이런 관점에서 빅 데이터를 디지털 시대의 석유로 비유해보고 싶어요석유가 발견되자마자 가장 먼저 일상생활에서 쓰인 건 휘발유였어요그런데 그 휘발유를 처음에는 세탁용 세제로 사용했습니다휘발유를 붓고 한창 옷의 때를 지우는 근처에 촛불이 있으면 무슨 일이 생기겠어요휘발유가 펑 터져서 집안이 쑥대밭이 되는 사고가 빈번했습니다.

 

당연히 휘발유의 위험을 경고하는 뉴스도 많았어요만약 그 때 휘발유의 위험만 강조하면서 석유 정제를 법으로 금지했으면 어떻게 되었을까요석유 시대는 한참 뒤로 늦춰졌을 겁니다하지만 인류는 휘발유의 폭발력을 내연기관에 활용할 생각을 했고결국에는 자동차로 대표되는 석유 시대를 열었지요.

 

김상욱 지금 빅 데이터를 둘러싼 상황이 촛불 때문에 휘발유가 폭발한 그 순간과 비슷하군요아닌가지금은 아직 휘발유로 빨래를 하는 중인가요? (웃음)

 

채승병 그렇지요아직 빅 데이터가 낳는 여러 가지 문제를 느끼지 못하는 상황입니다하지만 조만간 빅 데이터의 문제가 여기저기서 '터질 거예요. (웃음)

 

김상욱 앞에서 빅 데이터와 프라이버시를 둘러싼 얘기를 했잖아요그런데 사실 빅 데이터를 둘러싼 더 중요한 문제는 자꾸 정보가 돈과 연결되는 거죠페이스북을 열심히 하면서 가끔씩 언짢은 기분이 듭니다물론 내가 좋아서 페이스북을 이용하는 거지만정작 그 플랫폼을 제공하는 기업은 엄청난 돈을 벌잖아요.

 

그 기업이 그런 돈을 벌게 해주는 건 바로 저와 같은 이용자(소비자)들입니다그런데 정작 우리가 그 기업으로부터 받는 대가는 적습니다우리는 프라이버시 침해까지 무릅쓰고 그 기업의 돈벌이를 위해서 소중한 정보를 제공하는데그 기업은 과연 우리에게 무엇을 해주는지 물어야 한다는 거예요.

 

강양구 구글이나 페이스북은 이렇게 얘기하겠죠. '우리가 너와 친구들이 커뮤니케이션할 수 있도록 인터넷 공간도 주고이메일도 공짜로 쓸 수 있게 해주잖아!'

 

김상욱 그러니까그게 정당한 대가인지 물어야죠더 심각한 문제는 자신의 소중한 데이터를 제공하는 대다수가 그런 인식조차 하지 않는 거죠.

 

채승병 그런 점에서 빅 데이터 그리고 더 나아가 데이터 자원을 둘러싼 본격적인 사회적 논의가 필요합니다아까 빅 데이터는 일종의 거스를 수 없는 흐름이라고 얘기했어요그렇다면이제는 빅 데이터의 부작용을 걱정하면서 금지를 논할 게 아니라그것을 사익이 아닌 공익을 위해서 활용하는 방안을 적극적으로 고민해야 할 것 같아요.

 

사실 우리가 빅 브라더를 두려워하는 중요한 이유는 구글과 같은 기업이 빅 데이터와 같은 정보를 독점하고 있기 때문이잖아요그런데 빅 데이터가 꼭 사익을 증진시키는 데만 쓰일 이유는 없습니다만약 그 빅 데이터를 공유할 수 있다면공익을 위해서도 충분히 쓰일 수 있거든요한 가지 예를 들어볼게요.

 

돼지고기 값이 폭락해서 양돈 농가가 시름이 많습니다정말 주기적으로 돼지 파동마늘 파동배추 파동 등이 끊이지 않죠그런데 이런 온갖 파동이 반복되는 중요한 이유는 바로 정보의 부재 때문이에요만약 양돈 농가가 시설을 늘리고 돼지를 구매할 때누군가 이 돼지고기가 출하될 때의 시장 상황을 예측해 준다면 상황이 이 지경까지 되지는 않겠죠.

 

예전에는 그런 예측 자체가 불가능했어요하지만 지금은 전국의 양돈 규모와 돼지 거래를 실시간으로 확인하는 게 기술적으로 충분히 가능합니다그렇다면정부가 그런 데이터를 이용해서 1, 2년 후의 돼지 시세를 예측하는 것도 가능하죠이런 게 시행된다면빅 데이터가 국민 경제와 양돈 농가를 위해서 유익하게 사용될 수 있지요.

 

이제 관점의 전환이 필요합니다지금은 빅 데이터를 모으고 관리할 수 있는 기업이 구글 애플 아마존 등 소수에 불과합니다그러니 빅 데이터가 무서운 거예요하지만 정부 혹은 시민 사회가 주도해서 빅 데이터를 모으고 관리할 수 있다면오히려 빅 데이터는 데이터 정보에 대한 자기 결정권을 확장할 수 있습니다.

 

강양구 얼른 용어를 만들어 보자면빅 데이터가 '데이터 민주주의'를 확장심화하는 도구로도 사용될 수 있다는 거네요그러고 보니국내 기업의 형편은 어떻습니까?

 

채승병 국내 기업은 구글 애플 아마존 등과 비교했을 때 데이터 정보의 중요성을 뒤늦게 깨달았습니다실제로 소중한 데이터 정보를 버린 경우도 많아요사실 웹 서버를 운영하다 보면하드 디스크의 용량이 모자라서 제일 먼저 버리는 게 회원들의 접속 정보였잖아요그런 걸 차곡차곡 쌓아 놓으면그게 바로 정말 활용 가능성이 무궁무진한 빅 데이터인데요. (웃음)

 

디지털 정보의 영속성 vs. 잊혀질 권리

 

강양구 기왕에 데이터 정보 얘기가 나왔으니그 얘기를 좀 더 해보죠지금 영국 케임브리지 대학에서는 찰스 다윈이 평생 주고받은 편지 약 14000통을 모조리 모으는 프로젝트를 진행 중입니다그런데 이 프로젝트가 가능했던 중요한 이유 중 하나는 다윈이 받은 편지뿐만 아니라 자신이 보낸 편지의 사본을 대부분 필사해서 남겨놓았기 때문이죠. (웃음)

 

그런데 한 100년 후에 여기 있는 이명현김상욱채승병 선생님께서 이메일로 주고받은 편지를 누군가가 모으는 일이 가능할까요방금 얘기한 저장 용량의 한계 또 디지털 정보를 소홀히 여기는 태도 등 여러 가지 이유 때문에 우리는 일상생활에서 너무 쉽게 소중한 정보를 삭제합니다.

 

더구나 최근 '나우누리'나 '프리첼폐쇄를 둘러싼 난리법석에서 확인할 수 있듯이인터넷 공간에서 우리가 축적하는 정보의 영속성을 보장받을 수 있을지도 의문입니다수년 길게는 10년 이상 쌓여온 정보가 서비스 제공 기업의 결정에 따라서 순식간에 공중 분해될 수 있는 게 지금 우리의 인터넷 환경이거든요.

 

채승병 반대의 경향도 있지요유럽연합(EU)은 지난 2012년 1월 25일 '잊혀질 권리(right to be forgotten)'를 명문화한 정보 보호법 개정안을 확정했어요잊혀질 권리는 온라인상의 개인 정보를 삭제 요구할 수 있는 권리입니다회원의 정보를 이용해서 끊임없이 빅 데이터를 축적해야 하는 구글 같은 기업은 발끈하고 있고요.

 

어려운 문제입니다일단 정보의 삭제는 불가피한 부분이 있어요저장 용량의 기술적 한계 때문에 마냥 쌓아놓을 수는 없거든요그 과정에서 개인의 소중한 정보를 어떻게 보존할지가 큰 문제가 될 거예요그 중 어떤 정보는 개인 차원을 넘어서 이미 공공 자산이 된 것일 수도 있고요.

 

반면에 잊혀질 권리에서 나타난 것처럼 개인의 프라이버시 문제도 중요합니다기업 혹은 사회 입장에서 아무리 중요한 정보라고 하더라도개인이 원하지 않는다면 영구적으로 삭제할 수도 있어야죠프라이버시 침해나 사이버 폭력이 심각해질수록 이런 권리에 대한 관심이 높아질 거예요. EU의 정보 보호법 개정안은 그런 흐름이 가능하도록 물꼬를 튼 거죠.

 

저는 어떤 방향이 옳은지 아직 입장을 정해지 못했어요다만 디지털 정보가 중요해진 시대에 맞는 새로운 교육의 필요성을 강조하고 싶습니다빅 데이터를 비롯한 디지털 정보가 사회의 미래는 물론이고 개인의 미래에도 큰 영향을 미칠 수 있다는 내용을 이제는 어른아이를 불문하고 가르치고 토론해야 합니다.

 

단적인 예를 하나 들까요기업이 인사 관리를 하면서 트위터페이스북 등을 샅샅이 뒤지고 있어요특히 미국의 기업은 이미 채용 결정을 할 때 트위터페이스북 등의 정보를 중요하게 고려합니다왜냐하면개인의 사생활을 엿보면 이 사람이 노닥거릴 사람인지 혹은 술을 좋아해서 얼마 못 가 나자빠질 사람인지 등을 미리 확인하는 게 가능하거든요.

 

지금 당신의 행동 하나하나가 어딘가에 데이터로 기록되고그것이 이런 식으로 혹은 저런 식으로 이용될 수 있다는 가능성을 알아야 합니다법으로 보장을 받을 수 있는 부분 또 개인이 편익과 위험을 감수하고 선택해야 할 부분이 정확히 무엇인지 판단할 수도 있어야 하고요그 과정에서 자연스럽게 데이터 정보의 밝은 면과 어두운 면도 확인할 수 있겠죠.

 

지금 인사 청문회에 나와서 낭패를 보는 이들을 보세요과거에 당연시되었던 재테크가 지금은 심각한 문제가 되어서 자신의 앞길을 가로막잖아요이처럼 지금의 방만한 데이터 관리가 미래에 심각한 문제가 되어서 돌아올 수도 있다는 사실그리고 그 과정에서 분명히 자신이 생산한 정보인데도 자기가 통제할 수 없는 경우가 생길 수도 있다는 사실 등을 알아야죠.

 

강양구 디지털 시대 혹은 빅 데이터 시대의 새로운 라이프스타일에 대한 교육이 필요한 시점이군요.

 

이명현 이미 그런 시대가 왔어요이제 오웰이 <1984>에서 경고했던 빅 브라더를 우려하는 단계는 지난 것 같아요굳이 이름을 붙이자면, '디지털 좌파혹은 '빅 데이터 좌파같은 흐름이 필요할지도 모르겠어요.디지털 시대의 큰 흐름인 빅 데이터와 같은 것을 무작정 거부하는 게 아니라 그걸 어떻게 공적으로 활용할 수 있을지 적극적으로 고민하는 이들이요.

  

 

빅 데이터우주를 꿈꾸다

 

채승병 마지막으로 데이터의 중요성을 한 번만 더 강조하고 싶습니다물리학자로서 과학 혁명이 시작된 시점을 따져 보면바로 데이터가 있었거든요티코 브라헤가 엄청난 데이터를 수집하고 요하네스 케플러가 그것을 '케플러의 법칙'으로 공식화하면서 바로 근대 과학 혁명이 시작되었잖아요.

 

우리나라나 중국에서는 감으로 만들던 도자기를 독일 작센 주의 마이센 장인은 구체적인 데이터를 바탕으로 만들었어요철분을 비롯한 성분을 얼마씩 배합하느냐에 따라서 가장 멋진 백자가 나오는지를 데이터로 남긴 겁니다그런 데이터의 힘 때문에 마이센 장인은 자기의 산업화에 성공했습니다.

 

우리가 데이터를 어떻게 취급하고 어떤 통찰을 얻느냐에 따라서 미래가 바뀔 수도 있다는 겁니다최근에 정부에서 빅 데이터를 주제로 자문에 응할 기회가 있었어요그 때도 이런 얘기를 했습니다당장 눈에 보이는 사업도 중요하지만사실은 이런 데이터에 대한 관심이야말로 결정적인 차이를 낳을 수 있다고요. (웃음)

 

김상욱 여기에 도저히 규칙이라고는 없는 숫자의 나열이 있어요대다수의 사람에게 그 숫자는 아무런 의미가 없죠하지만 사실 그 숫자는 파이(3.1415926535……)의 1500만 번째부터의 숫자입니다그 숫자가 파이의 한 부분이라는 정보를 알고 있는 사람은 컴퓨터 명령어 한 줄로 구현할 수 있어요.

 

규칙 없는 숫자의 나열이 어떤 이에게는 굉장히 가치 있는 정보인 거죠과학자를 비롯해서 기존에 데이터를 다루는 이들은 바로 이 가치의 문제를 해결하지 못했어요가치는 지극히 맥락 의존적인 것이라서주관적일 수밖에 없거든요그런데 지금 빅 데이터를 둘러싼 여러 가지 시도는 바로 이런 정보의 가치를 다루는 새로운 접근으로 보입니다.

 

지금은 주로 비즈니스 현장에서 빅 데이터가 다뤄지지만그 과정에서 쌓인 여러 가지 통찰이 과학 더 나아가 사회의 여러 문제를 해결하는데 새로운 돌파구를 마련할 수도 있을 것 같아요그러고 보면정작 물리학의 최전선은 강의실이나 실험실이 아니라 바로 빅 데이터를 놓고서 갑론을박하는 저자거리즉 비즈니스 현장 같은 곳일지도 모르겠습니다.

 

채승병 그렇게 얘기해 주니 고맙습니다. (웃음)

 

김상욱 그런데 데이터가 곧 정보잖아요오늘 과학 수다를 준비하면서 몇 가지 숫자를 적어 왔어요한 인간의 유전체 정보가 200테라바이트라고 합니다. 0이 열네 개 붙은 10의 14승 바이트입니다그런데 이것도 큰 게 아닌 게 아까도 잠시 언급했지만 세른의 LHC는 2010년에만 무려 13페타바이트의 데이터가 나왔어요. 10의 16승 바이트죠.

 

그럼우주에 있는 모든 정보를 모조리 모아보면 어떻게 될까요?

 

이명현 궁극의 빅 데이터요? (웃음)

 

김상욱 세스 로이드가 <프로그래밍 유니버스>(오상철 옮김지호 펴냄)에서 비슷한 시도를 했어요. '우주의 모든 가용한 자원을 총동원해서 만들 수 있는 가장 강력한 컴퓨터가 무엇일까?' 이런 질문에 답해본 거예요로이드가 추산한 결과를 보면현재 예상되는 우주의 전체 에너지는 10의 71승 줄(J)입니다.

 

이런 에너지로 나올 수 있는 컴퓨터는 매초 10의 105승의 연산을 수행할 수 있어요구글이 원래 회사 이름을 10의 100승을 가리키는 '구골(Googol)'로 하려다 실수로 잘못 등록하는 바람에 구글이 되었다고 하잖아요그러니까 구글이 꿈꿨던 10의 100승보다 0이 5개가 더 붙는 게 우주에서 궁극적으로 가능한 연산 속도라는 거예요.

 

우주의 역사가 약 137억 년이니까우주가 탄생한 이래로 이 컴퓨터가 해온 연산은 약 10의 122승에 불과합니다그렇다면이런 컴퓨터가 저장할 수 있는 메모리의 한계는 얼마나 될까요역시 계산을 해보면 1092승 비트가 나옵니다그러니까 궁극의 우주 컴퓨터는 10의 92승 비트에다 10의 122승 연산을 수행할 수 있어요.

 

상상할 수 없을 정도로 큰 숫자지만한편으로는 '이게 전부야?' 하는 생각도 듭니다지금 우리의 빅 데이터가 10의 20승 비트 정도인데우주의 한계가 10의 93승 비트 정도라는 거예요만약 우리의 빅 데이터가 계속 축적된다면어쩌면 그 자체가 우주가 될지도 모릅니다. (웃음)

 

강양구 아이작 아시모프가 1956년에 쓴 단편 소설 중에 '최후의 질문(The Last Question)'이 있잖아요이 이야기에서 바로 그런 이야기가 나오죠이 소설에서 아시모프가 '멀티백'이라고 부른 컴퓨터가 바로 '구글'같아요.

 

김상욱 이번 수다는 그 이야기로 마무리하면 어떨까요? (웃음)

 

 

우주가 컴퓨터가 된다면

 

2061이야기의 초반에 컴퓨터 멀티백을 조작하는 루포브와 아델은 우주의 미래를 두고 논쟁을 벌이고,인류가 지금부터 100억 년 뒤까지모든 별이 타서 꺼졌을 때까지 살 수 있을지 컴퓨터에게 물어보기로 결정했다루포브는 말한다.

 

"모든 것은 최초의 우주 폭발에서 시작했어그리고 모든 별들이 수명을 다했을 때 모든 것이 끝나는 거야. 1조 년 후에는 모든 것이 어둠 속에 잠길 테지엔트로피는 최대로 증가해야 할 것이고그럼 끝이야……."

 

이제 아델이 반박할 차례였다.

 

"어쩌면 우리가 언젠가 다시 물체를 만들 수 있을 거야."

"결코 아니야."

"왜 안 돼언젠가는 가능할 거야."

"절대 안 돼."

"좋아그럼 멀티백에게 물어보자."

 

아델은 그런 질문을 시도할 정도로 충분히 취해 있었고질문을 필요한 기호와 연산으로 바꾸어 입력할 수 있을 만큼은 정신이 맑았다그 질문은 말로 하면 다음과 같았다. '인류가 어느 날 에너지의 순수한 소비 없이 늙어 죽은 태양을 젊은 상태로 되돌릴 수 있을까?' 혹은 아마도 다음과 같이 단순하게 입력되었을 것이다. '어떻게 하면 우주의 엔트로피 총량을 대량으로 줄일 수 있을까?'

 

멀티백은 죽은 듯 조용해졌다천천히 반짝이던 불빛이 멈추었다딸깍거리는 희미한 소리도 끝났다겁먹은 엔지니어들이 더 이상 참을 수 없게 됐을 때멀티백에 부착된 텔레타이프가 활발히 작동하기 시작했다다섯 단어가 인쇄되었다.

 

"데이터 부족유효한 대답 불가능."

 

이야기에서 시간은 흘러갔다인류는 은하와 다른 은하를 개척해 나갔고불멸을 획득했다(어쨌든 과학 소설이다). 멀티백의 후속 버전은 더욱 강력해져마침내 우주의 모든 구조에 퍼져 갔다인류는 계속하여 어떻게 열역학 제2법칙을 되돌릴 수 있는지 변형된 질문을 컴퓨터에게 물었다그리고 모든 답은 같았다.

 

마침내 인류의 모든 지식이 다른 모든 것과 함께 멀티백에 흡수되었을 때컴퓨터는 답을 계산했고 말했다.

 

"빛이 있으라!" (<프로그래밍 유니버스>, 210~212)