관리 메뉴

ScienceBooks

빅 데이터 시대를 탐험하는 법: 『R 통계의 정석』, 김종엽 건양 대학교 교수 편 ① 본문

(연재) 과학+책+수다

빅 데이터 시대를 탐험하는 법: 『R 통계의 정석』, 김종엽 건양 대학교 교수 편 ①

Editor! 2021. 12. 30. 13:48

과거에는 알 수 없었던 매우 사소한 정보까지도 디지털로 모두 기록해, 이 방대한 정보를 관리하고 분석해서 유용하게 사용하는 기술을 의미하는 빅 데이터(big data). 이 빅 데이터가 의료와 결합하면 마치 미래를 내다보는 것처럼 감염병을 진단하고, 인공 지능 의사가 건강을 진단해 주고, 백신 개발 속도가 기하급수적으로 빨라지는 시대가 온다고 합니다. 정말 그럴까요? 그리고 그것뿐일까요?

“메디컬 빅 데이터 연구자 중에 날 모르는 사람이 있다면 간첩.”이라고 표현하실 만큼 국내에서도 손꼽히는 빅 데이터 연구의 권위자, ‘깜신’ 김종엽 건양 대학교 교수님께서 이번에 『R 통계의 정석』을 출간하셨습니다. 유튜브 연재와 대학교 수업 내용을 기초로 빅 데이터의 올바른 활용을 위해 선결되어야만 하는 프로그래밍 언어 R의 사용법을 강의 형식으로 엮은 이 책, 그리고 앞으로 다가올 빅 데이터 시대에 관련된 이야기들을 과학+책+수다에서 준비해 봤습니다. 독자 여러분의 일독을 권합니다. 모두 2편으로 발행됩니다.


「과학+책+수다」

빅 데이터 시대를 탐험하는 법

『R 통계의 정석』, 김종엽 건양대 교수 편 ①

 

SB: 오늘은 R 통계의 정석의 저자 김종엽 교수님을 모시고 대화를 나눕니다. 먼저 책 표지를 처음 보셨을 때 느낌이 어떠셨어요?

 

『R 통계의 정석』 출간 기념 인터뷰 중인 김종엽 교수. 사진: ⓒ (주)사이언스북스.

 

김종엽무척 마음에 들었어요. 이게 데이터 시각화(data visualization)[각주:1]처럼 보이게 그린 거잖아요? 빌딩 숲이라는 모티브를 데이터가 주제인 이 책에 너무 잘 어울리는 방식으로 디자이너가 표현한 거죠. 사실 이런 책 표지가 컴퓨터 그림이면 아주 촌스럽거든요. 저도 통계나 데이터, R 관련 책들은 없는 책이 없을 정도로 많이 구입한 편인데 제일 마음에 들어요. 그렇게 극찬을 하더라는 이야기를.

 

SB: 디자이너에게 꼭 전달해 드리겠습니다. 그리고 저희가 책 띠지에 코로나19 대응을 승리로 이끌 열쇠라고 빅 데이터를 수식했는데, 최근 언론 기사를 좀 참고한 부분이 있습니다. 정확한 표현이라고 볼 수 있을까요?

 

빅 데이터, 새로운 통찰력

김종엽: 그럼요. 미래에 빅 데이터로 가능해질 이야기를 하나 소개해 드리자면, 예전에는 의사 한 명 한 명이 현장에서 경험과 지식을 통해서 어떤 의심을 하고, 이로부터 연구 가설을 만들고 검증하는 단계를 거쳐서 논문을 발표해야 의료계가 어떤 현상에 대해서 함의를 가질 수 있었죠. 이제 빅 데이터로 그 과정을 굉장히 단축할 수 있습니다. 기억을 되살려 보면 2년 전 중국 우한 시에서 한 의사가 이번 폐렴은 예전하고 왠지 좀 다른 것 같은데?’라고 생각했던 것이 코로나19 발견의 시작이지 않습니까? 중증 폐렴 환자를 여럿 진찰한 기억에서 온 통찰인데 데이터로 보면 이런 기억이 이미 실시간으로 병렬적으로 쌓이고 있거든요. 이 데이터를 우리가 잘 활용해서 통찰을 얻을 수 있다면 감염성 질환이라든지 여러 위기에 더 효과적으로 대처할 수 있죠. 그래서 저는 앞으로 데이터를 이해하는 사람들이 늘어날수록 미래에 닥칠 재난에서 인류가 도움을 받을 것으로 생각해요. 코로나19는 시작일 뿐이지, 끝이 아니거든요.

 

SB: 제가 어제 얀센 백신 관련 기사를 2개 봤는데 하루 차이를 두고 나온 기사였거든요. 하나는 효과가 5개월 만에 3퍼센트로 떨어진다.”[각주:2]또 하나는 효과 지속력이 최고다.”[각주:3] 이렇게 상반되는 논조가 어떻게 가능한지 궁금하더라고요. 이런 상황에 빅 데이터가 통찰을 줄 부분이 있을까요?

 

김종엽: 데이터는 해석자의 주관이 생각보다 많이 들어가요. 그래서 데이터 과학자는 남이 정리해서 의미를 붙인 결과에 접근할 때 굉장히 의심을 합니다. 연구 설계가 촘촘하지 못하고 엉성하다면 지금처럼 상반된 해석이 발생할 수 있어요. 통계를 이해하고 빅 데이터 개념을 좀 알고 나면 뉴스의 내용, 예를 들자면 얀센 백신이 항체 생성률이 높다.”라는 말을 바로 믿지 않고 이 결과가 어떤 연구 설계와 분석에서 나온 데이터인지를 먼저 확인하게 되죠. 그래서 사실 언론사 기자분들도 제 책을 읽어야 해요. 숫자 개념을 정확하게 모르면 그냥 사기꾼이 될 뿐이거든요. 그중에서 가장 지능적 사기가 과학의 이름을 빌려서 치는 겁니다. 잘 알지도 못하면서 내가 어떤 통계 기법으로 분석했더니 이게 과학적으로 훨씬 더 효과가 있다고 나왔다. 이렇게 사기를 친단 말이에요. 과학을 하는 사람들이 보면 전혀 앞뒤가 안 맞는 얘기라는 사실이 바로 보여요. 그래서 데이터를 바라보는 시각이 사회 전체적으로 올라가야 그런 사기꾼들이 판치지 못할 거고, 데이터를 통해서 더 진실에 다가갈 수 있지 않을까 그렇게 생각을 합니다.

 

SB: 그러려면 사회 전반적으로 빅 데이터에 대한 이해를 갖춰야 하니까 결론은 이 책을 읽어야겠네요.

 

김종엽: 그렇죠.

 

SB: 빅 데이터의 통찰력은 팬데믹(pandemic)에도 미칠 수 있을까요? 코로나19가 이후 어떻게 될지 빅 데이터로 예측이 가능한 부분일까요?

 

『R 통계의 정석』 출간 기념 인터뷰 중인 김종엽 교수. 사진: ⓒ (주)사이언스북스.

 

김종엽: 쉽지는 않죠. 우리가 실험실 환경에서의 예측은 되게 쉬워요. 실험실 환경이라는 말은 통제된 환경, 그러니까 사람들이 전부 마스크를 제대로 쓰고 다니고, 예방 접종을 100퍼센트 하는 이런 환경을 뜻하는 겁니다. 이런 환경에서는 통계적으로 충분히 예측 가능한데 문제는 마스크를 벗고 다니는 사람이 있고, 예방 접종 안 하겠다는 사람도 있고, 그리고 미접종자가 언젠가는 접종을 할지, 끝까지 안 할지 여부도 알 수가 없기 때문에 팬데믹 상황을 정확하게 예측하기가 어려운 거죠. 인간의 일기예보가 매번 맞지 않는 것처럼 이렇게 통제되지 않은 자연 현상 속에서의 어떤 예측은 늘 그렇게 틀릴 가능성을 내포하죠. 그런데 우리가 일기예보에서 매일 비 올 확률 같은 건 잘 못 맞춰도 언제 태풍이 올 예정이다 같은 큰 것들은 대개 맞추거든요. 그러면서 더 고도화돼 가는 거고요.

 

SB: 예. 지금은 잡음이 많아서 큰 관점에서 코로나19가 더 변이할 것이다 / 종식될 것이다에 대해서는 말하기 힘든 단계이기는 한데 데이터가 점점 쌓이면서 가능해지는 시점이 올 것이다. 저는 그렇게 이해했습니다.

 

R이 빅 데이터 분석의 기본이라 불리는가?

 

 

SB: 이런 빅 데이터, 통계학에서 왜 R이 가장 인기 있을까요? 제가 보니까 작년 영국 조사 결과로는 프로그래밍 언어 중에 R이 평균 연봉이 제일 높더라고요.[각주:4] 왜 통계학에서 R이 인기가 있는지, 그리고 R을 해야 하는 이유가 있다면 그것은 무엇인지 간단하게 설명 부탁드리려 합니다.

 

김종엽: 일단은 접근성이 좋다는 점이 가장 크게 작용합니다. 원래 통계는, 데이터 분석은 연필하고 종이만 있으면 할 수 있어요. 직접 더하고 빼고 나누고 손으로 계산하면 되고, 조금 더 도움을 받자면 계산기가 있으면 좋죠. 그런데 빅 데이터로 데이터가 커지면 계산기도 직접 손으로 눌러야 하잖아요. 자료가 산처럼 쌓여 있으면 한 장씩 넘어가면서 숫자들을 다 더하는 것 또한 큰일이 되죠. 그런 일을 도와주는 게 통계 프로그램이에요. 통계 프로그램은 계산기, 손으로 수작업하는 이런 과정을 압축해서 쉽게 하는 프로그램인데 그중에서 유일하게 R만 무료 버전이 있어요. 이게 워낙에 중요한 작업이다 보니까 SPSS[각주:5]SAS[각주:6]니 하는 것들이 다 고가 유료 프로그램이에요. 엄청나게 비싸기 때문에 데이터에 이제 막 관심이 생긴 사용자들이 처음에 그 비용을 내고 사기는 너무 힘들어요. 즉 접근성이 너무 나쁜 거예요. 물론 제대로 데이터를 아는 기업에서는 그 비싼 값을 다 치르고 씁니다. ? 대량의 데이터를 정확하게 이해하는 것이 그만큼 경영에 가치가 있는 일이기 때문에, 그 돈을 쓰더라도 좋은 프로그램으로 결과를 빨리 뽑아내는 게 더 중요하기 때문에 그렇습니다.

하지만 일반인들이 처음 데이터를 접할 때는 보통 집에 있는 데스크톱 내지는 노트북으로 감당할 만한 규모부터 시작하기를 권합니다. 그때 R은 다른 프로그램에 비해서 전혀 뒤지지 않거든요. 물론 데이터가 커지면 커질수록 유료 프로그램이 왜 유료겠어요? 성능이 당연히 차이가 나지요. 그런데 일단 R로 데이터를 이해하고 나면 더 고급 프로그램으로 넘어가는 문턱이 낮아질뿐더러 또 R이라고 해서 빅 데이터를 못 다루는 것도 아니에요. 시간이 좀 걸려서 그렇지 프로그램을 돌려놓으면 웬만한 건 다 계산할 수 있어요. 그래서 데이터를 막 이제 쳐다보기 시작한 데이터 과학자 입문자들한테 R을 제일 많이 권하는 거죠.

 

R을 다루는 가장 쉽고 빠른 길

SB: 이제 본격적으로 책 자랑을 할 시간을 드리겠습니다. 교수님께서 생각하시는 R 통계의 정석의 장점을 한두 가지 정도 말씀해 주시길 부탁드립니다.

 

김종엽 교수의 『R 통계의 정석』 본문. 사진: ⓒ (주)사이언스북스

 

김종엽: 네. 시중에 통계 책들 많아요. 많은데 이론에 치우쳐 있죠. 그러면 통계학을 전공하려는 학생이 아니면 10페이지도 못 읽어요. 너무 어려워. 처음부터 수식이 나오기 일쑤고 어떤 책은 막 경우의 수나오기 시작하고 확률그다음이 통계거든요. 거기까지 가면 너무…… 어렵죠. 물론 통계학 전공자의 삶을 살려면 당연히 그런 과정을 겪어야 하는데 문제는 요즘 통계 안 하고 데이터 안 다루는 과가 존재합니까? 통계를 전공하지는 않더라도 데이터가 주는 통찰이 필요하고 알고 싶은 사람들한테 그 과정은 너무 지난하고 긴 거죠. 그래서 기존 책들로 도전하다가 , 이건 내가 넘볼 일이 아니구나.’ 하면서 그냥 접어 버리세요. 하지만 제 책을 보시는 분들은 수식이 없이도 통계가 어떻게 돌아가고, 나오는 값들을 어떻게 해석할 수 있는지를 아주 쉽게 따라오시면서 배우실 수 있을 겁니다.

그리고 또 하나는 기존에 R과 관련된 책들도 많은데요. 대부분은 두 그룹의 평균을 비교하려면 어떤 통계 기법을 써야 한다.’라는 설명은 극히 적고 스튜던트 T 검정(Student t-test)R로 하는 방법에 대해서만 간략히 기술이 돼 있어요. 그런데 처음 데이터를 접하는 분들은 내가 어떤 통계 기법을 적용해야 하는가부터가 큰 고난이거든요. 제 책은 독자가 직면한, 지금 분석하고자 하는 그 주제에 어떤 통계 기법을 선택해야 하는지부터 단원별로 설명하고 있어요. 그 허들을 넘는 데 도움이 될 거예요. 처음에는 따라 하기 방식으로, 사이언스북스 사이트[각주:7]에서 저희가 샘플 데이터랑 코드까지도 드리고 있으니까 일차적으로 연습을 한번 해보신 다음에 자신의 데이터로 그 과정을 따라 하시면 원하는 결과를 똑같은 과정으로 얻으실 수 있으시리라고 생각합니다.

 

SB: 교수님 유튜브[각주:8]3년간 45편의 영상을 올리신 것으로 알고 있습니다. 이 영상과 책을 같이 활용할 방법이 있을까요?

 

김종엽: 최근 긴 글을 읽을 시간이 없는 분들이 늘어나면서 교육 콘텐츠가 책으로 시작해서 예전에는 블로그 같은 것으로 많이 유통됐다면 최근에는 조금 더 짧은, 마이크로블로깅(microblogging)이라고 해서 SNS를 통해서 많은 정보가 오가는데 어쨌거나 요즘에는 콘텐츠를 소비하는 가장 큰 수단이 유튜브잖아요. 그러니까 글 읽기가 힘든 분들은 유튜브를 먼저 보시는 편이 좋아요. 그런데 제 생각에 유튜브는 처음 공부하기는 좋은데 한 번 공부한 내용을 재학습할 때는 시간이 너무 오래 걸려요. 그때 책의 가치가 더 커지는 것 같아요. 한 번 공부한 내용을 실시간으로 옆에다 놓고 참고하기에 유튜브 영상은 , 내가 그때 몇 분 몇 초대에서 무슨 얘기 들었던 것 같은데…….’처럼 찾기 어렵거든요. 반대로 한 번 본 내용을 책에서 찾기는 아주 쉬워요.

 

SB: 교수님 유튜브도 책처럼 주제별로 정리가 되어 있으니 자신이 어떤 연구 방법을 써야 할지 감이 안 올 때는 그 부분을 먼저 영상으로 보고 그다음 책에서 같은 장을 찾아서 복습하면 되겠네요.

 

김종엽: 그렇죠. 글 읽기가 힘든 분에게는 그편이 좋습니다. 사실 저는 종이책에 굉장히 애착과 애정이 많은 사람이거든요. 저처럼 종이책을 좋아하시는 분들은 책으로 그냥 술술 읽으시면서 공부하셔도 됩니다. 유튜브는 왠지 어렵다고 생각하시는 연령대라도 제 책은 구어체에 가깝게 쓰여 있거든요. 감수 맡아 주신 교수님 중 한 명은 음성 지원이 되는 것 같더라.”라고 표현해 주신 분도 있습니다. 그렇게 구어체에 가깝게 쓰였기 때문에 그냥 쭉 읽으시면 마치 제가 옆에서 이렇게 떠들고 있는 양 통계와 데이터에 대해서 접근하시는 데 도움이 되리라 생각합니다.

 

『R 통계의 정석』 출간 기념 인터뷰 중인 김종엽 교수. 사진: ⓒ (주)사이언스북스.

 

(다음 회에 계속)


김종엽

전공은 이비인후과이나 현재는 의과 대학 정보 의학 교실 주임 교수로서 연구에 더 많은 시간을 할애하고 있다. 2009년 ‘깜신의 작은 진료소’라는 블로그를 개설한 것을 계기로 ‘깜신’이라는 닉네임으로 방송 및 집필 활동을 꾸준히 해 오고 있다. 저서로는 『의사아빠 깜신의 육아시크릿』, 『꽃중년 프로젝트』, 『코 사용설명서』(공저), 『꽃보다 군인』(공저), 『닥터스 블로그』(공저) 등이 있다. 유튜브 채널 「나는 의사다」에서 메인 MC로 출연하고 있으며, 건양 대학교 병원에서는 헬스케어 데이터 사이언스 센터 센터장으로 의료 정보 표준화와 의료 인공 지능 개발을 통한 정밀 의료 구현에 힘쓰고 있다.

 

 

 

함께 읽으면 좋은 책

 

AI 시대, 행복해질 용기

인공 지능 시대의 행복론

 

미래는 AI의 것일까?

인공 지능과 미래 사회

 

인공 지능 없는 한국

AI 시대를 위한 기업, 교육, 사회, 국가 혁신 전략

과학 수다 4: 과학, 누구냐 넌?

AI에서 중력파, CRISPR까지 최첨단 과학이 던진 질문들

 

 

 

  1. 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. 데이터 시각화의 목적은 도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다. [본문으로]
  2. https://m.hankookilbo.com/News/Read/A2021101717460002765 [본문으로]
  3. https://www.fnnews.com/news/202110180641533952 [본문으로]
  4. https://www.ciokorea.com/news/137626 [본문으로]
  5. 사회 과학을 위한 통계 처리(Statistical Package for the Social Sciences) [본문으로]
  6. 통계적 분석 시스템(Statistical Analysis System) [본문으로]
  7. http://sciencebooks.minumsa.com/book/1390/ [본문으로]
  8. https://www.youtube.com/user/musezzang1 [본문으로]