관리 메뉴

ScienceBooks

메디컬 빅 데이터와 대중의 가교를 꿈꾸며 : 『R 통계의 정석』, 김종엽 건양 대학교 교수 편 ② 본문

(연재) 과학+책+수다

메디컬 빅 데이터와 대중의 가교를 꿈꾸며 : 『R 통계의 정석』, 김종엽 건양 대학교 교수 편 ②

Editor! 2022. 1. 4. 16:55

과거에는 알 수 없었던 매우 사소한 정보까지도 디지털로 모두 기록해, 이 방대한 정보를 관리하고 분석해서 유용하게 사용하는 기술을 의미하는 빅 데이터(big data). 이 빅 데이터가 의료와 결합하면 마치 미래를 내다보는 것처럼 감염병을 진단하고, 인공 지능 의사가 건강을 진단해 주고, 백신 개발 속도가 기하급수적으로 빨라지는 시대가 온다고 합니다. 정말 그럴까요? 그리고 그것뿐일까요?

 

“메디컬 빅 데이터 연구자 중에 날 모르는 사람이 있다면 간첩.”이라고 표현하실 만큼 국내에서도 손꼽히는 빅 데이터 연구의 권위자, ‘깜신’ 김종엽 건양 대학교 교수님께서 이번에 『R 통계의 정석』을 출간하셨습니다. 유튜브 연재와 대학교 수업 내용을 기초로 빅 데이터의 올바른 활용을 위해 선결되어야만 하는 프로그래밍 언어 R의 사용법을 강의 형식으로 엮은 이 책, 그리고 앞으로 다가올 빅 데이터 시대에 관련된 이야기들을 과학+책+수다에서 준비해 봤습니다. 독자 여러분의 일독을 권합니다. 지난주에 발행한 1편에 이어지는 2편입니다.


「과학+책+수다」

메디컬 빅 데이터와 대중의 가교를 꿈꾸며 

『R 통계의 정석』, 김종엽 건양대 교수 편

 

『R 통계의 정석』 출간 기념 인터뷰 중인 김종엽 교수. 사진 ⓒ ㈜사이언스북스.


컴퓨터로 세상을 바꿀 수 있다고 믿은 소년
SB: 제가 듣기로는 교수님께서 학창 시절부터 코딩, 프로그램 짜는 걸 엄청나게 좋아하셨다고 들었습니다. 그때는 어떤 언어를 쓰셨나요? 

김종엽: 베이식(Basic)[각주:1]부터 시작했어요. 지금 생각하면 베이식은 정말 너무 볼품없는 프로그래밍 언어인데 처음 배웠을 때는 베이식으로 인공 지능도 개발할 수 있고 모든 것을 다 할 수 있겠다고 생각을 했어요. 대화하는 인공 지능을 만들려고 고민도 해 보고. 

SB: 한 소년의 앞에 놓인 이 언어가 너무 눈부셔 보이셨군요. 이것으로 미래를 열 수 있다. 

김종엽: 지금 파이선(Python)[각주:2]으로 시작하는 초등학생도 대부분 비슷한 생각을 해요. 파이선으로 모든 걸 할 수 있을 거라고. 그런데 프로그래밍 언어가 계속 새로 나오는 이유는 언어마다 한계가 있기 때문에 개선품이 나오는 거거든요. 그 작은 꿈들이 커지면서 성장하는 과정을 보는 것이 저한테는 큰 재미죠. 

SB: 지금 막 눈을 막 빛내고 계세요. 보통 의사 선생님들은 새 수술 도구나 신약 쪽에 더 관심이 있으실 것 같은데 말이죠. 교수님 같은 경우에는 그런 것이 수술 도구인 셈이네요. 

김종엽: 그렇지요. 이번에 엔비디아(NVIDIA)에서 새로 나온 GPU[각주:3] 카드가 A100이라고 엄청 비쌉니다. 개당 몇천만 원짜리인데 그걸 1억 원어치 샀어요. 요즘 저한테는 이게 가장 큰 설렘이지요. 자동차 애호가가 페라리를 사는 것과 같은 그런 흥분을 저는 GPU 카드에서 느껴요. 어려서부터 컴퓨터와 프로그램을 좋아하던 제가 이것으로 밥벌이를 하게 된 셈이라서 어떻게 보면 복 받은 인생이라는 생각이 듭니다. 음악을 좋아하는 사람이 가수가 되고, 축구를 좋아하던 아이가 축구 선수로 인생을 사는 그런 느낌. 데이터 과학자로서 역할을 하고 또 인류에 공헌할 기회를 가진 것 자체가 너무나도 꿈만 같아요. 

 

 

과학자와 일하는 의사
SB: 그런 교수님께서 최근 하고 계신 일을 간단히 설명해 주실 수 있을까요? 

김종엽: 디지털 헬스케어라는 주제를 정보 의학 관점에서 연구하고 있습니다. 이제 아날로그에서 디지털 방식으로 넘어가는 시대에 저희가 살고 있는데, 그 과정에 정보 의학. 그러니까 데이터가 의료에 어떻게 영향을 미칠 건지에 대해서 고민하는 거죠. 최근 인공 지능도 많이 화두가 됐지만, 인공 지능은 데이터를 다루는 한 가지 방식에 불과해요. 그래서 인공 지능이 앞으로 더 큰 투자를 받고 성공할 건지에 대해서는 저는 사실 좀 의문이에요.

SB: 제가 알기로는 건양 대학교가 IBM의 인공 지능 의사 왓슨을 2017년이라는 빠른 시기에 도입한 것으로 알고 있습니다. 그런데 아직 물음표이신 건가요? 

 

 

김종엽: 예. 물음표예요. 그러니까……. 인공 지능은 데이터의 가치를 분석하는 방법 중 하나거든요. 요즘 인공 지능에 데이터를 무제한으로 학습시켜서 사람보다 더 나은 통찰을 가질 수 있을 거라는 기대를 많이 하는데 저는 좀 조심스러운 편입니다. 왜냐하면 얼마 전에도 그런 데이터가 나왔어요. 코로나 환자를 진단하는 인공 지능을 학습으로 만들었는데 이게 인간 의사보다 정확도가 많이 떨어지더라는 연구 결과가 발표됐거든요. 당연히 그럴 수밖에 없는 게, 의사는 오감을 활용해서 환자를 진찰하잖아요. 눈으로 보고, 만져도 보고, 촉진도 하고, 냄새도 맡고. 그런데 컴퓨터에는 검사 결과 데이터만 학습시키고 있는 거죠. 영상 데이터나 엑스선 사진 데이터만 학습을 시키고 있어요. 사람이 오감을 활용해서 진단하는 데 쓰는 데이터들은 거의 학습이 안 되는 실정이거든요. 청각, 후각, 촉각 데이터조차 정형화돼서 컴퓨터에서 학습시킬 수 있다면 언젠가는 인공 지능이 사람만큼 진단하는 날도 오겠지만, 센서의 발달은 인공 지능 네트워크 발달보다 훨씬 뒤처져 있어요.

SB: 그런 부분의 빅 데이터가 선결되어야 하는 거군요. 

김종엽: 그렇죠. 아직 빅 데이터를 만들 수 있는 환경조차 안 돼 있는 거예요. 인공 지능이 의사를 대신하려면 한 번 더 죽음의 골짜기(Death Valley)를 지나야 한다고 봅니다. 지금까지는 환자의 위궤양이 의심되는 상황에서 의사가 위궤양에 대한 피검사, 내시경 검사 등을 지시해서 그 결과를 보고 자기 생각이 맞았음을 확인하는 식인데, 지금 우리가 컴퓨터에 바라는 건 그렇게 모아 놓은 결과 데이터만 가지고서 환자의 위궤양 여부를 맞춰 보라는 거죠. 마치 점쟁이에게 가서 내가 어디가 불편한지는 얘기 안 하고 다 맞춰 보라는 말과 같죠. 사실 우리가 환자 상황을 파악하는 데 쓰는 그런 데이터를 컴퓨터에 얼마나 더 잘 전달해 주느냐가 최종 결과에 굉장히 영향을 많이 미치거든요. 

SB: 컴퓨터가 이해할 수 있는 데이터, 그러니까 데이터의 정형화가 중요한 거지요? 

김종엽: 네. 지금 실험 단계까지 온 센서도 많습니다. 저는 그런 센서가 인체를 대상으로 수집하는 데이터들, 라이프로그(lifelog) 또는 PGHD(Patient-generated health data)라고 해서 센서를 우리 몸에 붙이고 다니면서 나오는 이런 데이터들이 얼마나 의미가 있을지를 분석하는 연구도 하고 있습니다.

SB: 지금까지 말씀하신 그런 부분이 대한민국 의료 인공 지능 발전과 인프라 조성에 이바지한 공로로 올해 받으신 과학기술정보통신부 장관상의 업적하고도 연결되는 지점이라고 생각되는데요. 조금 설명해 주실 수 있을까요? 


김종엽: 제가 의료계 출신인데, 우리나라가 세계에서 경쟁력을 가질 정도로 높은 수준의 의료 인공 지능을 개발하려면 공학 박사들만 고민해서는 절대 해결되지 않습니다. 의료 지식이 있는 전문가와 공학 박사가 협업하면서 만들어 가야 합니다. 인공위성을 띄우려면 특정 분야 전문가 한 명이 아니라 광범위한 분야의 연구진이 협업해야 하듯이, 의료 인공 지능도 훌륭한 제품을 개발하려면 의사와 공학자가 한 공간에서 계속 같이 고민해야 하거든요. 그런데 많은 의사 선생님이 시쳇말로 진료의 늪에 빠져 계시기 때문에 이런 개발이나 연구에 같이 고민해 줄 시간이 없죠. 저는 약간 똘기도 있고 이쪽에 워낙 흥미가 크다 보니까 진료를 다 줄여 놓고 일주일 대부분을 디지털 헬스케어 연구 개발에 쓰면서 협업을 많이 했습니다. 그 부분을 과학기술정보통신부에서 우리나라 인공 지능 발전에 이바지했다고 생각해 주신 것 같아요. 그래서 뜻하지 않게 상을 받게 되었습니다. 의사가 사실은 보건복지부 장관상은 많이 받아도요. 과기정통부 장관상을 받은 적은 거의 없거든요. 저도 깜짝 놀랐어요.
 
SB: 과학자하고 함께 일하시고 있는 거네요? 

김종엽: 네. 과학자들과 과학기술 정보통신 발달을 위해 애를 많이 쓰고 있습니다.

SB: 그래서 ‘사이언스’북스에서 책을......

김종엽: 그런 거죠. 

빅 데이터, 인류 도약의 기회
SB: 한국에서도 최근 메디컬 빅 데이터로 (아무래도 코로나19 관련이 많은데) 휴대전화와 기지국 기록으로 감염 요인을 분석해서 선제적 방역을 하거나[각주:4] 확진자 데이터를 기초로 사망 위험 예측 모델을 만들려는[각주:5] 시도들이 기사로 나오더라고요. 그렇게 빅 데이터를 활용하는 시도가 한국에서 또 진행 중인 것들이 있을까요? 

김종엽: 우리가 지금 손에 쥔 데이터에서 어떤 의미를 찾기 위해 애를 쓰고 있는데요. 데이터로 의미를 찾는 작업에 익숙해지면 그다음에는 우리가 다른 일을 할 때 어떤 데이터가 필요하겠다는 통찰이 옵니다. “기록이 없으니까 이게 의미가 있는지 없는지 알 수가 없잖아. 다음번에는 날짜별로 정리해서 진행 상황을 데이터로 모아 보자.” 그게 바로 데이터의 정형화예요. 구조화된 데이터(Structured Data)를 만드는 작업이죠. 간단한 구조화 데이터는 『R 통계의 정석』 1장에서 말씀드린 것처럼 MS 엑셀로 충분히 만들 수 있습니다. 통계를 염두에 두고 엑셀을 만들어(데이터를 정형화해) 놓으면 빅 데이터 분석은 너무나도 쉬워요. 이처럼 사람들이 통찰력을 가지기 시작하면 그다음 단계를 생각할 수 있죠.

 

우리가 이제 4차 산업 혁명이라고 하는데 저는 4차 산업 혁명을 아직 시작도 못 했다고 생각해요. 산업 혁명의 시작은 증기 기관의 발명부터잖아요? 지금 데이터 산업 혁명을 이야기하기에는 그런 것이 없어요. 많은 관심을 불러일으켰고 많은 투자를 끌어냈지만 그게 산업 메커니즘을 바꿀 만큼의 변화를 줬냐? 저는 그 부분에는 아직 물음표거든요. 사람들이 데이터를 통해서 우리가 해 온 일을 제대로 평가하고, 다음 계획을 세우기 시작하는 식으로 생각의 패러다임이 바뀔 때 저는 진정한 4차 산업 혁명이 열린다 이렇게 보고 있어요. 

SB: 코로나가 인류에게 한 단계 도약을 위한 기회가 될 수 있다는 느낌으로 들리기도 합니다. 

김종엽: 네. 알파고와 코로나가 인류에게 큰 좌절을 줬지만, “고통 없이 얻어지는 것은 없다.”라고 하잖아요. 어떻게 보면 우리가 성장할 엄청난 계기를 마련해 주는 것 같아요.

『R 통계의 정석』 출간 기념 인터뷰 중인 김종엽 교수. 사진: ⓒ ㈜사이언스북스.


메디컬 빅 데이터와 대중의 가교를 꿈꾸며
SB: 지금까지 이렇게 저희가 교수님께서 해 오신 일들을 죽 들어 보았는데, 지금 일이 즐겁다는 사실은 말씀하시는 표정만 봐도 느껴질 정도네요. 이제 교수님께서 앞으로 가지고 계신 계획에 대해 간단하게 말씀을 부탁드려 볼까 합니다. 

김종엽: 저는 제가 시대적 소명을 받았다고 생각해요. 이만큼 큰 관심과 많은 투자를 받아 큰 연구를 했으면 마땅히 인류의 건강 증진에 진짜로 도움이 되어야 하거든요. 이 돈을 다 썼는데도 결국 도움 되는 걸 만들어내지 못하고 인류의 기대에 실망을 안긴다면 과학자로서 제 역할을 못 한 거죠. 그래서 제가 요즘에 고민하는 건 우리가 만들고 있는 것 중에서 정말로 인류 건강 증진에 도움이 될 부분은 무엇인지 추려내는 작업입니다. 그것을 임상 실증이라고 하거든요. 진짜 도움 되는 건 뭐고, 도움이 될 줄 알았지만 효과가 없는 건 뭔지 객관적 시각으로 판단해야 합니다. 과학이라는 것도 결국 하나의 시각, 관점이에요. 과학으로 봤을 때 인류 건강에 도움이 될 것 같아도 실제로는 도움이 안 되는 때도 꽤 많거든요. 그런 부분을 공학하시는 분들은 오히려 놓치기 더 쉬우세요. 자신들의 기술이 모두 인류 건강에 도움 되리라고 생각하시는데 막상 현장에서 환자를 진료해 본 제 경험으로는 늘 그런 건 아니에요. 거꾸로 도움이 안 될 것 같은데도 도움 되는 경우도 있고. 

 

그래서 현장에서 엄격한 기준을 가지고 임상 실증 효용성 평가 등을 통해서 여러 기술 중에서 무엇이 진짜로 인류와 건강 증진에 도움이 되는지를 밝혀내고 성공할 수 있도록 지원하는 일. 저는 그것에 제 미래와 소임이 있다고 생각을 합니다. 저도 실제로 인공 지능 개발을 해요. 그리고 특허도 내지만 요즘 제 생각에 제가 조금 더 집중해야 할 일은 이렇습니다. 제가 구글 딥마인드에 있는 인공 지능 개발자들하고 경쟁할 것은 아니지만(저보다 당연히 더 잘할 테니까) 대신 그들이 만들어 내는 여러 아이디어 중에서 인류 건강에 진짜로 도움이 될 만한 게 무엇인지 객관적인 시각으로 판단하고 빠른 시일 내에 환자 또는 대중에게 전달될 수 있도록 해 주는 역할. 그게 제가 지금 굉장히 고민하고 있는 부분입니다. 이걸 잘하는 사람이 없어요. 나만 잘할 것 같아. 

SB: 구글 딥마인드도 과학자 집단이라고 하면 또 이들을 사회와 연결해 주시는 그런 일이겠네요. 말씀을 들을수록 교수님께서는 인류를 위한 소명으로 하나, 과학으로 하나 이렇게 두 가지를 동시에 추구하는 삶을 사시는 것 같습니다. 

김종엽: 맞습니다. 그 재미에 사는 것 같아요. 대의를 가지고 인생을 사는 기쁨이죠. 한 치 앞도 모르는 것이 인생이지만 스피노자는 “내일 세상이 망해도 사과나무를 심겠다.”라고 말했잖아요? 인간이 그처럼 억겁의 시간 속에서 잠깐 왔다 가는 존재겠지만 그래도 뭔가 의미 있는 일을 하고 있다라는 착각 속에서 살아야 인생이 행복하지 않나 생각합니다. 이미 충분히 제 자신을 속이면서 열심히 살고 있고요. 

 

김종엽 교수의 『R 통계의 정석』 본문. 사진 : ⓒ (주)사이언스북스.

 

SB: 『R 통계의 정석』의 출간이 그런 의미에서 교수님한테 조금이라도 기쁨을 더해 드리는 일이 됐으면 좋겠습니다. 

김종엽: 이미 큰 행복을 주셨고요. 『R 통계의 정석』 서문에도 있지만, 애초에 제가 유튜브에 무료 강의 영상을 올렸던 이유가 건양 대학교 병원에서 임상하시는 교수님들이 제 오프라인 강의를 기대보다 정말 고마워하시고 다시 듣고 싶어 하셔서 반복하는 과정에서 녹화를 시작한 것이거든요. 그것을 교수님들과만 공유하기보다는 대한민국의 많은 연구자와 나누면 좋겠다는 생각에 유튜브에 올렸는데 그게 책이 된 거죠. 그분들이 써 주신 많은 감사 댓글이 책을 쓸 수 있는 원동력이 됐고, 이제 이 책이 빅 데이터 연구를 꿈꾸시는 분들한테 도움이 된다면 더욱더 큰 보람이고, 영광일 것 같아요. 

SB: 저희도 일반인 분들이 이 책을 보실 수 있도록 많은 궁리를 해보겠습니다. 

김종엽: 네, 감사합니다. 

 


김종엽

전공은 이비인후과이나 현재는 의과 대학 정보 의학 교실 주임 교수로서 연구에 더 많은 시간을 할애하고 있다. 2009년 ‘깜신의 작은 진료소’라는 블로그를 개설한 것을 계기로 ‘깜신’이라는 닉네임으로 방송 및 집필 활동을 꾸준히 해 오고 있다. 저서로는 『의사아빠 깜신의 육아시크릿』, 『꽃중년 프로젝트』, 『코 사용설명서』(공저), 『꽃보다 군인』(공저), 『닥터스 블로그』(공저) 등이 있다. 유튜브 채널 「나는 의사다」에서 메인 MC로 출연하고 있으며, 건양 대학교 병원에서는 헬스케어 데이터 사이언스 센터 센터장으로 의료 정보 표준화와 의료 인공 지능 개발을 통한 정밀 의료 구현에 힘쓰고 있다.

 

 

 

 

함께 읽으면 좋은 책

 

AI 시대, 행복해질 용기

인공 지능 시대의 행복론

 

미래는 AI의 것일까?

인공 지능과 미래 사회

 

인공 지능 없는 한국

AI 시대를 위한 기업, 교육, 사회, 국가 혁신 전략

과학 수다 4: 과학, 누구냐 넌?

AI에서 중력파, CRISPR까지 최첨단 과학이 던진 질문들

 

 

 

  1. 1964년 다트머스 대학교의 존 케메니(John Kemeny)와 토머스 커츠(Thomas Kurtz)가 개발한 프로그래밍 언어. [본문으로]
  2. 1991년 프로그래머 귀도 반 로섬(Guido van Rossum)이 발표한 고급 프로그래밍 언어. [본문으로]
  3. 그래픽 처리 장치. (graphics processing unit) [본문으로]
  4. https://m.snvision.newsa.kr/12090 [본문으로]
  5. http://www.monews.co.kr/news/articleView.html?idxno=304049 [본문으로]