ScienceBooks
R 통계의 정석 : 메디컬 빅 데이터 연구를 위한 본문
메디컬 빅 데이터 연구를 위한
R 통계의 정석
김종엽
코로나19 대응을 승리로 이끌 열쇠,
‘빅 데이터’를 다루는 가장 쉬운 길!
R를 처음 접하는 의학·보건학 연구자를 위한
‘깜신’ 김종엽 건양 대학교 교수의 명강 완전 수록!
통계로 생명을 살리는 시대
커져 가는 빅 데이터의 가치
2020년 3월 세계 보건 기구(WHO)의 첫 선언 이후 전 세계적 범유행 2년 차에 접어든 코로나19. 델타, 뮤 변이와 돌파 감염의 존재로 백신 접종만으로는 집단 면역 달성이 불가능하다는 사실이 명확해진 지금, 전염병과 공존하는 ‘위드 코로나’를 넘어 ‘비욘드 코로나’로 가기 위한 인류의 무기 중 하나로 떠오르는 존재가 있으니 바로 빅 데이터(big data)이다.
빅 데이터란 ‘빅 데이터 프로세싱(big data processing)’을 편의상 줄여 쓰는 말로, 과거에는 알 수 없었던 매우 사소한 정보까지도 디지털로 모두 기록되는 정보화 시대에서 폭증하는 방대한 데이터를 관리하고 분석해서 유용하게 사용하는 기술을 의미한다. 이 빅 데이터 기술을 전염병 방역 및 확진자 진단과 접목할 경우, 휴대전화 이용 정보와 통신사 기지국 정보 등을 파악해 5분 간격으로 인구 밀집 지역을 예측하고 감염 요인을 선제적으로 차단하는 시스템이나 가슴 엑스선 촬영만으로 코로나19 감염 여부를 80퍼센트의 정확도로 신속하게 진단할 수 있는 기술이 가능해진다. 비단 방역과 진단뿐만 아니라, 전염병 치료의 차원에서도 확진자 데이터를 이용한 사망 위험 예측 모델로 제한된 의료 자원을 효율적으로 관리하거나 백신 개발의 과학적 근거로 쓰이는 등, 메디컬 빅 데이터의 활용도는 가히 무궁무진하다고 할 수 있다.
쉬는 시간마다 코딩하던 의사,
AI와 빅 데이터 전문가가 되다.
그러나 ‘데이터가 서 말이라도 꿰어야 보배’란 업계의 격언처럼 방대하게 수집된 데이터를 활용하기 위해서는 자료 관리 기술과 분석 기술이 필수적으로 요구된다. 인공 지능의 도움을 받는다고 해도 무엇을 분석할지를 결정하는 것은 결국 사람이므로, 바야흐로 의사가 메스뿐만 아니라 컴퓨터도 잘 다루어야 하는 시대가 열린 것이다. 이를 실천하고 있는 사람이 바로 김종엽 건양 대학교 의과 대학 교수다. 우리에게 600만 방문자를 돌파한 의학 상식 블로그 ‘깜신의 작은 진료소’의 운영자나 SBS ‘자기야’, 유튜브 채널 「나는 의사다」 같은 방송에 출연했던 모습으로 더 익숙할 수 있으나, 사실 김종엽 교수는 과학 고등학교 시절부터 컴퓨터 코딩을 취미로 즐겼던 특이한 이력의 소유자였다.
의료와 IT(정보통신) 기술의 융합이 화두로 떠오르던 2018년 그는 건양 대학교에서 정보 의학 교실을 처음으로 개설해 초대 주임 교수를 맡았고, 2019년에는 헬스케어 데이터 사이언스 센터를 개설해 병원에서 만들어지는 의료 데이터를 비식별화(익명화)하고 외부에 공개했다. 의료 데이터의 연구적 활용 가능성을 높이고 의료 인공 지능 발전 및 인프라 조성에 기여한 이 공로를 인정받아, 김종엽 교수는 2021년 1월 과학기술정보통신부 장관상을 받기에 이른다. 이뿐만 아니라 그는 최근 보건복지부와 DNA(데이터·네트워크·인공 지능) 중장기 국가 전략 및 실행 계획을 수립하고 대통령 직속 4차산업혁명위원회에서 디지털 헬스케어 특별위원회 위원을 맡기도 하는 등, 그야말로 대한민국을 선도하는 AI와 메디컬 빅 데이터 전문가로서 활약을 펼치고 있다.
빅 데이터 연구를 꿈꾸는 초보 연구자를 위한
김종엽 교수의 R 통계 분석 안내서
2021년 하반기 사이언스북스 신간으로 출간되는 『R 통계의 정석』은 김종엽 교수가 이처럼 빅 데이터 연구의 권위자로서, 빅 데이터의 올바른 활용을 위해 선결되어야만 하는 프로그래밍 언어 R의 사용법을 자신의 유튜브 채널에서 3년간 강의한 내용과, 건양 대학교 의과 대학 학생들에게 진행한 수업 내용을 책으로 엮은 결과물이다.
컴퓨터에 익숙하지 않은 의과 대학생을 대상으로 한 이 수업에서, 그는 작업 전 원자료를 정리하고 오류를 줄이는 과정부터 R에 데이터를 불러오는 방법, R을 활용해 그래프를 생성하고 상관 분석, 푸아송 분석, 생존 분석 같은 각종 분석을 하는 방법까지 메디컬 빅 데이터 연구에 필요한 모든 과정을 총 17개의 강의에 녹여냈다.
R이란?
1993년 뉴질랜드 오클랜드 대학교에서 개발된, 통계 및 그래프 작업을 위한 프로그래밍 언어이다. 개인, 기관, 기업에서 모두 무료로 사용 가능한 오픈 소스 프로그램인 R은 통계학자들이 개발한 만큼 데이터 분석에 특화되어 있다. 전 세계인이 만들어 공유한 12,500여 개의 통계 패키지 설치를 통한 기능 확장으로 다양한 통계 기법 적용과 그래프 작성을 손쉽게 할 수 있다.
『R 통계의 정석』만의 강점
■ 실제 연구 과정에 바로 적용 가능
연구자에겐 자신의 연구 가설을 확인하기 위한 통계 방법을 고르는 일부터가 큰 난관이다. 『R 통계의 정석』은 그러한 독자에게 어떤 통계 방법을 골라야 하고, 그 이유는 무엇인지를 최대한 쉽게 설명할 수 있도록 구성되었다. 통계 분석이 급하게 요구되는 실전 상황에서, 자신의 연구 내용과 맞는 장을 목차에서 찾아 바로 도움을 받을 수 있다.
■ 의학 분야의 R 사용 상황에 특화
『R 통계의 정석』은 일반적으로 R을 사용하려는 모든 사람이 충분히 활용할 수 도록 쓰였지만, 주로 의학 분야에서 R을 필요로 하는 상황에 맞추어 데이터를 다루는 기본적인 기능뿐만 아니라 R의 장점인 통계 그래픽을 최대한 활용할 수 있는 실전적 방법들을 소개하고 있다. 책의 후반부에는 상관 분석, 다중 회귀 분석, 푸아송 분석, 생존 분석 등 보건 의료 통계에서 R로 수행하는 분석을 위주로 친절한 설명이 이루어진다.
■ 강의 내용을 실습할 수 있는 데이터 세트와 코드
사이언스북스 도서 페이지(http://sciencebooks.minumsa.com/book/1390)에서 강의에서 사용된 데이터 세트와 코드의 압축 파일을 제공한다. QR코드를 통해 도서 페이지로 들어가 챕터별로 정리된 파일로 강의 속 계산과 그래프 그리기를 직접 해 볼 수 있다.
■ 강연 영상으로 저자와 만나기
저자의 유튜브 채널(https://www.youtube.com/musezzang1)에 ‘깜신의 통계 왕초보 탈출’이라는 이름으로 총 44편의 강의가 업로드되어 있다. 책에 소개된 내용 외에도 통계 분석에 관심이 있는 독자라면 많은 도움을 받을 수 있다.
책에 나온 표현대로, “이게 무슨 귀신 씻나락 까먹는 소리냐.” 싶어도 일단 그의 말만 믿고 따라 하다 보면 어느새 R에 익숙해지게 되는 『R 통계의 정석』. 이 책과 함께라면, 평생 프로그래밍 언어와의 접점이라고는 영화나 드라마에서 화면에 뜨는 정체불명의 텍스트를 본 경험밖에 없었던 의대생(또는 통계를 활용해야만 하는 다른 전공 학생)이라도 데이터를 읽고, 고품질 그래프를 그리고, 데이터 분석을 하는 능력이 저절로 생겨나며 빅 데이터 연구를 향한 첫걸음을 내딛는 자신을 발견할 수 있을 것이다.
차례
들어가는 글5
1강 통계 작업을 염두에 둔 엑셀 파일 만들기11
2강 엑셀을 CSV 파일로 변환해서 RStudio로 불러오기17
3강 두 그룹의 평균을 비교하기29
4강 세 그룹 이상의 평균을 비교하는 방법45
5강 여러 그룹에서 그룹 간 평균 비교하기(사후 검정)63
6강 그룹 간의 비율을 비교하기77
7강 모자이크 & 막대그래프 따라 하기95
8강 짝을 이룬 데이터 분석 개념 잡기117
9강 동일 대상 또는 매칭된 대상에서 A약과 B약의 효과,
치료 전후의 결과 비교하기125
10강 동일 대상 또는 매칭된 (셋 이상의) 대상에서
치료 1, 2, 3개월 후의 결과 비교하기139
11강 상관 분석 알아보기177
12강 단순 회귀 분석 알아보기187
13강 회귀 모형을 받아들이기 위한 기본 가정195
14강 다중 회귀 분석211
15강 로지스틱 회귀 분석239
16강 푸아송 회귀 분석263
17강 생존 분석277
부록 1 파일 경로 마스터하기299
부록 2 상대 위험도와 교차비의 차이311
더 읽을 거리317
찾아보기319
김종엽
전공은 이비인후과이나 현재는 의과 대학 정보 의학 교실 주임 교수로서 연구에 더 많은 시간을 할애하고 있다. 2009년 ‘깜신의 작은 진료소’라는 블로그를 개설한 것을 계기로 ‘깜신’이라는 닉네임으로 방송 및 집필 활동을 꾸준히 해 오고 있다. 저서로는 『의사아빠 깜신의 육아시크릿』, 『꽃중년 프로젝트』, 『코 사용설명서』(공저), 『꽃보다 군인』(공저), 『닥터스 블로그』(공저) 등이 있다. 유튜브 채널 「나는 의사다」에서 메인 MC로 출연하고 있으며, 건양 대학교 병원에서는 헬스케어 데이터 사이언스 센터 센터장으로 의료 정보 표준화와 의료 인공 지능 개발을 통한 정밀 의료 구현에 힘쓰고 있다.
온라인 서점
'사이언스북스의 책' 카테고리의 다른 글
상어의 턱은 발사된다 : 진화 생물학 기반 인체 해부학 동물 도감 (0) | 2021.12.03 |
---|---|
궁극의 질문들 : 현대 과학의 최전선 (2) | 2021.11.08 |
지금 다시 계몽 : 이성, 과학, 휴머니즘, 그리고 진보를 말하다 (0) | 2021.09.24 |
영어의 아이들 : 언어학자의 아동 영어 교육 30문답 (0) | 2021.09.23 |
인공 지능 없는 한국 : AI 시대를 위한 기업, 교육, 사회, 국가 혁신 전략 (0) | 2021.06.15 |