관리 메뉴

ScienceBooks

빅 데이터와 코딩을 한방에 잡는최고의 방법 :『R 통계의 정석』 본문

(연재) 사이언스-오픈-북

빅 데이터와 코딩을 한방에 잡는최고의 방법 :『R 통계의 정석』

Editor! 2021. 11. 1. 09:44

작업 전 원자료를 정리하고 오류를 줄이는 과정부터 R에 데이터를 불러오는 방법, 

상관 분석, 푸아송 분석, 생존 분석 같은 각종 분석을 하는 방법까지.

메디컬 빅 데이터 연구에 필요한 모든 과정을 담은 최고의 R 통계 분석 안내서, 『R 통계의 정석』.

 

통계 분석이 급하게 요구되는 실전 상황에서 자신의 연구 내용과 맞는 장을 목차에서 찾아 바로 도움을 받을 수 있도록 구성된 책이지만,

자신이 이 책의 ‘출발선상’에도 있지 않다고 느끼시는 독자 분이 계실지도 모릅니다.

 

하지만 걱정 마세요!

 

“R이 뭔가요? 먹는 건가요? 하지만 통계 분석을 알고 싶어요!”라는 독자 분을 위해,

저자인 김종엽 건양 대학교 의과 대학 교수님께서 친절한 매뉴얼을 작성해 주셨습니다.

이제 컴퓨터를 켜고 교수님과 함께 빅 데이터의 세계로 첫 걸음을 내딛어 봅시다.


데이터를 이해하고 싶으신가요?

지금까지 데이터는 엑셀로만 다뤄 보셨다고요?

그렇다면 4차 산업 혁명 시대와 빅 데이터의 등장이 큰 부담이셨겠군요. 

하지만 이제 걱정하지 마세요.

제가 여러분을 빅 데이터의 세계로 안내하겠습니다.

지금부터 엑셀은 잠시 잊으세요.

전 세계 연구자들이 가장 많이 사용하는 통계 프로그램 'R'을 소개해 드릴게요.

엑셀에서 열어 보기도 버거웠던 파일이 이제 여러분 컴퓨터에서 데이터의 비밀을 털어놓기 시작할 겁니다.





먼저 R에 대해 간단하게 이야기해 봅시다.

R은 통계 계산과 그래픽을 위해 만들어진 언어이자 소프트웨어 도구입니다.

원래 BELL 연구소에서 만든 프로그래밍 언어 S가 있었는데, 

뉴질랜드 오클랜드 대학교의 로스 이하카(Ross Ihaka)와 로버트 젠틀맨(Robert Gentleman)이 S를 참고해서 누구나 자유롭게 사용할 수 있도록 오픈 소스로 구현했습니다. 

 

 

왼쪽: 로스 이하카 / 오른쪽: 로버트 젠틀맨

 

 

여담을 살짝 하자면, 처음에는 두 사람 이름의 앞글자를 따서 2R 이었는데 지금은 그냥 R이라고 부릅니다.

 

1995년 처음으로 공식 배포된 이 언어는

운영 체계에 영향받지 않으며 사용에 제한이 없는 오픈 소스 프로그램입니다. 

즉, 공짜! 라는 이야기지요.

여기에 사용자가 제작한 패키지를 더해 기능 확장이 용이하다는 장점이 어우러져,

정말 다양한 패키지로 수많은 통계, 데이터마이닝 분석 기법을 사용할 수 있게 되었습니다.

 

최근 코로나 영향으로 빅 데이터 연구의 수요가 늘어나면서

R의 인기는 전 세계 프로그래밍 언어 중에서 8위로 올라갔습니다.

(다른 연구에서는 인기 순위는 낮을지 몰라도 사용자들의 평균 연봉이 가장 높은 것으로 나왔습니다.;) 현대인의 필수 교양 지식이 될 통계학과 함께, 앞으로 더욱 많은 인기를 얻으리라 예상되는 언어이기도 합니다.



천리 길도 한 걸음부터! R 내려받기

자, 이런 R을 사용하려면 (당연한 이야기지만) 먼저 R을 내려받아 설치하셔야 합니다.

그럼 어디서 내려받을 수 있을까요? 모를 땐 주저 없이 구글신에게 물어 보면 됩니다.

 

 

 

 

알파벳 “R”로 시작하는 세상의 모든 단어 중에서 통계 프로그램인 R Project가 가장 유명한 모양이네요. ^^;

링크를 클릭해서 들어가 보죠. 

 

 

 

한글도 몇 자 보이면 마음이 편안할 텐데, 아쉽군요. ㅠ.ㅠ 하지만 너무 염려하지 마세요.

프로그램만 내려받고 바로 나갈 테니까요. 여기저기 읽지 마시고, 바로 “download R”을 클릭하세요.

 

 

 

왼쪽 나라들의 영어 이름 중에서 그나마 가장 친숙한 단어인 “Korea”를 찾아 보세요. 그 아래 링크 4곳 중 아무 곳이나 클릭하시면 됩니다. (저는 비주류를 선호하는 터라, 일단 아래쪽 링크들을 선호합니다;)

 

 

 

자신이 사용 중인 OS를 클릭하시면 됩니다.

 

 

 

“install R for the first time” 클릭!

 

 

 

가장 상단의 “Download R x.x.x. for Windows”를 클릭합니다. (이 글을 작성할 당시에는 버전 4.1.1이 가장 최신 버전입니다만, 이 숫자는 자주 갱신되니 꼭 4.1.1이 아니더라도 최상단의 링크를 클릭해서 내려받으면 됩니다.)



 

원하는 곳에다가 파일을 떨구시고요. ^___^;

 

 

 

 

내려받은 EXE 파일을 더블 클릭하면, 이제부터는 설치 프로그램이 익숙한 한국어로 안내를 도와줄 겁니다. : )

이제 R을 만나 보자!

 

 

 

 

“다음(N)” 클릭.

 

“다음(N)” 클릭.

 

 

 

제 컴퓨터는 64비트 파일 시스템을 사용 중이어서, 32비트용 파일을 제외하고 나머지를 모두 선택했습니다. 여러분도 각자 시스템의 상황에 맞게 취사선택하면 됩니다. 최신형 컴퓨터라면 대부분 64비트일 겁니다. 그런데 최신형이라고 하기에는 좀 오래된 컴퓨터라면 아래 방법으로 파일 시스템을 확인해 보세요. (역시 구글 신은 모든 걸 알고 있네요.)

 

 

 

 

잘 모를 땐, 기본값이 정답이죠.



 

 

“다음(N)” 클릭.

 

 

 

저처럼 선택하시고, “다음(N)” 클릭.

 

 

 

곧 출발합니다. 스마트폰을 포함한 모든 전자기기는 이제 모두 꺼 두시기 바랍... (농담입니다. ^^;;)

 

 

 

"완료"를 클릭하고 바로 프로그램을 실행시켜 보세요.

 

 

 

 

지금 보시는 이 화면이 날것(?) 그대로의 R 프로그램 터미널 창입니다. 당황하지 마시고, 바로 종료하세요. 우주선 R호를 조금 편하게 운전할 수 있는 조이스틱(RStudio) 설치를 도와드리겠습니다.  (여기서 하나 기억하고 가셔야 할 부분은 R 고급 사용자들은 RStudio 없이 현재의 프로그램 창에서 작업하기를 선호한다는 사실입니다. 왜 그럴까요? 더 빠른 속도를 낼 수 있기 때문입니다. 여러분도 조이스틱(RStudio)이 완전히 익숙해지면 그땐 다시 R 터미널 창에 도전해 보세요. )

 

R을 다루는 최고의 수단, RStudio

 

 

 

구글 신에게 물어 보면, RStudio도 홈페이지 좌표를 0.41초만에 찾아 줍니다. 

 

 

 

R project 홈페이지와 마찬가지로 아직 한국어를 찾아볼 수 없군요. 상단의 Products 위에 마우스를 위치해서, 서브 메뉴를 열어 보세요.

 

 

 

OPEN SOURCE 항목 중에서 가장 상단에 위치한 RStudio를 클릭하세요.



 

“Rstudio Desktop”을 선택하면 됩니다.



 

초보자라면, 일단 무료로 제공하는 “Open Source Edition”을 선택하세요. 

 

 

 

한 번 더 유료 상품 선택을 권유하네요. ^^; 마음 바뀌기 전에 서둘러 가장 왼쪽에 위치한 무료 버전의 “DOWNLOAD” 버튼을 클릭하세요.



 

여러분의 시스템 상황을 감지해서, 적당한 프로그램을 찾아 줍니다. (제가 현재 윈도우 PC에서 설치 중이니, 윈도우용 설치 파일을 안내해 주고 있네요.)

 

 

원하는 곳에 파일을 내려받고요.



 

준비가 되셨다면, 설치 프로그램을 실행시키세요.



 

'다음' 클릭.


 

 

“설치” 클릭.

 

 

 

가슴이 터질 것 같아요!! (저만 그런 건 아니죠?!) 




 

“마침”을 누르시고, 시작 메뉴에 들어가셔서 추가로 설치된 RStudio를 실행해 보세요.



 

여러분은 이제 우주선 R호의 조이스틱을 손에 잡으셨습니다. ^^

 

RStudio의 상단 File > New File > R Script (또는 단축키 : Ctrl+Shift+N) 를 눌러서 시동을 걸어 보세요.

 

 

 

위 스크린샷에서 화살표가 가르치는 점3개를 클릭해 보세요. 이 버튼에 파일 탐색기를 여는 기능이 숨겨져 있는데, 이걸 못 찾아서 애먹는 분들이 많다는 사실! 여러분은 고생하지 않으시길 바랍니다.

 

책 속 강의 내용을 직접 실습해 보려면?

이제 샘플 코드를 찾아서 불러오는 방법을 알려드릴게요.

 

 

 

먼저 사이언스 북스 홈페이지에서 『R 통계의 정석』 도서 페이지로 들어가 첨부 파일 중에서 

『R-통계의-정석』-코드와-데이터.zip 을 내려받은 후에, 압축을 풉니다.

 

 

 

파일 탐색기를 통해 출판사 홈페이지에서 다운 받은 강의록 폴더를 찾아가면 끝!

 

 

 

폴더에 들어가면 확장자가 R인 파일과 TXT인 파일을 확인할 수 있습니다. 여기까지 잘 따라오신 분들은 확장자가 R인 파일을 클릭하세요. TXT파일은 R설치 전에 파일을 살펴보실 성미 급한 분들을 위해 따로 준비한 겁니다.

 

 

 

아마, OS 상황에 따라 간혹 글자가 이처럼 깨지는 분들이 계실 거에요. 이럴 땐 당황하지 마시고,  [File]→[Reopen with Encoding]을 눌러서 [Choose Encoding] 대화창을 여세요. 



 

UTF-8을 선택하고, “Set as default encoding for source files” 메뉴까지 선택한 뒤, “OK” 클릭!

 

 

 

이제 깨진 글씨가 잘 보이시죠? ^^



이제 연구 '은하'로의 본격적인 항해를 시작할 모든 준비를 마치셨습니다.

제가 쓴 『R 통계의 정석』이 여러분을 안전하게 종착역까지 안내해 드릴 겁니다.

만약 글보다 영상이 편하다시는 분들은 제 유튜브 채널(https://www.youtube.com/user/musezzang1)로 놀러 오세요.

 

 

 

원래 이 책을 쓰게 된 계기가 이 유튜브 강의에서 시작되었기 때문에 틀림없이 도움이 되실 거에요.

 

그런데 여기서 기억하셔야 할 포인트 하나!

 

영상과 책에서 내용이 상이한 부분이 간혹 있습니다.

영상 제작 시점과 책을 집필한 시점에 차이가 있다 보니, 몇몇 라이브러리는 집필 당시에 서비스가 종료되어 코드를 수정했습니다. 더 쉽고 간결한 코드로 교정한 부분도 있고요. 그러니 차이가 보일 땐 영상보다 책 내용을 따라오세요.

 

지금까지 『R 통계의 정석』 사용 설명서였습니다. 

여러분의 긴 연구 여정에 포스가 늘 함께 하길 기원하겠습니다.



 

저자 김종엽 드림

 


『R통계의 정석』 김종엽 교수 ⓒ (주)사이언스북스.

 

김종엽
전공은 이비인후과이나 현재는 의과 대학 정보 의학 교실 주임 교수로서 연구에 더 많은 시간을 할애하고 있다. 2009년 ‘깜신의 작은 진료소’라는 블로그를 개설한 것을 계기로 ‘깜신’이라는 닉네임으로 방송 및 집필 활동을 꾸준히 해 오고 있다. 저서로는 『의사아빠 깜신의 육아시크릿』, 『꽃중년 프로젝트』, 『코 사용설명서』(공저), 『꽃보다 군인』(공저), 『닥터스 블로그』(공저) 등이 있다. 유튜브 채널 「나는 의사다」에서 메인 MC로 출연하고 있으며, 건양 대학교 병원에서는 헬스케어 데이터 사이언스 센터 센터장으로 의료 정보 표준화와 의료 인공 지능 개발을 통한 정밀 의료 구현에 힘쓰고 있다.


 

함께 읽으면 좋은 책

 

 

메디컬 빅 데이터 연구를 위한

『R통계의 정석』