관리 메뉴

ScienceBooks

AI가 내려온다: 인공 지능 시대의 고전 문학 연구 본문

사이언스북스의 책

AI가 내려온다: 인공 지능 시대의 고전 문학 연구

Editor! 2022. 9. 7. 17:58

인공 지능 시대의 고전 문학 연구

AI가 내려온다

중앙대학교 인문콘텐츠연구소 HK+ 인공지능인문학사업단 기획

강우규, 김바로

 

 

AI라는 호랑이 등에 올라타고 고전 문학을 종횡무진 내달린 강우규, 김바로 두 인문학자


AI의 시대는 융합의 시대.

고전 문학 연구의 미래가 여기에 있다!

 

2022년 8월, 콜로라도 주립 미술 대회의 디지털아트 부문에서 제이슨 앨런(Jason Allen)의 「스페이스 오페라 극장(Theatre D'opera Spatial)」이 1위에 올랐다. 별로 특별하지 않아 보이는 이 이야기가 화제가 된 것은, 이 그림이 텍스트로 된 설명문을 몇 초 만에 이미지로 바꾸어 주는 인공 지능(artificial intelligence, AI) 프로그램 미드저니(MidJourney)가 그렸다는 사실이 밝혀지면서부터였다.

 

이처럼 AI가 ‘마인드 스포츠(mind sports)’ 최후의 보루였던 바둑을 제패한 2016년 ‘알파고 쇼크’ 이후 운전, 번역, 심지어 문학과 예술까지 인간만의 영역이라 여겨졌던 분야를 향한 AI의 진격이 최근 몇 년간 이어지고 있으며, 그 끝이 유토피아일지, 디스토피아일지는 아직 알 수 없는 상황이다.

 

이런 상황에서 AI라는 호랑이의 등에 용감하게 올라타, 고전 문학의 첩첩산중을 내달린 두 인문학자가 있다. 바로 강우규 중앙대학교 교수와 김바로 한국학중앙연구원 연구원이 그 주인공이다. 이번에 ㈜사이언스북스 신간으로 출간된 『AI가 내려온다: 인공 지능 시대의 고전 문학 연구』는 두 저자가 디지털 분석의 방법론을 실제 사례에 적용해, 고전 문학 작품에 대한 새로운 연구 가능성을 제시한 「AI 인문학 시리즈」의 네 번째 책이다.

 

 

고전 소설 「소현성록」과 「구운몽」에 대한

AI 디지털 분석이 보여 주는 인문학의 미래

 

이 책은 두 저자가 중앙대학교 HK+인공지능인문학사업단의 HK 연구 교수로서, 인공 지능 시대가 도래하면서 가능해진 새로운 방법론으로 고전 소설을 분석한 기록이다. 주된 분석 대상이 된 텍스트는 17세기 국문 소설인 「소현성록」 연작과 「구운몽」으로, 「소현성록」 연작은 중세 중국을 배경으로 소현성과 그 부인들의 이야기가 주를 이루는 본전 「소현성록」과 소현성의 여러 아들과 그 부인들의 이야기가 주를 이루는 별전 「소씨삼대록」으로 구성되어 국문 장편 소설의 효시로 불리는 작자 미상의 작품이다. 「구운몽」은 현실 세계의 젊은 승려 성진이 하룻밤 꿈속에서 주인공 양소유로 분해 겪는 팔선녀와의 연애와 성공담을 통해 진정한 삶이란 무엇인가를 묻는, 17세기 소설사를 대표하는 서포 김만중의 국문 소설이다.

 

두 저자는 2018년 당시 학계에서는 생소하게만 여겨졌던 고전 문학과 디지털 인문학의 융합을 위해 두 작품의 인문 데이터를 처음부터 구축하고, 형태소 분석, 계층 분석, 감정 분석, 사회 네트워크 분석, 딥러닝 분석 등의 다채로운 기법을 최적화해 디지털 분석을 진행했다.

 

 

역사 속 숨겨진 「소현성록」 연작의 저자를 찾는 모험:

디지털 문체 분석과 고전 문학

 

궁극적으로는 0과 1로 세상을 인식하는 컴퓨터가 어떻게 사람의 특징적인 문체를 판별할 수 있을까? 우선 컴퓨터가 문체적인 특징을 형태로 인지한다는 사실을 이해해야 한다. 예를 들어 우리가 텍스트에서 “이순신”을 검색하면 그 결과를 얻지만, 의미상으로 거의 동일하지만 형태가 다른 “충무공”은 검색이 되지 않는다. 이처럼 컴퓨터는 맥락을 파악하는 데는 매우 취약하지만 특정 형태가 전체 문장에서 몇 번 등장했는지는 빠르고 정확하게 처리할 수 있다.

 

그렇기에 컴퓨터로 진행하는 기본적인 문체 판별은 텍스트에서 특정 형태들의 등장 빈도를 상호 비교하는 통계적 방식으로 이루어진다. 특정 텍스트에 ‘엇디’가 많이 나오고, 다른 텍스트에서도 ‘엇디’가 많이 나온다면 두 텍스트는 서로 유사할 가능성이 크다. 사실 이런 작업 자체는 연구자도 수행할 수 있다. 다만 컴퓨터보다 엄청나게 오랜 시간이 걸릴 뿐이다. 최근에는 특정 형태가 다른 형태와 이루는 조합이나 동일한 의미를 갖는 다른 형태에 대해서도 정확한 분석을 수행하기 위해 인간의 뇌를 모방해 내재적인 유사 의미를 유추하는 딥러닝(deep learning) 방식을 사용하고 있다.

 

2장 ‘디지털 문체 분석과 고전 문학’에서 두 저자는 기본적인 형태를 통계적으로 분석하는 방식과 딥러닝 방식 두 가지 모두를 통해 고전 소설을 연구했다. 먼저 「소현성록」 연작을 대상으로 통계적 분석을 거쳐 그동안 베일 속에 감추어져 있던 저자의 정체를 확인하는 작업에 한 걸음 더 나아갔으며, 크게 다섯 종류가 존재하는 「소현성록」 연작 판본 간의 상관관계 및 변이 양상을 파악하는 시도를 했다. 딥러닝 방식으로는 경판 방각본 고전 소설을 대상으로 고전 소설의 유형을 탐색했다.

 

 

숲을 보면서 나무도 놓치지 않기:

디지털 감정 분석과 고전 문학

 

인간처럼 자연적으로 감정을 인지하지 못하는 컴퓨터는 감정 사전(sentiment lexicon)을 토대로 감정을 인지한다. 감정 사전은 ‘눈물’을 ‘슬픔’ 혹은 ‘부정’이라는 감정이라고 서술하고, ‘웃음’은 ‘기쁨’ 혹은 ‘긍정’이라는 감정과 대응시키는 식으로 특정 형태소와 감정을 짝지어 정리한 목록이다.

 

그런데 이 방법에는 맥락을 파악하지 못하는 문제가 있다. 이를 해결하기 위해 최근에는 문장의 맥락까지 반영하는 딥러닝 방법이 사용되고 있다. 딥러닝 방법에는 문장과 그 문장의 감정을 라벨링한 빅 데이터가 필수적으로 요구되는데, 아직 현대 한국어에 대한 감정 데이터조차 부족한 상황이고 제대로 된 한국어 기반 디지털 감정 사전도 공개된 것이 없다.

 

3장 ‘디지털 감정 분석과 고전 문학’에서 두 저자는 이런 상황에서 고전 문학 작품의 디지털 감정 분석을 위해 1) 영어로 된 빅 데이터 기반 감정 사전을 사용하는 방법과 2) 설문 조사 방식을 통해 고전 문학 작품에 나타난 감정을 수동으로 입력, 빅 데이터보다 정교한 스몰 데이터(small data)를 구축해 분석하는 두 가지 제안을 제시했다. 영어 감정 사전 기반 빅 데이터 감정 분석 방식으로는 「소현성록」 연작을, 스몰 데이터를 구축하는 방식으로는 「구운몽」의 감정을 각각 분석했다.

 

 

융합 연구를 꿈꾸는

미래의 디지털 인문학자들을 위해

 

연구 결과는 연구라는 첩첩산중을 구르고 넘어지고 좌절하는 수많은 과정에서 겨우 건져 낸 아름다운 풍광이다. 그 연구 과정 대부분은 아름답지 않지만, 그 결과 때문에 미화되고는 한다. 마지막 4장 ‘AI라는 범을 어떻게 다룰 것인가?’에서 두 저자는 진솔한 대담을 나누며 고전 문학과 디지털 인문학의 융합에서의 발생하는 현실적인 어려움이 무엇인지를 이야기한다.

 

하나는 분석을 위한 인문 데이터의 구축이고, 다른 하나는 분석 결과를 이해할 수 있도록 인문학계에 설명하는 일이다. 후자의 문제는 노력을 들이면 해결 가능하다. 비록 새로운 방법론이라도 인문 텍스트 자체는 인문학자들이 평생을 보아 온 것이기 때문이다. 데이터에 익숙하지 않고, 디지털 분석 결과를 해석할 능력이 약한 인문학자에게는 오히려 인문 데이터의 구축이 더 큰 문제라는 것이다.

 

이를 극복할 방안으로 그들이 제시하는 것은 인문 데이터를 구축하는 기초 연구 사업의 지속적 확대 운영이다. 이와 함께 한 가지 주제에 어떠한 분석 기술을 활용 가능한지를 인문학자도 쉽게 이해할 수 있도록 서술한 『AI가 내려온다』 같은 책을 꾸준히 만들어, 익숙함에 안주하지 않고 새로운 것에 도전하는 용기를 가진 자신 같은 연구자들이 계속 나타날 수 있도록 하겠다는 것이 또 한 가지의 해법이자 두 저자의 다짐이다.

 

현 단계에서의 고전 문학과 디지털 인문학의 융합 연구는 기존 연구에서 논의된 내용을 통계적 수치를 통해 객관적으로 증명하게 된다. 새로운 방법론이 고전 문학 연구에서 유의미하다는 점을 보여 주어야 했기 때문이다. 그런데 온갖 수치와 그림을 통해 어렵게 증명한 융합 연구의 결과가 기존의 고전 문학 연구와 큰 차이가 없었기 때문에, 굳이 생소하고 어려운 연구를 수행할 이유를 찾지 못했을 것이다. 하지만 기존과는 완전히 다른 방식으로 기존의 연구와 유사한 결과가 나온다는 것 자체가 무서운 일이라고 생각한다. 새로운 방식에서는 명확한 근거와 재현성을 제공해 주기 때문이다. 현재는 기존 학설을 다른 방식으로 탐색하고 있지만, 새로운 연구 방법의 정합성이 인정된 이후에는 디지털 분석을 통해 도출된 전통적인 연구 결과와 상이한 지점에 대해서도 접근을 시도할 것이다. 그리고 이러한 지점들은 곧 인간과 컴퓨터의 융합으로만 볼 수 있는 새로운 지평이 될 것이다.
―「책을 시작하며」에서

 


차례

 

책을 시작하며: 고전 문학과 디지털 인문학의 만남 5

1강 프롤로그: 인공 지능이 내려온다 11

2강 디지털 문체 분석과 고전 문학 27

3강 디지털 감정 분석과 고전 문학 95

4강 에필로그: AI라는 범을 어떻게 다룰 것인가? 159

후주 171

찾아보기 175


 

저자 소개

강우규

중앙대학교 HK+인공지능인문학사업단 HK 연구 교수이다. 중앙 대학교 국어 국문학과를 졸업하고, 같은 대학교 대학원에서 문학 박사 학위를 받았다. 현대의 대중 서사인 웹툰, 드라마, 영화 등의 문화 콘텐츠에 대한 관심을 가지고 연구를 진행하고 있고, 고전 서사의 텍스트 한정성 문제를 극복하기 위하여 인공 지능을 활용하는 융합 연구를 진행하고 있다. 논문으로는 디지털 맵핑(Mapping)을 활용한 구운몽 연구 및 교육적 활용, 바리 이야기의 웹툰 수용 양상과

의미 고찰, 딥러닝을 활용한 경판 방각본 소설의 유형 고찰등이 있다.

 

김바로

중앙대학교 HK+인공지능인문학사업단 HK 연구 교수. 중국 베이징 대학교 역사학과를 졸업하고, 같은 대학교 대학원에서 민족사 전공으로 석사 학위를 받았다. 한국학중앙연구원 한국학대학원 인문정보학 전공으로 박사 학위를 취득했다. “안 될 것을 알면서도 행하려고 하는 사람(知其不可而爲之者)”을 가슴에 새기고, 디지털 기술과 인문학의 융합 개념인 디지털 인문학을 끈덕지게 추구하고 있다. 저서로는 디지털 인문학 입문, 시맨틱 데이터 아카이브의 구축과

활용등이 있다.

 

기획

중앙대학교 인문콘텐츠연구소

201711월부터 대한민국 교육부와 한국연구재단에서 지원하는 HK+인공지능인문학사업단을 운영하고 있으며, 인문학과 인공 지능의 융합적 연구를 수행하고 있다.


온라인 서점