본문 바로가기

리얼프린스의 독서노트/컴퓨터IT

빅데이터 인문학 : 진격의 서막

728x90
반응형

800만 권의 책에서

배울 수 있는 것들




빅데이터 인문학 : 진격의 서막 / 에레즈 에이든 & 장바티스트 미셀 / 사계절


  빅데이터라는 용어가 이제는 우리의 생활 속에 일반적인 단어가 되어버린 것같다. 얼마전 신문기사를 통해서 구글의 엔그램 프로젝트에 대해서 접하면서 놀랐던 기억에서 출발해서 바로 이 책으로 접근하게 된 것 같다. 800만 권의 책 안에서 사용된 단어의 빈도 수를 검색해서 다양한 결과를 얻어낸다는 것. 그 자체로만도 신기하지 않은가? 누가 이런 상상도 못할 수많은 책들을 스캔하고 다시 거기에 사용된 단어의 빈도를 빅데이터로 만들어낼 생각을 했겠는가. 지금이 바로 그런 세상인 것이다.


29세 억만장자의 논리에 따른 결과, 구글의 디지털화 작업은 엄청난 성공을 거두었다. 페이지가 메이어와 함께 책장을 넘긴 지 10년 만에, 그리고 그가 공개적으로 프로젝트를 선언한 지 9년 만에 구글에 3000만 권이 넘는 책들을 디지털화했다. 이처럼 방대한 텍스트는 오직 컴퓨터로만 분석할 수 있다. 만약 인간이 읽으려 한다면, 밥을 먹거나 잠을 자기 위해 중단하는 일 없이 합리적 속도인 분당 200단어씩 읽는다고 해도 총 1만 2000년이 걸릴 것이다. (본문중에서 p75)


   구글이 엔그램 프로젝트를 위해서 한 일이 얼마나 대단한 일인지 알겠는가? 구텐베르그 프로젝트를 통해서 고서를 접한다는 것 뿐만 아니라 지금 구글 홈페이지 접속해서 북스 코너에서 수많은 스캔된 책들을 접해보라. 우리 앞에는 이제 너무나 많은 정보들이 개방되어 있고, 바로 우리 앞에 와있다. 우리는 마음껏 이용하기만 하면 되는 것이다. 하지만 그 연장선상에 빅데이터를 들고 다시금 더 잘 쓸 수 있도록 만들어져 있다는 것이다.


진실을 말하자면, 아무도 확실하게는 모른다. 이러한 효과가 어디서 오는지 모르기 때문에 어디로 갈지 추측하기도 어렵다. 매년 출생하는 단어들의 수가 증가할까? 어휘목록의 크기에 한계가 있을까? 당신의 언어와 당신 아이의 언어는 어떻게 다를까? 빅데이터를 이용한 관찰도구들은 우리의 언어를 비추면서 새스콰치조차 숨을 곳이 없는 새로운 과학적 풍경으로 가는 길을 밝힌다. 

(본문중에서 p101)


   숨을 곳이 없다는 표현이 한편으로는 조금 거슬린다. 하지만 이 책 안에서 보여주는 통계 그래프를 참조하면 그런 생각은 단 번에 날아갈 것이다. 이제 데이터 앞에서는 우리는 그것이 팩트라는 것을 인정해야만 하는 그런 시대에 살고있다. 이성적인 판단만을 가지고는 인간적이지 않다는 그런 감성적인 말이 이제는 감성을 이루는 기반도 빅데이터를 통해서 판단근거를 제공받을 수 있는 어떻게 설명해야 될지도 데이터를 통해서 결정받는(?) 그런 세상에 사는 것이다. 조금은 무섭지 않은가?


이런 집단들이 얼마나 유명한지 감을 잡으려면 그들을 우리가 매일 마주치는 사물과 비교하는 것이 도움이 된다. 채소 진열대를 한 번 떠올려 보자. 빌 클린턴 이라는 2그램은 절정에 있을 때 상추라는 단어와 빈도가 거의 정확하게 같았고, 오이에 비해서는 두 배 높았으며, 토마토라는 단어보다는 절반의 빈도를 보였다. 빌 클린턴은 순무, 콜리플라워 같은 2부 리그 채소들을 완전히 압도했다.

(본문중에서 p140)


   재미있지 않은가? 우리가 전혀 상상하지 못했던 결과가 바로 위의 예처럼 데이터라는 근거를 통해서 결과를 제공하고 있는 것이다. 머리 속에서 상상으로 만들어냈던 여러 글귀들이 이제는 논리적인 글 이전에 확정하기 위한 감성적인 데이터를 수천년 동안의 결과를 통해서 제공하고 있는 것이다. 이 책 안에서는 이런 수천년 동안의 문헌에 등장하는 단어의 흥망성쇠를 통해서 그 트렌드 뿐만 아니라 역사적인 사실을 마치 스토리로 엮어 내는 것 처럼 표현하고 있는 것이다. 


   아마도 필자의 이런 말을 통해서는 현실감이 없을 것이다. 궁금한 사람은 엔그램 뷰어를 통해서 직접 검색해보는 것도 좋을 것이라 생각된다. 셰익스피어 시대에 만들어진 신조어가 지금에 와서는 어떻게 되었는지 이런 것들을 알 수 있다는 것. 아마 세월이 흐를수록 상상하지 못했던 용도로의 새로운 데이터의 활용을 사람들은 만들어 갈 것이다. 그것이 바로 우리가 살아갈 빅데이터 세상의 시작이 아닐까 생각된다.


 - Real Prince - 



팁텍톡!의 글이 유용하다고 생각되시면 아래를 활용하셔요.
Follow JoyfulPrince on Twitter 트위터로 만나고 싶으시면 눌러주세요.
  이메일로 연락하고 싶으시면 눌러주세요.

반응형