not music2013. 3. 3. 16:05


앞서 정보를 찾는 방법으로 검색과 둘러보기를 언급했다. 검색에도 두가지 방법이 있다. 순차적 접근(sequential access)과 비순차적 접근(random access)이 그것이다. 당신이 어느날 책을 한권 다 읽었는데 거기서 뭔가 좋다고 밑줄을 그어놓았지만 어디에 그엇는지 전혀 모르겠다고 해보자. 어디 근처였는지도 기억나지 않는다면 첫페이지부터 눈으로 훑는 수 밖에 없다. 사전은 책이라는 순차적인 매체를 비순차적으로 접근하기 위해 내용을 구분하고 정렬한 책이다. 그래서 찾는 단어가 있으면 해당 단어를 가나다순으로 찾아서 펴볼 수 있다. 종이사전을 많이 쓰는 사람은 두세번만 펴도 찾는 단어를 금방 찾을 수 있었다. 고등학교때 친구들과 누가 가장 적게 펴서 원하는 단어를 찾는지, 누가 사전을 더 빨리 찾는지 내기를 했던 기억이 난다.


효과적인 검색을 위해서는 찾고자 하는 대상을 정렬해두는 것이 필수적이다. 비순차적 접근을 위해 해당 단어가 어디에 있는지 위치를 기록하는 것이 색인(index)이고 색인을 조합해 원하는 내용이 있는 위치로 찾아가는 것이 검색(search)이다. 단행본 뒤에 보면 핵심어들이 어떤 페이지에 있었는지를 정리해둔 찾아보기가 있다. 이것이 초보적인 검색엔진의 방식이다. 검색엔진은 이 찾아보기를 거대하고 빠르게 만든 것이다.


사전은 가나다순 말고도 찾는 방법을 다양하게 구성해두었다. 분류사전, 역순사전, 운율사전, 유의어사전 등이 그것이다. 분류사전은 갈래사전이라고도 하는데 어휘를 관련있는 것끼리 인접해서 보여주는 방식이다. 사과 옆에 배가 있고, 아버지 옆에 삼촌, 이모 등이 있는 식이다. 이렇게 같은 분류로 놓을 수 있는 어휘들을 통틀어 어휘장이라고 하는데 어휘장은 어휘를 종합적으로 이해하게 만들어준다.


역순사전은 단어의 끝을 기준으로 가다다 정렬을 시도한 것이다. 예를들어 ~주의로 끝나는 단어를 찾고싶을 경우 역순사전을 찾으면 민주주의, 사회주의, 공산주의, 사민주의 순으로 나온다. 취급주의라는 단어가 있다면 사민주의의 뒤에 있을 것이다. 받침의 ㄴ(민)보다 받침의 ㄷ(급)이 나중 순서이기 때문이다. 역순사전은 분류사전처럼 어휘의 유형분류와 유사성 파악에 도움을 준다.


운율사전은 시를 지을 때 사용할 수 있는 운율에 맞춰 단어를 배열한 것이다. 대표적인 것이 한시짓는 것이 중요했던 조선시대 이전의 운서들이다. 예를들어 칠언 율시의 경우 12468구의 마지막 글자에 각운이 들어간다. 이 각운은 당나라때의 한자음을 기준으로 하기 때문에 현대 중국한자음과는 큰 차이가 있으며 현대 한국한자음과도 차이가 있다. 현대 한국한자음은 중국한자음보다 당나라때 음에 가깝기 때문에 한시짓는데 더 쉽다고도 하지만 東과 같은 운에 속하는 글자에 公, 功, 紅, 夢, 逢 등이 있다는 것을 명확하게 알기는 어렵다. 이럴 때 같은 각운을 가진 한자가 모여있는 운서를 살펴본다면 자신이 쓸 수 있는 한자들의 목록을 볼 수 있어 더 좋은 시상이 떠오를 수도 있는 것이다.


유의어사전은 해당 어휘의 유의어, 반의어, 상위어 등의 관계어휘들을 모아둔 것이다. 분류사전과도 비슷한 느낌이 있지만 분류사전에 비해 체계적이고 분류사전처럼 어휘장을 방대하게 다루기 보다는 범위를 좀 더 명확하게 한정짓는다. 아버지 옆에는 반대말로 어머니가 있고 유의어로 부친, 아빠 등이 나온다. 삼촌이나 이모는 나오지 않는다.


이렇듯 정보를 어떻게 분류하느냐에 따라 찾는 방법이 달라지게 된다. 분류 대상의 속성을 잘 파악하는 것이 우선인거다. 도서관의 서가분류방식인 십진분류는 책을 내용에 따라 다단계로 분류한다. 하지만 개인 상황에 따라 책을 크기별로, 제목 가나다 순으로, 발행년도 순으로 등 도서관과는 다른 분류기준을 잡을 수도 있는 것이다. 자신의 목적에 가장 들어맞는 방식으로 기준을 세우면 된다.


검색엔진은 위의 사전들에서 소개한 여러가지 분류방법을 다 소화할 수 있다. 색인의 기준을 무엇으로 삼는가가 핵심이다. 다시 말하면 사전은 검색엔진의 원형이라고도 볼 수 있다. 사전도 검색엔진도 정보의 위치를 알려주는 기능을 하고 있기 때문이다. 뒤집어 생각하면 검색을 잘 하기 위해 우리는 사전을 연구하고 고민해봐야 한다는 것이다. 사전은 검색과 다른 것이 아니다.


정보 분류의 좋은 사례로 네이버가 주도한 한국식의 통합검색을 들 수 있다. 구글은 웹상의 문서를 한가지 기준으로 정렬하기 때문에 검색결과 또한 한가지로 나오는 것이 기본이다. 여기서 문서의 출처에 따라 그것만 걸러서 볼 수도 있지만 그것은 부차적인 동작이다. 반면에 통합검색은 블로그, 뉴스, 사전, 카페 등의 글 중에서 가장 좋은 것들을 위에 꺼내고 개별 노출 영역을 바꿔서 보여준다. 최근에 벌어진 사건에 대한 검색이라면 뉴스가 사전보다 먼저 나오겠지만 학술용어에 대한 검색이라면 사전이 먼저 나오는 식이다. 즉 영역별로 상위문서를 뽑고 또 어휘별로 영역의 위치를 재배열하는 방식이다. 무엇이 더 좋은지를 단언할 수는 없지만 한국식 통합검색은 구글이나 다른 외산 검색엔진의 국내 진출을 막아내고 있다. 대다수의 한국인들은 구글보다 네이버, 다음의 검색 서비스를 더 편안하게 여기는 것이다. 검색 기술로는 부족하겠지만 검색 서비스를 더 편안하게 유지한다는 것은 정보를 어떻게 묶어서 보여주는가가 정보 찾기에 큰 영향을 준다는 걸 반증한다.






Posted by zepelin
not music2013. 3. 3. 14:24

대중에게 인터넷의 시작은 검색(search)이 아니라 둘러보기(browse)였다. 95년도던가 친구가 웹브라우저 사용법을 알려주던 것이 생각난다. 자 웹브라우저를 실행시켜. 그리고 yahoo.com이라고 입력해봐. 그 다음 분류된 사이트 목록을 살펴서 원하는 사이트로 가면 되는거야. 당시 야후는 수많은 사이트를 정리해서 계통적인 분류를 했다. 도서관의 십진분류체계와 유사하게 다단계 나무구조로 분류했던 것이다. 유사한 한국어 포탈들도 동일한 전략을 취했다. 당시 서퍼(surfer)라는 직군이 있었는데 이 서퍼들은 하루종일 웹서핑을 하면서 새로운 사이트를 찾아 정리하곤 했다. 다른 예를 들자면 둘러보기 방식은 도서관의 서가 분류나 개인 컴퓨터의 폴더 분류 방식이다.


어느날 구글이 모든 것을 바꾸었다. 책이나 도서관의 색인 개념을 확대해서 문서에서 원하는 어휘를 찾아주는 검색기능을 제공하는 회사는 여럿 있었지만, 그 안에서 페이지랭크(pagerank, 문서 피인용도)를 이용한 검색을 내놓은 회사는 구글이었고, 해당 기술로 검색엔진의 수준을 확 끌어올렸다. 검색기능이 좋아질수록 기존 야후방식의 웹서핑을 사용하는 사람들은 줄어갔다.


사람들이 금방 느끼진 못했지만 웹검색을 하면서 사람들은 사전 사용량 자체를 줄여나가기 시작했다. 사전 사용도 가나다 순으로 된 책을 순차적으로 찾아나가는 검색행위인데 웹에서 검색하는 일이 많아지면서 사전 사용량 자체가 줄어든 것이다. 백과사전의 내용은 블로그나 게시판 내용들과 경쟁해야 했으며 어학사전에서 볼 수 있는 뜻풀이와 용례마저도 웹검색하면 상당히 발견할 수 있었다. 웹사전도 웹검색으로 찾을 수 있었을 뿐 아니라 사전검색으로 알 수 없는 내용들까지 웹검색에선 우연히 찾아낼 수 있으니 굳이 책사전이나 웹사전을 고수할 필요가 없다. 즉 기존 백과사전이나 어학사전의 경쟁자는 위키백과나 다른 사전류가 아니라 검색 그 자체라 할 수 있다.


그 결과 웹과 검색엔진이 폭발적으로 성장하는 것에 비례하여 전통적인 방식으로 사전을 편찬, 생산하는 분야는 지속적으로 줄어갔다. 우리가 기억하는 사전 이름인 민중서림, 두산동아, 시사영어사, 금성출판사 등은 제각기 인력을 최소한으로 유지하거나 편찬팀을 없앴다. 영어사전의 경우 국내 편찬을 포기하고 옥스포드, 롱맨, 콜린스 등의 학습자 사전을 한국어로 번역하는 방식으로 바뀌는 중이며 일본어사전도 최고의 권위를 자랑하는 일본어 사전인 코지엔이 한국어로 번역되었다. 이는 영어권도 예외가 아니어서 브리태니커 영문판이 2012년 이후 더이상 종이책을 생산하지 않겠다고 한 것이 상징적이고, 맥밀란 영어사전도 2012년에 종이사전 생산 중지를 선언했다.


최근 20여년간 사전은 꾸준히 축소의 길을 걸어왔다. CD롬, 전자사전, 웹 등으로 매체는 바뀌었고, 다양해진 매체를 통해 이전에 비해 이용자들에게는 더 쉽게 전달되었다. 여기까지는 기술적인 진보로 봐도 좋다. 하지만 사전의 생산구조는 전혀 달라지지 않았고 이제는 수익성 악화로 생산 기반 자체가 전면적으로 무너지는 중이다. 이 지점에서 사전은 그냥 멈춰있어도 좋다면 별 문제가 없지만 앞으로 사전 내용이 늘지 않아도 상관없는 것은 아니잖은가. 문제 인식의 시작은 여기부터이다. 웹과 검색으로 대체된 부분이 이전보다 더 나아졌으면 그것은 혜택으로 누리면 되고, 이전에 비해 부족한 부분이 있다면 개선해야 한다. 어떤 지점이 이전에 비해 부족한지 물어야 하는 시간인 것이다.





Posted by zepelin
not music2013. 3. 3. 12:41

하고싶은 얘기를 적지않으면 재미도 없으니까 손가는대로 적어본다. 그런대로 읽을만한 구석이 있다 생각하지만, 사적인 내용 별로 보고싶지 않다 싶으면 안봐도 상관없는 내용들이다.


다들 어려서부터 뭔가 취미를 강요받아왔다. 취미가 뭔가요라는 질문에 당당하게 TV시청이요 없어요라고 말할 사람은 거의 없고 다들 독서요 음악듣기요 이정도의 얘기로 얼렁뚱땅 넘어가게 된다. 초등학교때 방학숙제로 탐구발표라는게 있었다. 주제를 하나 정해서 열심히 살펴본 다음 수업시간에 공유하고 보고서를 작성하는, 초등학생에겐 꽤나 버거운 내용이었다. 그때 내가 정한 주제가 국보1호부터 50호까지 정리하기였다. 번호가 있으니까 순서가 정해진 느낌이 있었고, 조사 범위도 대략 한정적이어서 할만하다고 생각했다. 어쨌든 당시 국보랑 친해둔 덕에 경천사지 십층석탑이라거나 고달사지 부도 따위의 이름도 잘 기억할 수 있었고 이후 조선 역사에도 친근감을 가지게 되었으며 이후 문화재청과 함께 일할 기회가 생겼는지도 모른다. 여튼 일단 시작은 그런거였다.


그 외에 내가 좋아했던건 모두 뭔가 모으는 것이었다. 메모지를 모았고, 지우개를 모았고, 딱지를 모았고, 게임용 카드를 모았고 그랬다. 따먹기도 하고 애들이랑 교환도 하고 그러면서 차곡차곡 모아갔던 것 같다. 뭔가를 모으다보면 정리를 해야만 한다. 정리하지 않으면 감당이 안되지만 정리하면 아름다움마저 느껴졌다. 정리하는 기준은 내맘대로였다. 모양, 색깔, 디자인, 크기... 그렇게 정리해서 상자에 담아두면 '보기에 좋았다'. 그 과정에서 배우는게 있었다. 예를들어 게임용 카드는 대부분 규칙이 비슷했는데 나중에 알고보니 모두 고스톱 규칙이고 디자인만 다른거였다는거. 금메달을 다섯개 받으면 오광이 된다라거나 뭐 그런 식이었다. 지우개는 어떤 지우개가 잘 지워지는지, 어떤 지우개가 빨리 닳는지 등의 특성을 파악할 수 있었다. 뭔가 잉여적인 지식이지만 한가지를 많이 하다보니 쌓이는 자연스러운 지식이었다.


자연스럽게 우표로 이어졌다. 우표는 수집 대상으로 거의 완벽에 가까운 맛을 가지고 있다. 국가별, 도안별, 년도별, 이슈별로 분류방법이 워낙에 다양했다. 초일봉피, 소형시트 등의 특별한 수집물도 있었으며, 우표 발행일에 맞춰 우체국에 가서 우표를 사는 재미가 또 쏠쏠했다. 한 2-3년 신나게 모았다. 새 우표를 사기도 하고, 봉투에 붙어있는 우표를 물에 불려 떼기도 했다. 우표도록을 사서 한국 우표의 역사를 살펴보곤 했었는데 우표의 거래금액을 보면서 무엇이 그 우표의 가격을 결정했을까를 궁금해하고 귀한 우표에 대한 소유욕도 생겼었다. 가장 좋았던건 우표 디자인을 통해 한국 현대사에 관심을 가지게 되었다는 거다. 이승만의 1-3대 대통령 취임우표를 보면서 이상한 느낌이 들었고 그건 박정희도 마찬가지였다. 그리고 전두환의 해외순방 우표는 너무 많아서 얼굴이 혐오스럽게 보일 지경이었다. 민족기록화 우표나 각종 국제회의 기념우표등에는 해당 우표가 발행될 시절의 분위기를 한껏 담겨있었다. 지금도 우표를 좋아하고 우표가게를 지나가면 전시된 우표를 유심히 보곤 한다. 아이들에게 권할만한 취미다.


고등학생때부터 음악을 듣기 시작했다. 공부하면서 뭔가 방출할 곳이 필요했고, 그건 팝과 메탈을 거쳐 6-70년대 록에서 멎었다. 돈이 있으면 있는대로 없으면 없는대로 음반을 모았다. 음반, 특히 LP의 재킷은 하나의 미술품과 같아 모으고 구경하는 재미가 쏠쏠했다. 음악보다도 음반이 가진 종합예술적 특성에 끌린 나는 재킷에 특히 신경쓴 프로그레시브 록이라는 장르를 좋아했다. 음반 재킷은 장르별, 시대적 특성을 고스란히 담고있어 나중에는 발매 년도, 악기, 재킷 스타일만 보고도 앨범을 구매할 정도까지 되었다. 역시 앨범도 많아지면서 분류가 필요해졌고 주제별 분류로 갈 것인가 아니면 가나다 순으로 정리할 것인가 등의 문제를 고민하게 되었다. 그리고 외국어를 한글로 표기하는 것, 한국어를 로마자로 표기하는 것에도 관심을 가졌다. 대학교때 가요 명반을 영어로 소개하는 홈페이지를 하나 운영하면서 가졌던 고민이다. 다양한 문자표기와 언어에 대해 관심가지게 된 것은 모두 유럽 각국의 음반을 모으기 시작한 덕이다. 이때부터 15년이 지난 지금도 내가 가장 많은 시간을 들이는 취미는 록음악 감상이다. 취미로서의 수집은 음악듣기에서 정착한거다.


음악들으면서 친구들(주로 형들)을 만난 곳은 하이텔의 언더그라운드 뮤직 동호회였다. 여기서 형들은 자신들의 음악 지식을 마음껏 뿜어댔고 나는 그들의 떡밥을 덥석덥석 물어가며 앨범을 사모았다. 그때 하이텔이 문을 닫는다 했다. 문을 닫으면 당시 쌓여있던 수많은 프로그레시브 록 관련 글들은 어디로 가나. 그것이 사라지는게 나는 싫었다. 그래서 며칠 날잡고 게시판 전체를 캡쳐했다. 그렇게 모은 게시물은 밴드별로 정리해서 홈페이지에 올렸고, 지금도 볼 수 있다. 당시 내 관심사는 축적(아카이빙)이었던 것 같다. 조선왕조실록같은 기록물이 있는데 왜 중요한 것들을 축적하지 못할까. 내가 있는 공간에서도 축적이 안되는 것을 보고싶지 않았다. 


그렇게 축적한 것이 의미있는 형태로 되려면 정리가 필요하다. 데이터베이스가 되어야 접근이 가능한 것이다. 그래서 나는 혼자서 데이터베이스를 고민했다. 제목을 어떤 기준으로 적을 것인가, 앨범명이 어떻게 년도별로 나오게 할 것인가, 검색은 어떻게 할 것인가. 그러다가 나는 제로보드라는 웹게시판을 선택했고 그것을 음반 DB에 맞게 고친 버전을 찾아 적용시켰다. 하지만 계속 부족함을 느꼈다. 내가 프로그래머가 아니라 한계가 있었다. 프로그래머였다 하더라도 혼자서는 좀 버거웠을 것이다. 그러다가 위키위키라는 솔루션을 만났고 지금은 그 위키서비스에 기사들을 넣어둔 상태이다. 위키백과를 이루고 있는 바로 그 위키위키 시스템 맞다. 위키위키도 혼자서 작업하기 버거운 것은 마찬가지였지만, 적어도 언제든 손대서 고쳐나갈 수 있는 환경까지는 만들어볼 수 있었다. 음악 데이터베이스를 고민하는 시간은 내가 축적과 정리라는 두가지 주제를 무척이나 좋아한다는 사실을 새삼 깨닫게 했다.


직장생활 초년병 시절에 나는 메신저(네이트온이나 카카오톡 같은)와 무선인터넷을 기획하던 초보기획자였다. 하지만 뭔가 불편했다. 내가 이걸 하고싶은거 맞나 하는 생각이 자꾸 들었다. 그러다가 내가 읽은 책들에 대해 되돌아보니 주로 역사책과 언어(번역)에 관한 책을 읽고있다는걸 새삼 깨닫게 된 거다. 어떻게든 하고싶은 것을 해보자라고 여러가지 생각을 해봤다. 음악 DB를 만드는 것은 재미있어보이지만 나보다 더 잘할 사람이 많아 보였다. 역사와 인터넷을 조합하기는 쉽지 않아 보였고. 그래서 고른게 언어와 인터넷의 결합인, 검색과 사전만들기다. 인터넷 사전을 쓰면서 불편해하던게 한두개가 아니었고, 뭔가 지식iN으로는 안되는 지식의 축적형태를 만들고 싶었다. 그래서 나름대로 경쟁시스템을 도입한 사전서비스의 기획안을 작성해서 무작정 네이버를 찾아갔다. 그래서 일하게 된게 사전이고 어느새 사전서비스를 십년간이나 만들고 있다. 수집-정리의 최후 단계인 언어/어휘 수집으로 들어온 셈이다. 


결국 내가 사전과 데이터베이스에 계속 관심가지고 작업하는 이유는 정보에 편하게 접근하고싶기 때문이다. 그렇지 못한 것을 보면 화가나고 급기야 고쳐대기 시작한다. 직업과 적성이 그런대로 맞은 모양이다. 내가 하고싶은 것을 더 손대고 싶긴 하지만 직장인이라 맘대로 안되는게 아쉬울 뿐이다. 개인적으로는 좀 더 근본적인 학술 데이터베이스를 만들고 싶다.


이쯤에서 끝냈어도 좋았겠지만 뭔가 나를 포장하려한 혐의가 든다. 사실 나는 분류와 정리에 대한 강박, 집착이 있다. 난 이 강박에서 벗어나고 싶지 않다는 것이 문제다. 이 강박은 현재 나를 움직이고 있는 추동력이다. 내가 이렇게 가치를 부여하고 있는 분류에서 의미를 잃는다면 한동안 내 삶은 휘청할거다. 영화 '사랑도 리콜이 되나요'(High Fidelity, 2000)를 보면 여자친구와 헤어졌다며 음반을 정리하는 주인공이 나온다. 알파벳순으로 했다가, 장르별로 했다가, 구매시간순으로 했다가 이런 식이다. 그는 상실감을 벗어나보려 이런 행동을 한다. 그건 종종 아무것도 하지 않은 것과 같을 수도 있다. 정리가 더 엉망이 될 수도 있고. 그는 정리를 '하고 싶'은 상태인거다. 게다가 이 정리라는게 끝이 없다. 방금 예로 든 음반 정리도 새로 산 음반이 늘어나면 이것을 어디에 꼽을 것인가라는 문제가 발생한다. C로 시작하는 음반이 많아지만 C이하 뒤쪽을 전부 뒤로 밀어야 하는 일이 생기는거다. 시지푸스가 돌덩이를 끝없이 언덕위로 굴려올려야 하는, 그런 종류의 일이다. 데이터를 정리한다는건 그걸 다 알면서도 끝없이 하는 그런 일이다. 종종 허무한데 이 허무감을 어떻게 극복하면서 지속가능한 데이터베이스를 만들 수 있는가. 이게 내 상태인 것 같다. 웹사전 만들기는 내 이런 강박의 표현이다.


사실 이런 강박이 개별적으로 발현되었을 때는 반딧불 정도가 아닐까 싶다. 깜깜한 밤에 나름대로 깜찍한 재미를 선사하지만 문제는 그것이 어둠을 밝힐 정도는 못된다는 말이다. 반딧불이 백마리 만마리가 모여 엉덩이를 맞대야 주변이라도 밝힐 수 있다. 이걸 말만들기 좋아하는 사람들은 집단지성이라 부른다. 위키백과는 이 엉덩이 맞대는 방식 중에서 가장 성공한 것이고. 어떻게 하면 내 강박이 남의 강박과 잘 결합해서 의미있는 것으로 만들 수 있을까. 어쩌면 의미있는 것을 만들어야 한다는 마음상태가 바로 강박일 수도 있겠지만. 기왕이면 내가 한거 남은 또 반복해서 안하면 좋겠다, 이정도의 소박한 마음으로 봐도 좋겠다. 이정도의 마음을 가지고 오늘도 사전을 편집한다.





Posted by zepelin
not music2013. 3. 3. 12:17

10년간 웹사전을 만들면서 뭔가 그 경험을 공유하고 싶어졌다. 인터넷 환경이 변화하면서 사전도 많이 바뀌게 되었는데 그 한가운데서 경험한 사람인만큼 기록할 필요가 있다고 느꼈다.


# 사전을 왜 좋아하게 되었을까[L]

# 사전의 역사를 훑어보자 : [위키백과]

# 사전과 검색 1) 종이사전의 적은 검색엔진[L]

# 사전과 검색 2) 정보를 분류하는 방법[L]

# 사전과 검색 3) 검색엔진의 짧은 역사

# 사전이 만들어지는 방식

# 웹사전의 분석과 활용 1) 종이사전과 다른 내용[L]

# 웹사전의 분석과 활용 2) 검색방식의 다양화[L]

# 웹사전의 분석과 활용 3) 웹사전에서 사용중인 기술 설명

# 사전의 존재 의미 1) 한국어사전[L]

# 사전의 존재 의미 2) 외국어사전[L]

# 사전의 존재 의미 3) 백과사전[L]

# 사전은 공공재가 되어야 한다[L] 

## 사전은 어쩌다 공공재가 되었는가

# 무슨 사전을 만들고 싶은걸까[L]



Posted by zepelin