not music2013. 3. 3. 16:05


앞서 정보를 찾는 방법으로 검색과 둘러보기를 언급했다. 검색에도 두가지 방법이 있다. 순차적 접근(sequential access)과 비순차적 접근(random access)이 그것이다. 당신이 어느날 책을 한권 다 읽었는데 거기서 뭔가 좋다고 밑줄을 그어놓았지만 어디에 그엇는지 전혀 모르겠다고 해보자. 어디 근처였는지도 기억나지 않는다면 첫페이지부터 눈으로 훑는 수 밖에 없다. 사전은 책이라는 순차적인 매체를 비순차적으로 접근하기 위해 내용을 구분하고 정렬한 책이다. 그래서 찾는 단어가 있으면 해당 단어를 가나다순으로 찾아서 펴볼 수 있다. 종이사전을 많이 쓰는 사람은 두세번만 펴도 찾는 단어를 금방 찾을 수 있었다. 고등학교때 친구들과 누가 가장 적게 펴서 원하는 단어를 찾는지, 누가 사전을 더 빨리 찾는지 내기를 했던 기억이 난다.


효과적인 검색을 위해서는 찾고자 하는 대상을 정렬해두는 것이 필수적이다. 비순차적 접근을 위해 해당 단어가 어디에 있는지 위치를 기록하는 것이 색인(index)이고 색인을 조합해 원하는 내용이 있는 위치로 찾아가는 것이 검색(search)이다. 단행본 뒤에 보면 핵심어들이 어떤 페이지에 있었는지를 정리해둔 찾아보기가 있다. 이것이 초보적인 검색엔진의 방식이다. 검색엔진은 이 찾아보기를 거대하고 빠르게 만든 것이다.


사전은 가나다순 말고도 찾는 방법을 다양하게 구성해두었다. 분류사전, 역순사전, 운율사전, 유의어사전 등이 그것이다. 분류사전은 갈래사전이라고도 하는데 어휘를 관련있는 것끼리 인접해서 보여주는 방식이다. 사과 옆에 배가 있고, 아버지 옆에 삼촌, 이모 등이 있는 식이다. 이렇게 같은 분류로 놓을 수 있는 어휘들을 통틀어 어휘장이라고 하는데 어휘장은 어휘를 종합적으로 이해하게 만들어준다.


역순사전은 단어의 끝을 기준으로 가다다 정렬을 시도한 것이다. 예를들어 ~주의로 끝나는 단어를 찾고싶을 경우 역순사전을 찾으면 민주주의, 사회주의, 공산주의, 사민주의 순으로 나온다. 취급주의라는 단어가 있다면 사민주의의 뒤에 있을 것이다. 받침의 ㄴ(민)보다 받침의 ㄷ(급)이 나중 순서이기 때문이다. 역순사전은 분류사전처럼 어휘의 유형분류와 유사성 파악에 도움을 준다.


운율사전은 시를 지을 때 사용할 수 있는 운율에 맞춰 단어를 배열한 것이다. 대표적인 것이 한시짓는 것이 중요했던 조선시대 이전의 운서들이다. 예를들어 칠언 율시의 경우 12468구의 마지막 글자에 각운이 들어간다. 이 각운은 당나라때의 한자음을 기준으로 하기 때문에 현대 중국한자음과는 큰 차이가 있으며 현대 한국한자음과도 차이가 있다. 현대 한국한자음은 중국한자음보다 당나라때 음에 가깝기 때문에 한시짓는데 더 쉽다고도 하지만 東과 같은 운에 속하는 글자에 公, 功, 紅, 夢, 逢 등이 있다는 것을 명확하게 알기는 어렵다. 이럴 때 같은 각운을 가진 한자가 모여있는 운서를 살펴본다면 자신이 쓸 수 있는 한자들의 목록을 볼 수 있어 더 좋은 시상이 떠오를 수도 있는 것이다.


유의어사전은 해당 어휘의 유의어, 반의어, 상위어 등의 관계어휘들을 모아둔 것이다. 분류사전과도 비슷한 느낌이 있지만 분류사전에 비해 체계적이고 분류사전처럼 어휘장을 방대하게 다루기 보다는 범위를 좀 더 명확하게 한정짓는다. 아버지 옆에는 반대말로 어머니가 있고 유의어로 부친, 아빠 등이 나온다. 삼촌이나 이모는 나오지 않는다.


이렇듯 정보를 어떻게 분류하느냐에 따라 찾는 방법이 달라지게 된다. 분류 대상의 속성을 잘 파악하는 것이 우선인거다. 도서관의 서가분류방식인 십진분류는 책을 내용에 따라 다단계로 분류한다. 하지만 개인 상황에 따라 책을 크기별로, 제목 가나다 순으로, 발행년도 순으로 등 도서관과는 다른 분류기준을 잡을 수도 있는 것이다. 자신의 목적에 가장 들어맞는 방식으로 기준을 세우면 된다.


검색엔진은 위의 사전들에서 소개한 여러가지 분류방법을 다 소화할 수 있다. 색인의 기준을 무엇으로 삼는가가 핵심이다. 다시 말하면 사전은 검색엔진의 원형이라고도 볼 수 있다. 사전도 검색엔진도 정보의 위치를 알려주는 기능을 하고 있기 때문이다. 뒤집어 생각하면 검색을 잘 하기 위해 우리는 사전을 연구하고 고민해봐야 한다는 것이다. 사전은 검색과 다른 것이 아니다.


정보 분류의 좋은 사례로 네이버가 주도한 한국식의 통합검색을 들 수 있다. 구글은 웹상의 문서를 한가지 기준으로 정렬하기 때문에 검색결과 또한 한가지로 나오는 것이 기본이다. 여기서 문서의 출처에 따라 그것만 걸러서 볼 수도 있지만 그것은 부차적인 동작이다. 반면에 통합검색은 블로그, 뉴스, 사전, 카페 등의 글 중에서 가장 좋은 것들을 위에 꺼내고 개별 노출 영역을 바꿔서 보여준다. 최근에 벌어진 사건에 대한 검색이라면 뉴스가 사전보다 먼저 나오겠지만 학술용어에 대한 검색이라면 사전이 먼저 나오는 식이다. 즉 영역별로 상위문서를 뽑고 또 어휘별로 영역의 위치를 재배열하는 방식이다. 무엇이 더 좋은지를 단언할 수는 없지만 한국식 통합검색은 구글이나 다른 외산 검색엔진의 국내 진출을 막아내고 있다. 대다수의 한국인들은 구글보다 네이버, 다음의 검색 서비스를 더 편안하게 여기는 것이다. 검색 기술로는 부족하겠지만 검색 서비스를 더 편안하게 유지한다는 것은 정보를 어떻게 묶어서 보여주는가가 정보 찾기에 큰 영향을 준다는 걸 반증한다.






Posted by zepelin