not music2013. 3. 9. 23:55


1 사전은 공동저작물


사전은 여러 사람의 저작물이다. 한두사람이 십만개 이상의 항목을 기술한다는 것은 무모하거나 긴 시간이 소요되는 일이기 때문이다. 근대 이전에야 저작권의 개념 자체가 별로 없긴 하지만 가장 마음놓고 서로 베끼던 분야가 바로 사전이고 상업 출판물의 시대가 되어도 맨땅에서 사전을 만들 수 없기 때문에 항상 선배 사전을 참조하여 온고지신의 방법을 통해 사전을 만들어왔다. 즉 사전은 공동저작물이면서 다른 장르에 비해서도 표절을 입증하기 어려운 저작물이다. 그래서 저술보다는 편저 혹은 편찬이라는 말을 쓰는 것이다.


웹에서 성장중인 위키백과의 저작권 정책은 CC(creative commons)를 따르고 있는데 그중 동일조건 변경허락(share alike)이 핵심이다. 위키백과를 변경하여 내용을 갱신했으면 해당 저작물 역시 같은 저작권으로 공개해야하는 것이다. 개인저작권을 인정하지 않으며 기여한 사람은 자신의 기여물이 다른 형태로 이용되어도 괜찮다는 것을 알아야 사용할 수 있는 저작권이다. 이것은 개방성이 증폭되는 형태의 저작권이다. 위키백과 편집자들은 자신의 기여가 공공의 이익에 작은 돌 하나를 쌓는 것이라는 것을 알고 기여한다. 그래서 참여자들이 지속적으로 기여하는 것이며, 이권이 개입되지 않기 때문에 중립적 시각을 확보할 수 있는 것이다.


공동저작물이라는 특성에 우리는 다시 주목해야 한다. 사전은 주관적인 내용보다는 사실의 논리적 기술에 가깝기 때문에 개인성이 최소화되고 다른 사람도 그정도의 객관성만 유지하면 집필이 가능하다. 사실 이전의 종이사전은 해당 편찬팀의 '소유'였기 때문에 다른 출판업자가 새로 만들려고 하면 대동소이한 내용임에도 다르게 적으려는 어쩌면 불필요한 노력을 해야했다. 이런 한계가 인터넷이라는 환경을 만나서 사라지고 사전은 공동저작물이라는 본연의 특성을 살려나갈 수 있게 되었다.


2 돈


사전을 만들기 위해서는 돈이 든다. 허나 인터넷이 일상에서 쓰이기 시작한 90년대 중반 이후 사전의 매출액은 줄어들기만 해서 지금은 사전업계 전반이 붕괴되기 직전이거나 붕괴상태이다. 그러니 새로운 사전이 나오기 힘든게 당연하다. 이후 사전을 새로 만들지 않겠다면야 모를까 학문을 위해서는 전문 사전이 필수적이다. 학문은 개념을 다루는 것이며 개념은 용어에 응축되는 것이고 용어를 정리한 것이 사전이기 때문이다.


웹에서 파스칼백과나 두산백과사전을 볼 수 있던 초기에 브리태니커는 볼 수 없었다. 웹에서 공개해버리면 CD롬 매출이나 기타 다른 매출을 잠식할 수 밖에 없었기 때문이다. 하지만 다른 백과사전을 무료로 볼 수 있는 상황에서 오래 버티기는 어려웠고 결국 미국 본사와의 협의 끝에 브리태니커를 웹에서 무료로 볼 수 있는 유일한 나라가 한국이 되었다. 다시말하면 한국에서 백과사전은 '무료'인 것이다. 다른 사전도 별반 다르지 않다. 일본도 야후 재팬을 통해 일본대백과 사전을 볼 수 있게 된 것이 최근이며 점차 한국과 같은 길을 갈 것으로 보인다.


그래도 백과사전은 경쟁이 그리 치열하지 않았다. 하지만 업체가 여럿 난립해있는 영한사전이나 중한, 일한사전 쪽은 상황이 훨씬 나쁘다. 이미 국내 출판사들 대부분은 사전편찬팀을 해체해서 더이상의 개정판이 나오지 않는다. 경쟁 컨텐츠가 여러개 있으니까 가격하락이 심해서 정말 커피한잔가격이 안되는 비용으로 핸드폰에 탑재되는 형편이다. 잠시 스마트폰 설치형 사전앱을 팔아서 두산동아 같은 경우는 반짝 수익을 내기도 했지만 그것은 단발성일 뿐이어서 지금은 매출이 다시 급감한 상태다. 이전에 비해 전자사전 시장이 없어졌기 때문에 상황은 더 안좋다. 새로운 사전을 만들거나 개정할 수 있는 형편은 아니며, 가끔 영어권 사전이 번역되어 나오는 것도 신기할 지경이다.


모두 무료로 백과사전을 볼 수 있게 된 것 까지는 좋다. 하지만 돈을 벌지 못하는 상황에서 더 나아지는 백과사전을 어떻게 만들 것인가. 현재 백과사전 시장에서 돈을 만드는 것은 어린이백과류와 시사상식백과류 정도이다. 무거운 내용을 가진 백과사전은 팔리지 않는다. 이 시점에서 우리가 계속 백과사전이 갱신되는 것을 보고싶으면 사전을 공공재로 만들어야 한다. 사전은 기업의 후원이나 대학의 노력, 국가의 지원 등이 결합해서 계속 발전시켜야 하는 대상이 되었다. 사전 제작 비용이라는 것은 그 무엇보다도 우선하는 전제조건이다.


공공재라는 것을 우리가 인식시키려면 수없이 떠들어야 한다. 왜 사전이 더 좋아지지 않는가, 좋은 사전이란 무엇인가 등에 대해 신문이든 방송이든 웹이든 여기저기서 계속 발언을 해야 공공재가 될 수 있다. 정부도 국민에게 서비스하는 곳이기 때문에 칭찬을 듵기 위해서라도 국민들이 원하는 것을 가끔 하지 않는가. 사회적 책임을 묻고싶으면 그것의 중요성에 대해 꾸준히 언급하는 것이 필요하다. 특히 사전을 많이 쓰고 사전을 연구하는 학자들이 지속적으로 여론을 환기시킬 필요가 있다. 그래야 노교수들 은퇴한 뒤에 사전 집필이라도 하면서 소일하지 않겠는가. 이를 위해서는 사전에 글을 실어야 석학대접 해주는 문화 또한 만들어질 필요가 있다.


애석하게도 현실은 어떠한가 하면 백과사전은 그 컨텐츠 양에 비해 정말 읽히지 않는다. 예전에 백과사전을 질단위로 팔 때야 팔면 끝이었고, 그것이 책장에 있는지 책상에 펼쳐져있는지 알 길이 없었다. 허나 지금은 웹상에 로그가 남기 때문에 사람들이 얼마나 백과사전을 읽는지 정확하게 알 수 있다. 영어사전과의 비율로 보자면 10%밖에 되지 않는다. 통합검색에 노출되어서 한번씩 눌러지는 것들을 고려해서 빼면, 그리고 백과사전 페이지 내에서 머무는 시간을 재면, 정말 처참하게 읽히지 않는다고 봐도 좋을 것이다.


사전을 공공재로 만들려면 사전을 먼저 읽어야 한다. 읽고, 내용에 문제가 있다면 제안하고, 더 필요한 내용이 있다면 요구하고, 내용을 인용해야 한다. 우리가 가질 수 있는 사전은 우리의 수준에 따라갈 것이다. 일본과 독일의 사전의 양과 질에서 왜 압도적인가 하면 그들이 그런 사전을 원하기 때문이다. 일본 서점에 가서 사전코너를 보면 겁날 지경이다. 그들과 우리의 학문 수준 차이가 너무 느껴지니까. 일본어 몰라도 압도될 수 있으니까 기회 되면 서점에 한번 가보시면 좋겠다. 





Posted by zepelin
not music2013. 3. 9. 21:57

1 인터넷 이전의 백과사전


2012년에 브리태니커 영어판이 종이책 출간을 그만두겠다고 선언했다. 사실 그보다 몇년 전에 이미 브리태니커 한국어판은 종이책 출간이 정지된 상태였다. 예견된 일이었고 다들 조금 놀라는 척 하면서 당연하다는 듯 받아들이고 있다. 이 지점에서 우리시대의 백과사전은 어떤 의미를 가져야 할지에 대해 고민해보고자 이 글을 쓴다.


백과사전이란 무엇인지에 대해 한번 생각해보자. 백과사전의 기능은 궁금한 뭔가를 찾아보기 위한 것이다. 백과(百科)라는 말이 '세상의 모든 분야'라는 의미를 담고있다. 궁금한 점을 찾는 절대적인 참고처로 만들기 위해 백과사전은 검증된 지식을 객관적으로 기술하며 분야별로 공정하게 할애된 분량을 가진, 인간 지식의 총체적 요약이라는 성격을 가져왔다.


초기의 백과사전들은 요즘의 시사상식사전 같은 느낌이 있었다. 그것이 한가지 주제를 가질 수도 있고 여러가지를 포괄할 수도 있지만 주된 목적은 특정 분야의 도구 혹은 지적 유희의 대상 정도였다. 그러다가 서구에선 디드로의 백과전서가, 동양에선 사고전서가 획기적인 전기를 마련했는데 이 두 총서는 당대의 지식을 재정의하려는 목적에서 지식을 수집/재편집했다는 공통점을 가진다. 즉 지식 정리하는 행위 자체가 정치적인 것임을 의식하고 있었다. 백과전서는 혁명적이었고 사고전서는 보수적이었다는 점에서 그 엇갈림이 흥미진진하다. 이후 동양을 압도하는 서구문명의 힘은 이 지점에서 갈렸는지도 모르겠다.


이후 근대를 관통하면서 백과사전은 당대 지식의 총체이자 최고 권위자의 역할을 다했다. 백과사전에 수록되느냐 아니냐가 당대에 인정받은 지식의 기준이었다. 브리태니커 백과사전은 그 상징적 존재였고 전 세계 다른 백과사전의 귀감이 되었다.


전문용어사전은 백과가 아닌 일과(一科)에 특화된 백과사전이다. 전문용어사전은 개별 지식에 대한 설명이라는 면에서는 백과사전과 유사하며 해당 영역의 전문용어의 뜻풀이를 시도한다는 점에서 어학사전적인 면도 가지고 있다. 전문용어가 대중성을 얻으면 어학사전에 등재되는 일도 많이 있다. 하지만 기본적으로는 해당 항목을 설명하는 종류의 참고서적이며 전문용어사전이 여러개 모이면 백과사전이라 불러도 좋을 것이다.


백과사전이 근대 이후의 세계관을 반영한 책이라면 전문용어사전은 근대 이후의 실질적 문명 개화를 지탱한 책이라고 할 수 있다. 서구 학문의 기본은 해당 분야의 전문용어를 규정하는 것으로 시작했다. 동일한 용어를 동일한 의미로 사용하는 것이 혼선을 줄이는 최선의 길이었기 때문이다.


백과사전과 전문용어사전은 모두 책으로 출간되는 것이 기본이었으므로 판과 쇄라는 개념을 가지고 있었다. 수요가 늘면 쇄를 늘리고, 시간이 지나 고쳐야 할 시점이 되면 저자들이 모여 판을 고치는 방식이 그것이다. 하지만 책이라는 매체에서 인터넷이라는 매체로 변화하면서 이 두 사전은 변화를 겪어야 했다.


2 인터넷 이후의 백과사전


그러나 90년대 중반 이후 궁금한 뭔가를 찾는 대상이 백과사전에서 인터넷 검색으로 바뀌었다. 백과사전은 정보의 양과 실시간성에서 인터넷을 따라가지 못한다. 백과사전마저 인터넷에서 검색되는 환경에서 백과사전과 인터넷의 우위를 비교하는 것 자체가 무의미해졌다. 뭔가를 찾는 기능은 검색엔진에 완전히 패배했다.


전통적 백과사전은 위키백과라는 또다른 대항세력을 맞았다. 불특정 다수가 집필하는 방식의 위키백과는 소수의 훈련받은 전문가가 집필하는 전통적인 백과사전을 양과 질에서 압도하기 시작했다. 400만 항목에 육박하는 영어 위키백과는 10여만 항목의 브리태니커와 비교조차 할 수 없는 규모를 가지고 있다. 뭔가를 기술하는 기능에서도 전통적인 백과사전은 새로운 백과사전과의 경쟁에서 밀릴 수 밖에 없다.


전통적인 백과사전은 지금까지 그리 능동적으로 대응하지 못했다. 구글이 검색 성능을 끌어올리고 위키백과가 웹에서 만들어지기 시작한 이후 백과사전이 종이책 출간을 멈추고 웹상에서 기동성을 확보한다는 판단을 내리기까지 10년 이상 걸렸으니 너무 늦은 셈이다. 사실 종이책 출간을 멈춘 것 뿐이지 내부 집필진이 기동성에 최적화되어 움직이는지는 여전히 의문이다.


그럼에도 불구하고 한국의 전통적 백과사전은 꾸준히 개정중이다. 동서문화사에서 사운을 걸다시피해서 출간한 동서 파스칼백과사전은 2002년 이후 전혀 개정되지 않고있다. 2009년까지 야후코리아에서 서비스하다가 지금은 어디서도 내용을 찾아볼 수 없다. 두산 두피디아(구 엔싸이버, 동아대백과)의 경우는 두산그룹이 후원하고 또 네이버의 전폭적인 지원을 받아 꾸준히 새로운 항목이 추가되고 있다. 그리고 글로벌 기업인 브리태니커가 지속적으로 업데이트되어 다음에서 서비스중이다. 단지 이것이 얼마만큼 지속가능한 모델인가에 대해서는 회의적인 시각이 크다.


백과사전은 개인성보다는 사실의 집약적 편집물이기 때문에 공동편집이라는 방식이 유용하다. 기존 백과사전도 개별 필자에게 편집권이 있지 않고 백과사전 편집부에 편집권이 있었을 정도이다. 편집부에서 필자의 의지와 관계없이 내용을 수정할 필요가 있었기 때문이다. 그래서 위키위키라는 공동편집 방식에 기반을 서비스 중 가장 폭발적으로 성공한 서비스가 위키백과일 수 있었다.


한국어권에서 위키방식으로 만들어지는 대표적인 사전으로 위키백과와 엔하위키를 들 수 있다. 한국어 위키백과는 전세계적인 위키백과 프로젝트의 한국어판이고 엔하위키는 대중문화의 매니아들이 모여서 만드는 위키로 인터넷 문화와 일본만화 등 하위문화에 민감하다. 한국어 위키백과는 사전을 지향하고 엔하위키는 대중문화 소개페이지에 가까워서 양자는 거의 겹치지 않고 공존 중이다.


초기의 위키백과에 있었던 신뢰도의 의심은 시간이 지나서 많이 사라진 상태이다. 위키백과보다 엄밀하게 쓰여진 글도 별로 없다는 것이 서서히 증명되었기 때문이다. 엔하위키의 경우 엄밀함보다는 재미와 속도를 추구하기 때문에 여기서 신뢰도의 잣대를 들이대지는 않는다.


하지만 여전히 문제는 남는다. 영어 위키백과의 경우 미국, 캐나다, 영국, 호주 등 전 세계의 입장이 혼재된 상태여서 어떻게 중립적으로 기술할 것인가에 대한 논란이 한창이고, 전쟁과 같은 특정 분야에서는 객관적인 시각이나 역사학계의 관점보다는 군사문화 매니아들의 시각이 지배적이어서 형평성에 문제가 있다. 위키백과측도 이 문제를 잘 인지하고 있어 꾸준히 개선되고 있지만 참여자들이 워낙 다수이고 복잡도가 높아 개선에는 시간이 걸릴 전망이다.


위키방식의 백과사전은 현재 지속적으로 성장중이다. 영어 위키백과의 성장세가 이전에 비해 주춤하다고 하지만 브리태니커의 수십배에 이르는 항목수에 다수의 항목이 실시간 업데이트가 된다는 점에서 인터넷 상의 가장 압도적인 정보원이다. 중국어권은 중국 정부가 위키백과를 차단한 덕분에 위키백과 이외의 다른 위키방식의 사전들이 성장중이다. 한국의 엔하위키나 영어의 TV트롭스(tvtropes.org)등과 같은 위키방식의 상호 보완적 백과사전들이 꾸준히 생겨나고 있다.


인터넷 이후의 백과사전은 기존의 백과사전에 비해 용량제약이 사라졌기 때문에 무엇이 백과사전다운 항목인가라는 지식간의 투쟁 역시 약해졌다. 드라마 주인공에 대한 설명이어도 기술만 잘 되어있으면 남게 되는 곳이 위키백과다. 인터넷 이후의 백과사전이 가지는 의미라면 참조 항목의 양적 성장이다. 이전에 B급문화라 얘기되던 것도 그리스 철학과 같은 형식으로 기술될 수 있다. 권위보다는 정보 그 자체로 존중받는 전달매체가 바로 인터넷이고, 백과사전 역시 그 인터넷 민주주의 내에 들어있다.





Posted by zepelin
not music2013. 3. 9. 19:14

사전에서 기본적인 검색은 표제어를 찾는 것이다. 종이사전은 표제어 검색만을 위해 구성된 책이었을 정도로 표제어 검색은 기본이며 웹사전에서도 단일어 표제어 검색이 전체 검색의 90% 이상을 차지한다. 하지만 웹사전에서 검색할 수 있는 것들은 상당히 많다. 사전의 요소를 표제어, 뜻풀이, 예문 등으로 분할하여 개별 검색을 수행하기 때문이다. 웹사전에서 검색을 어디까지 수행할 수 있는가를 살펴보자.


* 두 단어 이상 검색


사전 검색 뿐 아니라 일반적인 검색을 할 때 두 단어 이상을 넣으면 훨씬 정교한 검색이 가능하다. have를 검색하면 얼마나 많은 예문과 뜻풀이가 나오겠는가. 그럴 때는 have lunch를 검색해야 좀 더 좁혀진 검색결과를 얻을 수 있는 것이다. 영어는 관용구와 구동사가 많으므로 두 단어 이상 검색하는 것은 필수적이다.


두 단어 이상으로 검색하면 숨어있는 뜻풀이를 발견할 수도 있다. '댄스 음악'이라는 검색어로 나온 결과중에는 dance music / Global Gathering / tecktonik  / The Oruro Carnival / a dance performed to music / silent disco 등 뜻풀이에 댄스와 음악이 동시에 들어가있는 영한사전 표제어가 다수 있다. 이것들이 댄스 음악과 직접일 수도 간접일 수도 있지만 어쨌든 관계를 가진 표제어들이다.


* 검색어의 검색범위 한정


언어의 특성에 맞춰 검색어를 다양하게 지정할 수 있다. 한국어를 예로 들면 사회로 시작하는 단어, 사회로 끝나는 단어, 사회가 포함된 단어, 사회로 시작하는 4음절 단어, 'ㄴ다'로 끝나는 모든 단어 등을 지정해서 검색할 수 있다. 영어라면 -ism으로 끝나는 단어. 모음으로 -au-가 포함된 단어 등을 한정지을 수 있다. 이 기능은 종이사전의 역순사전의 기능을 웹에서 소화하고 더 확대한 것이다.


또 영역을 지정할 수 있다. 예를들어 국민과 국어 사이의 모든 단어를 본다거나 하는 것이 가능하다. 이러한 기능들은 구현 자체가 어려운 것은 아니지만 검색할 때마다 서버에 무리를 주고 또 수요가 많은 기능이 아니므로 소수의 사전에서만 지원하고 있다. 표준국어대사전에서 강력하게 지원하고 있으며 네이버 사전에서도 일부 지원되고 있다. 


* 둘러보기의 기능 개선


웹사전이 종이사전에 비해 문제로 지적되던 것 중 대표적인 것은 전체를 한번에 조망하기 힘들다는 점이었다. 종이사전은 책이니까 주루륵 넘겨보거나 페이지당 정보 노출량이 많아서 한눈에 들어온다거나 하는 장점이 있었지만 웹사전은 한번에 한 표제어와 항목만을 볼 수 있었기 때문에 주변을 살펴보기에 적합하지 않았다.


그런 문제를 해소하기 위해 표제항을 다단계로 나누어서 배열할 수 있다. 한 페이지에 100개씩 항목을 배열하고 그 기준을 100개로 나누면 두 단계만에 1만 항목의 배열이 가능하다. 필터를 두되 다단계의 깊이를 최소화하고 주변의 항목을 보여주는 방식이다.


* 인지과학의 성과 도입


인지과학의 성과에 힘입어 여러가지 인간의 표현 방식을 인식해 그것을 컴퓨터로 입력받는 기술들이 나오고 있다. 이중 사전에 도입되는 것으로는 음성인식, 필기인식, 문자영상인식 등이 대표적이다.


필기인식은 사람의 필기체를 인식하는 방법인데 글자의 형식 뿐 아니라 글자 쓰는 순서, 특히 한자의 획순 등까지 정보로 받아들여 글자를 인식한다. 한자처럼 훈음을 모를 경우 검색이 힘든 문자에서 유용한 도구이다.


음성인식은 사람의 음성을 텍스트로 전사해주는 방법으로 손을 사용하기 어려운 환경에서 검색할 때 활용할 수 있다. 반대로 텍스트를 음성으로 합성해주는 TTS(text to speech) 기능도 있으며 이는 원어민 발음이 녹음되어있지 않을 때 문장 읽어주는 역할을 한다.


문자인식은 인쇄된 문자를 스마트폰의 카메라로 인식하여 바로 검색해주는 기능이다. 역시 한자와 같은 표음문자가 아닌 문자 검색에 유용하지만 로마자나 한글 등도 신속하게 여러 단어를 검색할 때는 손으로 입력하는 경우보다 더 빠르고 편리할 때가 있다.


이러한 형태의 입력은 신기하고 종종 편리하지만 손으로 검색어를 직접 입력하는 것에 비해 전반적으로 그리 효율적이진 않다. 부차적인 기능이므로 필요한 만큼만 활용하는 것이 좋다.


* 한자 파자 검색


한자는 표의문자라 하여 보통 글자 자체를 외워 학습해야 한다는 믿음이 많았다. 하지만 이미 설문해자 시대 이후로 부수법을 사용하고 강희자전의 부수체계도 한자는 개별 글자의 조합으로 이루어졌다는 개념을 이미 담고있다. 


그런 개념을 통해 한자는 개별 부수의 조합이라는 관점과 해당 부수의 위치를 고려하여 다중부수법(multi radical)을 얘기하는 학자들이 늘고 있으며 그러한 개념을 웹상에서 구현하였다. 이 경우 한자의 부수를 정확하게 몰라도 모양을 찾으면 해당 모양이 들어간 한자가 필터링되어 제시된다.





Posted by zepelin