not music2013. 3. 17. 22:35

사전이 어떤 식으로 흘러갈지 나는 잘 모르겠다. 내 생각에는 검색과 인터넷이 이미 사전이기 때문에 그쪽의 미래를 고려하는게 더 현실적일듯 싶다. 어차피 사전은 표제어와 표제항만 있으면 다 사전이다. 블로그도 사전이고 카페도 사전이고 DB는 다 사전이다. 나는 세상 모든 DB를 사전으로 본다. 이럴땐 질문을 바꾸는 것이 좋다. 내가 만들고 싶은 사전이 뭘까 정도로.


사실 사전은 돈이 많이 드는 작업이다. 인건비, 서비스 개발비, 데이터 가공비 등 모든게 다 돈이다. 따라서 돈의 형편에 맞춰서 사전 만드는 방법론은 달라지게 된다. 언어학의 다른 분야에 비해 사전학 부분은 예산을 어떻게 확보하고 그것에 맞춰 어떤 사전을 만드는가가 중요하다. 양혜왕이 맹자를 만나 '기왕 오셨으니 우리 나라에 어떤 도움을 주실 수 있겠습니까.' 하고 말을 꺼내자 맹자는 곧바로 '당신은 보자마자 돈 얘기를 하는가!'(何必曰利)라고 했지만, 사전은 돈 얘기부터 시작해야 한다.


1 한국어사전 / 예산 무제한


이 경우 나는 한국어 역사 말뭉치를 만들고 싶다. 15세기 한국어 문헌, 16세기 한국어 문헌 ... 1920년대, ... 2010년대 등으로 나누어서 말뭉치를 만드는 것이다. 만들게 되면 아마 조선시대까지의 문헌은 전체를, 이후 문헌은 균형성을 고려하여 입력을 하게 될 것이다.


역사 말뭉치가 있으면 해당 표현의 최초출현형이 어떠했으며 이후 어떤 식으로 변해갔는지 추적이 가능해진다. 우리말 본래의 의미를 실증적 자료와 함께 살펴볼 수 있는 것이다. 기존 학계가 이러한 역사적 접근을 안해왔던 것은 아니지만 항상 일부의 자료를 활용해 중세한국어 연구자들에 의존한 기술 이상의 것을 하긴 어려웠다. 뭔가 완결된 형태로 사전 작업을 하려면 그 원천자료인 말뭉치를 치밀하게 확보하는 것이 필수적이다.


마찬가지 이유로 한문 말뭉치와 한문 형태분석기를 만들고 싶다는 소망도 있다. 한문을 전산언어학적 방법론으로 해석했을 때 어디까지 자동으로 어디부터 수동으로 작업해야 사전 속에서 한문 어휘들을 기술할 수 있을지를 테스트해보고 싶다. 언제까지 모든 것을 수동으로 할 수는 없을것 아닌가. 사전은 가능하면 반자동 반수동으로 작업하는게 좋다는 생각을 한다.


이건 예산보다는 정치적인 문제가 있는 것인데, 북한의 조선말 대사전을 웹으로 보고싶다. 지금 남북의 사전편찬자들이 모여 겨레말 큰사전을 만들고 있고 이건 매우 상징성이 큰 작업이다. 하지만 그 이전에 우리가 북한을 알기 원한다면 조선말 대사전의 표제어와 예문을 살펴볼 필요가 있다. 그래야 남북의 이질감을 조금이라도 덜 수 있지 않을까.


2 한국어사전 / 예산 한정


제한적인 예산 속에서 한국어사전을 살찌운다면 가장 하고싶은 것은 한국어사전도 편집자의 개입을 최소화해서 예문으로 재구성해보는 것이다. 가능성이 조금은 있는 것이, 일단 최근의 한국어 형태분석기는 정확하지는 않지만 어느정도 의미태깅을 해준다. 문장에서 어떤 것은 사과(과일)로, 어떤 것은 사과(행위)로 구분해주는 것이다. 그리고 개별 어휘는 연어관계만 잘 추적해도 비슷한 유형으로 모아볼 수 있는 여지가 있다. 따라서 이런 실험을 해보면 아주 고품질은 아니어도 어느정도는 자동으로 문장이 분류되는 사전을 만들어 볼 수 있을 것이란 생각이 든다. 또 한국어는 활용형이 무척 다양하게 만들어지지만 실제로 고빈도 활용형은 한정적이다. 그 고빈도 활용형의 용례를 묶어 보여주기만 해도 상당히 효율적일 것이다.


이것은 영어사전이나 일본어사전 등 다른 언어로도 응용이 가능할 것이다. 모두 일국어사전이기 때문이다. 얼마만큼 해당 언어의 자연어처리 기술을 높일 것인가가 관건이다.


다른 방식으로 가장 쉽게 생각할 수 있는 것은, 사용자 참여형이다. 허나 사용자 참여형으로 만든다는 것은 사실 컨텐츠 생산비용이 덜 들어간다는 말일 뿐 서비스 개발비용은 더 들어간다. 장기적으로 봐서 비용이 덜 들어가는 것 뿐이다. 


3 외국어사전 / 예산 무제한


사전은 유료컨텐츠였지만 초기부터 수요가 많아 불법으로 입력된 자료가 많았다. 이것은 중국의 전자사전 포맷인 stardict나 일본의 전자사전 포맷인 epwing 등으로 많이 만들어져 있다. 이런 사전 컨텐츠가 불법으로 풀렸기 때문에 쓰는 사람은 불법으로 사용하고 웹서비스로는 볼 수 없는 그런 상태가 지속된지 오래되었다. 이런 다양한 사전들의 저작권을 해결하여 합법적인 경로로 웹 서비스를 하면 좋겠다. 


사전을 만들면서 가장 많이 참조하는 대상은 바로 기 출간된 사전들이다. 사전 만들기는 거인의 어깨에 올라서서 더 먼 곳을 바라보는 것이기 때문이다. 그렇다면 기존에 나와있던 사전들은 일단 웹에서 참고할 수 있어야 한다. 


4 외국어사전 / 예산 한정


2013년 현재 다음 영어사전의 예문 분류 기준은 번역어이다. 그 외에 활용형과 연어관계 등을 활용하면 다른 기준으로 예문을 묶을 수 있다. 이것은 한국어 사전쪽에 대략 설명했으니 여기서는 넘어가기로 하자.


다른 예문을 집어넣으면 다른 사전이 될 수 있다. 예를들어 문학 예문과 기술문서 예문은 다를 수 밖에 없다. 지금 다음 영어사전이 주로 교육 문서와 언론 문서를 바탕으로 만들어져있는데 여기에 기술 문서와 문학 문서를 다수 포함하면 인문학도를 위한 영어사전과 이공계를 위한 영어사전 등으로 나누어서 서비스가 가능하다. 즉 좀 더 사용자에게 특화시킨 사전을 만들어 볼 수 있다.


다음 영어사전에서 구현한 예문사전의 방법론을 다른 언어까지 확장하고픈 생각도 있다. 중국어와 일본어는 한국어 대역문서를 어느정도 확보할 수 있을 것이다. 하지만 독어나 불어까지 가면 번역문이 부족해서 이 방법론을 쓰긴 어려울 듯 싶다.


5 백과사전 / 예산 무제한


백과사전에서는 위키백과의 대항마가 하나쯤 필요하지 않은가 하는 생각이 든다. 일당제보다는 양당제가 건강하기 때문이다. 대안이 있어야 고립되지 않고 서로 비판이 가능해진다. 위키백과의 모든 항목에 대해 대안 백과가 필요한 것은 아니지만 개념어라면 위키백과와 다른 관점으로 서술하는 것은 반드시 필요하다.


개념어를 전문가의 관점으로 서술하고 다른 전문가들이 상호리뷰를 해서 정리하고, 또 시간이 지나면 새로운 학자가 새롭게 정의하게 만드는 것은 그것 자체로도 학문적 토론의 장이 될 수 있다. 18세기에 디드로의 백과전서가 그랬던 것처럼.


전문용어사전을 백과사전의 일종으로 본다면 전문용어의 기술도 문제이지만 전문용어는 역시 표준화가 핵심 문제이다. 해당 업계에서 표준이 정의되지 않거나 정의되어도 지켜지지 않는 경우가 태반이다. 이를 위해서는 지금처럼 개별 업계 협회에서 일방적으로 정리해서 이것이 표준이다 이렇게 배포하는 방식으로는 더이상 되지 않는다. 먼저 해당 개념의 표기가 어떤 역사적인 과정을 거쳤는지 밝혀야 하고 현재 가장 많이 쓰이는 것이 무엇인지 적어야 한다. 그 뒤에 현재 권장되는 표기는 무엇이며 허용되는 표기는 무엇인지 보여줄 필요가 있다. 논란이 있는 표기는 토론을 거쳐 하나씩 천천히 고쳐나가야 한다. 일관성을 유지한다고 갑자기 독일어 기반으로 쓰던 화합물 표기를 모두 영어 기반으로 바꾼다는 등의 과격한 방식으로 일관하면 전문용어 표준화의 길은 멀다.


전문용어의 표준화 문제를 본격적으로 해소하기 위해서는 해당 학회에서 논문을 받을 때 개별 표기들을 규정에 맞게 일관되게 고쳐야 한다. 그리고 글을 넣고 표준 용어에 맞게 구사했는지를 검사할 수 있는 확인도구를 웹으로 제공할 필요가 있다. 가장 중요한 것은 이것이 정책의 일관성이며, 장기간동안 그것을 유지하는 것이다. 이는 돈보다도 시간이 필요하다.


6 백과사전 / 예산 한정


전통적인 백과사전이나 위키백과나 모두 항목의 서술에 집중하고 있다. 하지만 항목을 집필하는 것은 시간과 비용이 엄청나게 소요되는 일이다. 그렇다면 나는 메타 백과사전을 한번 만들어보고 싶다.


웹 상에는 여러 사전들이 있으며 그것들은 여기저기에 산재해있다. 이중 어떤 항목이 더 상세하고, 어떤 항목이 어떤 분야를 서술하고 있는지 등을 한꺼번에 파악하긴 쉽지 않다. '세포'라는 항목이 20개의 사전에 올라가있다고 할 때 무엇이 정치학 용어이고, 무엇이 생물학 용어이고, 무엇이 국어사전에 실린 것인지를 읽는 이가 일일이 걸러서 읽어야하는 것이다. 즉 정보가 많기 때문에 원하는 정보를 거르는 작업이 필요해진 것이다. 이것은 웹 전반에 걸쳐 해결해야 하는 문제이기도 하다.


간단하게 말하면 백과사전의 스크랩북이다. 세포라는 항목이 20개쯤 있다면 가장 좋은데 2-3개를 정리해두고 나머지 중 읽을만한 것들을 적절히 분류해놓고 나머지는 기타에 넣어버리는 것이다. 이렇게 하면 정보를 거르는 작업이 물흐르듯 쉬워진다. 현재 네이버 전문용어사전을 보면 사전이 많아서 그만큼 중복항목이 많다. 이런 문제를 해소하는 방식으로 메타 백과사전이 필요한 것이다.


여기서 더 나아갈 수도 있다. 백과사전 항목 뿐 아니라 연관된 설명들을 좀 더 체계적으로 스크랩해줄 수 있다. 정보는 백과사전 말고도 신문, 블로그, 카페 등에 산재해있다. 그것들까지 포함해서 정보를 분류해주면 그것은 일종의 가이드북이 된다. 이런 가이드북을 위키방식으로 만들때 위키백과나 기존 백과사전류를 보완해주는 메타백과사전이 만들어진다.


7 종합해보면


내가 만들고 싶은 사전은 변화하는 사전인 것 같다. 위키백과가 기존 백과사전의 대체재가 될 수 있었던 것은 기존 백과사전이 판을 바꿀 때까지 내용이 새로워지지 못하는 반면 위키백과는 끊임없이 내용이 달라졌기 때문이다.


출판사가 만드는 어학사전도 백과사전과 마찬가지로 달라져야 했고, 그 한가지 방식으로 시도한 것이 다음영어사전의 예문사전 기능이었다. 이것이 기존 종이사전 기반의 웹사전을 대체한 것은 아니지만 그것과는 다른 정보를 보여주는 대안사전으로서의 가능성을 보여준 것은 맞다. 웹사전이 종이사전과 달라야 했다면 형식 뿐 아니라 내용까지도 달라야 했다.


앞으로 얼마나 종이사전과 다른 웹사전을 만들 수 있을지는 모르겠지만, 어느새 웹사전은 자기가 가야 할 방향으로 가고있는 것 같다. 일단은 그 배가 잘 나아갈 수 있도록 노를 저어보려고 한다.




Posted by zepelin
not music2013. 3. 16. 08:00


2010년대의 영한사전이 이전과 다른 결정적인 차이는 번역사전의 등장이다. 콜린스, 옥스포드, 롱맨, 맥밀란, 웹스터 등 유명한 영어사전 대부분이 영한사전으로 번역되어 나왔다. 이제 이전처럼 영한사전을 한국의 출판사가 자체적으로 출간하는 시대는 지났다. 우리에게 외국어사전의 의미는 무엇일까 고민되는 시기가 아닐 수 없다.


영어 교육 시장의 팽창은 21세기 들어 더 가속화되었다. 영어는 학원 등에서 이루어지던 사교육을 넘어 공교육과 유아교육 안으로 들어가 학생을 영어사용환경에 거의 집어넣다시피 하는 몰입교육이 각광받을 정도이다. 하지만 국내의 영어사전 생산은 이전에 비해 줄었는데 이것은 사전의 수익모델이 약해졌기 때문이다. 두가지 원인이 예상되는데 하나는 인터넷과 스마트폰 환경 때문에 사전을 무료로 볼 수 있는 경로가 늘었다는 것이며 또 하나는 영어학습의 도구로서 사전이 가지는 의미가 줄었다는 것이다.


학생수가 줄고 경제력이 줄지 않았기 때문에 인당 영어교육 비용이 늘었다. 그리고 영어교육이 입시영어에서 실용영어로 대폭 이동해서 읽기보다는 듣기/말하기/쓰기 쪽을 더 강화하고 있다. 그 결과 조기유학자가 급격히 늘었으며 영어학습 유형도 어휘 암기 보다는 문장과 패턴을 익숙해질때까지 반복해서 접하는 방식으로 바뀌었다. 사전의 관점에서 보자면 사람들은 이전보다 영어학습의 도구로 사전을 선택하지 않는 경향으로 가고있다.


영어사전을 뜯어먹는다는 표현처럼 전통적인 방법으로 암기하는 영어학습을 더이상 하지 않지만 영한사전은 여전히 영어 어휘를 확인하기 위한 기본 참고서이다. 이전에 비해 좀 더 기본에 가깝게 활용되고 있는 것 뿐이다. 용도가 번역이거나, 독해이거나 의미의 저장고라는 기본 용도는 바뀌지 않는다.


인터넷 시대가 정보 유통 속도를 빠르게 바꾸어 놓았기 때문에 새로운 영어 어휘의 출현 속도도 또 그것을 정리해내는 속도도 빨라졌다. 하지만 그것이 이전과 같은 형식으로 정교하게 정리되어 읽히기 보단 더 인터넷답게 소비된다. 대표적인 것이 화면에서 마우스만 대면 한줄짜리 의미가 나오는 툴팁형 사전이나 스마트폰 카메라로 책의 단어를 찍으면 의미가 흘러가는 사전앱 등이다. 어떤 형태로든 생산과 소비는 이루어질 것이다. 자본주의는 이 지점에서 거의 만능 아니었던가.


그보다 중요한 것은 외국어에 대한 태도이다. 이전과 같은 사전의 번안시대(국내 자체 출간)를 지나 사전의 번역시대로 갔다는 것, 그리고 영어를 좀 더 직접적으로 몰입적으로 받아들이게 되었다는 것은 결국 외국어와 외국문화를 이전에 비해 무비판적으로 받아들인다는 의미로도 해석이 가능하다. 아니 비판할 시간적인 틈조차 없어진 것일 수도 있다. 그러다보니 외국어 계통의 고유명사를 모두 미국 영어식 발음으로 적으려는 시도가 생긴다거나 한국어를 말하면서도 영어식 문법구조를 따르게 되어 이상한 한국어를 이상하다는 느낌조차 없이 쓴다거나 하는 일이 벌어지는 것이다.


영어 의사소통을 잘한다는 것 만이 목적이라면 이같은 고민을 할 필요는 없다. 하지만 문화를 번역한다라고 생각하면 영어만 생각할 수는 없다. 무엇이 적절한 한국어 표현인가에 대해 끊임없이 고민해야 한다. 이같은 고민은 경제적 조건과는 무관하다는 점이 안타깝다. 어쩌면 누군가는 나에게 그런 고민할 시간에 영어단어 하나라도 더 외우라고 할 지도 모르겠다. 지금 우리의 영어사전은 이전에 비해 좀 더 종속적이다.





Posted by zepelin
not music2013. 3. 13. 15:18

친구와 사전에서 정말 중요한건 용례라는 얘기를 하던 참에 이런 질문을 받았다. 그건 외국어 공부하는 사람에게나 해당되는거지 한국인에게 한국어사전이 그런 의미를 가지는건 아니잖아? 아 이런 인식도 가능하겠구나 싶어 한국인에게 한국어사전이 주는 의미가 무엇인지 고민을 해본다.


1 사전은 언어의 집적체


한국어사전은 한국인이 한국어를 더 잘 이해하기 위한 고민의 집적체다. 무엇이든 최소 단위로 나눠볼 수 있어야 그것을 잘 알 수 있다. 사전은 단어와 숙어 등의 의미를 나누고 풀어 기술해놓은 책이다. 풀어 기술한다는 것은 이렇게 저렇게 설명한다는 것이지만 원래 세상에서 가장 설명하기 어려운 것은 '당연하게 여겨지는 것'이다. 먹다를 '(사람이나 짐승이 음식물을)입으로 씹거나 하여 뱃속으로 들여보내다. / (사람이나 짐승이 끼니를)식사로 때우다. / (사람이나 짐승이 마실 것 따위를)입을 통하여 뱃속으로 흘려 넘기다. / (사람이나 짐승이 약이나 영양분 따위를)몸에 받아들이다. / (사람이 어떤 생각이나 감정 따위를)마음속으로 가지다. / (사람이 나이를)지금에 더하여 보태다.' 등으로 풀어쓰다보면 이게 맞는건가 싶어진다. 단어 그 자체보다 풀이가 더 어려워지기 때문이다. (영어로 eat, have 등의 대역어를 적어주는 정도면 훨씬 쉽다.) 이런 과정을 시도하는 것이 자국어 사전이다. 우리에겐 한국어 사전이 그러하다. 이렇게 어려운 과정을 통해 뜻풀이를 상세하게 기술할 때 우리가 쓰는 말의 의미를 최소단위로 나누어볼 수 있는 것이다. 


한국어사전을 기술하기 위해서는 한국어를 관찰해야 한다. 한국어를 관찰하기 위해서는 한국어를 역시 나누어서 살펴야 한다. 한국어는 성격으로 구분할 수도 있고 글의 길이로 구분할 수도 있는데 여기서 길이로 구분한다면 책/글/문단/문장/구/어휘/형태소/자모까지 갈 것이다. 사전은 표제어로 어휘/구까지를 다루는 책이고 그것을 살펴보기 위해서는 문장이 가장 적절한 단위이다. 따라서 사전을 기술하기 위해서는 문장 내에서 표제어가 어떻게 사용되는지를 파악해야 한다. 반대로 해당 표제어를 설명하기 위해서는 그 표제어가 사용된 문장을 제시하는 것이 편리하다. 그것이 예문이다.


사전을 만드는 행위는 말을 겹치지 않고 누락이 없는 총체로 정리해내는 과정이다. 중복과 누락이 없이 정리하기 위해서는 개별 단위의 형식을 만들어내고 그 단위들이 모여있는 지도를 만들 필요가 있다.  그래서 사전에는 표제어, 발음, 품사정보, 문법정보, 어원 등의 요소들로 이루어진 표제항이라는 단위를 가진다. 그리고 어휘들을 수집하여 어떤 어휘를 등재할지 결정한다. 그렇게 결정된 어휘가 표제어이다. 해당 어휘들에는 여러가지 관계가 있다. 어머니가 있으면 아버지가 있고, 할머니가 있고, 엄마가 있다. 그런 어휘들의 관계를 정의하는 것도 사전 내의 어휘 누락을 방지하고 어휘들 사이의 차이점을 파악하는데 효과적이다.


사전을 만드는 것은 표준을 정하는 과정이기도 하다. 해방이후 국가가 주도해서 편찬한 첫번째 사전인 표준국어대사전의 이름에 표준이라는 단어가 포함된 것은 의미심장하다.  사전이 없다면 우리 생활은 꽤나 불편해질 것이다. 굳이라고 써야할지 구지라고 써야할지 정하기 어려울 것이며, 내가 쓰는 이 말이 남들도 쓰는 것인지 아닌지 파악하기도 어렵고, good이라는 단어를 굿으로 쓸지 굳으로 쓸지도 애매하고 혼란의 연속일 것이다. 그럴때 사전이라는 합의된 표준이 있다면 혼선을 크게 줄일 수 있다.


이런 여러가지 과정을 거쳐 사전을 만드는 것은 언어라는 모호한 실체를 붙잡아 언어를 좀 더 쉽게 다루고, 그 언어를 쓰는 우리를 더 잘 알기 위한 과겅이다. 사전을 안만들고 안봐도 편안하면 그렇게 사는 것이야 말릴 수 없다. 하지만 나와 우리말을 더 잘 알고 싶다면 사전을 만드는 것은 피할 수 없다.


2 변화하는 언어, 변화하는 사전


사전은 이미 다 만들어진거 아닌가. 신조어 정도만 잘 담아주면 사전을 대대적으로 고칠 것이 많은가. 등의 의문을 가질 수 있다. 해당 단어의 적절한 뜻만 요약해서 알고 있으면 된다고도 생각할 수 있다. 이런 실용적인 질문에 실용적인 답을 해보겠다.


신조어는 분명 형태적으로도 기존 사전에 없는 것들이 많다. 멘붕이나 안습같은 말들은 그러하다. 하지만 기존 표제어형과 동일한 형태로 쓰이거나, 기존 단어의 의미가 확장되는 경우 또한 다양하다. 털다의 경우 원래 뒤지다/빼앗다 등의 의미로 쓰였는데 2012년 즈음 이 의미로 상당히 유행했다. 즉 원래 있던 말의 특정 의미가 사용량이 급증하는 경우가 있다. 안드로메다의 경우 전문용어 고유명사지만 지금은 본질과 거리있는 상황, 발언들을 지칭하는 대명사가 되었다. 이런 의미 변화를 제대로 붙잡기 위해서는 용례를 끊임없이 살피거나 해당 표현의 사용빈도를 지속적으로 추적하는 수 밖에 없다. 이것은 전산언어학의 발달로 이전에 비해 훨씬 용이한 작업이 되었다.


의미가 변하지 않은 단어도 설명에 사용된 예문이 옛날 예문이면 사용자가 의미를 바로 파악하기 어렵다. 50년대에 사용된 예문보다 2010년대에 사용된 예문이 지금을 살고있는 우리들에게 더 직관적임은 명백하다. 물론 옛 문서에서 쓰인 용례 역시 중요하지만 그것은 역사적 의미에서 중요한 것이지 현재의 활용도를 고민한다면 끊임없지 현재의 에문을 더해나가야 한다. 또 이런 예문의 역사성은 해당 어휘가 어떤 의미를 획득해가며 변해갔는지를 보여준다. 1차자료이기 때문에 그만큼 더 생생하다.


말은 의미를 포착하면서 미끄러진다. 미끄러지지 않는다면 오해란 생기지 않을 것이다. 마찬가지로 사전은 그 말을 포착하면서 또 계속 미끄러진다. 그러니까 사전은 두번이나 미끄러지면서 의미를 담아내려 노력하는 책인 것이다. 언어가 유기체이고 그 유기체의 변화를 포착하려 한다면 사전 역시 끊임없이 변화해야 한다. 





Posted by zepelin
not music2013. 3. 9. 23:55


1 사전은 공동저작물


사전은 여러 사람의 저작물이다. 한두사람이 십만개 이상의 항목을 기술한다는 것은 무모하거나 긴 시간이 소요되는 일이기 때문이다. 근대 이전에야 저작권의 개념 자체가 별로 없긴 하지만 가장 마음놓고 서로 베끼던 분야가 바로 사전이고 상업 출판물의 시대가 되어도 맨땅에서 사전을 만들 수 없기 때문에 항상 선배 사전을 참조하여 온고지신의 방법을 통해 사전을 만들어왔다. 즉 사전은 공동저작물이면서 다른 장르에 비해서도 표절을 입증하기 어려운 저작물이다. 그래서 저술보다는 편저 혹은 편찬이라는 말을 쓰는 것이다.


웹에서 성장중인 위키백과의 저작권 정책은 CC(creative commons)를 따르고 있는데 그중 동일조건 변경허락(share alike)이 핵심이다. 위키백과를 변경하여 내용을 갱신했으면 해당 저작물 역시 같은 저작권으로 공개해야하는 것이다. 개인저작권을 인정하지 않으며 기여한 사람은 자신의 기여물이 다른 형태로 이용되어도 괜찮다는 것을 알아야 사용할 수 있는 저작권이다. 이것은 개방성이 증폭되는 형태의 저작권이다. 위키백과 편집자들은 자신의 기여가 공공의 이익에 작은 돌 하나를 쌓는 것이라는 것을 알고 기여한다. 그래서 참여자들이 지속적으로 기여하는 것이며, 이권이 개입되지 않기 때문에 중립적 시각을 확보할 수 있는 것이다.


공동저작물이라는 특성에 우리는 다시 주목해야 한다. 사전은 주관적인 내용보다는 사실의 논리적 기술에 가깝기 때문에 개인성이 최소화되고 다른 사람도 그정도의 객관성만 유지하면 집필이 가능하다. 사실 이전의 종이사전은 해당 편찬팀의 '소유'였기 때문에 다른 출판업자가 새로 만들려고 하면 대동소이한 내용임에도 다르게 적으려는 어쩌면 불필요한 노력을 해야했다. 이런 한계가 인터넷이라는 환경을 만나서 사라지고 사전은 공동저작물이라는 본연의 특성을 살려나갈 수 있게 되었다.


2 돈


사전을 만들기 위해서는 돈이 든다. 허나 인터넷이 일상에서 쓰이기 시작한 90년대 중반 이후 사전의 매출액은 줄어들기만 해서 지금은 사전업계 전반이 붕괴되기 직전이거나 붕괴상태이다. 그러니 새로운 사전이 나오기 힘든게 당연하다. 이후 사전을 새로 만들지 않겠다면야 모를까 학문을 위해서는 전문 사전이 필수적이다. 학문은 개념을 다루는 것이며 개념은 용어에 응축되는 것이고 용어를 정리한 것이 사전이기 때문이다.


웹에서 파스칼백과나 두산백과사전을 볼 수 있던 초기에 브리태니커는 볼 수 없었다. 웹에서 공개해버리면 CD롬 매출이나 기타 다른 매출을 잠식할 수 밖에 없었기 때문이다. 하지만 다른 백과사전을 무료로 볼 수 있는 상황에서 오래 버티기는 어려웠고 결국 미국 본사와의 협의 끝에 브리태니커를 웹에서 무료로 볼 수 있는 유일한 나라가 한국이 되었다. 다시말하면 한국에서 백과사전은 '무료'인 것이다. 다른 사전도 별반 다르지 않다. 일본도 야후 재팬을 통해 일본대백과 사전을 볼 수 있게 된 것이 최근이며 점차 한국과 같은 길을 갈 것으로 보인다.


그래도 백과사전은 경쟁이 그리 치열하지 않았다. 하지만 업체가 여럿 난립해있는 영한사전이나 중한, 일한사전 쪽은 상황이 훨씬 나쁘다. 이미 국내 출판사들 대부분은 사전편찬팀을 해체해서 더이상의 개정판이 나오지 않는다. 경쟁 컨텐츠가 여러개 있으니까 가격하락이 심해서 정말 커피한잔가격이 안되는 비용으로 핸드폰에 탑재되는 형편이다. 잠시 스마트폰 설치형 사전앱을 팔아서 두산동아 같은 경우는 반짝 수익을 내기도 했지만 그것은 단발성일 뿐이어서 지금은 매출이 다시 급감한 상태다. 이전에 비해 전자사전 시장이 없어졌기 때문에 상황은 더 안좋다. 새로운 사전을 만들거나 개정할 수 있는 형편은 아니며, 가끔 영어권 사전이 번역되어 나오는 것도 신기할 지경이다.


모두 무료로 백과사전을 볼 수 있게 된 것 까지는 좋다. 하지만 돈을 벌지 못하는 상황에서 더 나아지는 백과사전을 어떻게 만들 것인가. 현재 백과사전 시장에서 돈을 만드는 것은 어린이백과류와 시사상식백과류 정도이다. 무거운 내용을 가진 백과사전은 팔리지 않는다. 이 시점에서 우리가 계속 백과사전이 갱신되는 것을 보고싶으면 사전을 공공재로 만들어야 한다. 사전은 기업의 후원이나 대학의 노력, 국가의 지원 등이 결합해서 계속 발전시켜야 하는 대상이 되었다. 사전 제작 비용이라는 것은 그 무엇보다도 우선하는 전제조건이다.


공공재라는 것을 우리가 인식시키려면 수없이 떠들어야 한다. 왜 사전이 더 좋아지지 않는가, 좋은 사전이란 무엇인가 등에 대해 신문이든 방송이든 웹이든 여기저기서 계속 발언을 해야 공공재가 될 수 있다. 정부도 국민에게 서비스하는 곳이기 때문에 칭찬을 듵기 위해서라도 국민들이 원하는 것을 가끔 하지 않는가. 사회적 책임을 묻고싶으면 그것의 중요성에 대해 꾸준히 언급하는 것이 필요하다. 특히 사전을 많이 쓰고 사전을 연구하는 학자들이 지속적으로 여론을 환기시킬 필요가 있다. 그래야 노교수들 은퇴한 뒤에 사전 집필이라도 하면서 소일하지 않겠는가. 이를 위해서는 사전에 글을 실어야 석학대접 해주는 문화 또한 만들어질 필요가 있다.


애석하게도 현실은 어떠한가 하면 백과사전은 그 컨텐츠 양에 비해 정말 읽히지 않는다. 예전에 백과사전을 질단위로 팔 때야 팔면 끝이었고, 그것이 책장에 있는지 책상에 펼쳐져있는지 알 길이 없었다. 허나 지금은 웹상에 로그가 남기 때문에 사람들이 얼마나 백과사전을 읽는지 정확하게 알 수 있다. 영어사전과의 비율로 보자면 10%밖에 되지 않는다. 통합검색에 노출되어서 한번씩 눌러지는 것들을 고려해서 빼면, 그리고 백과사전 페이지 내에서 머무는 시간을 재면, 정말 처참하게 읽히지 않는다고 봐도 좋을 것이다.


사전을 공공재로 만들려면 사전을 먼저 읽어야 한다. 읽고, 내용에 문제가 있다면 제안하고, 더 필요한 내용이 있다면 요구하고, 내용을 인용해야 한다. 우리가 가질 수 있는 사전은 우리의 수준에 따라갈 것이다. 일본과 독일의 사전의 양과 질에서 왜 압도적인가 하면 그들이 그런 사전을 원하기 때문이다. 일본 서점에 가서 사전코너를 보면 겁날 지경이다. 그들과 우리의 학문 수준 차이가 너무 느껴지니까. 일본어 몰라도 압도될 수 있으니까 기회 되면 서점에 한번 가보시면 좋겠다. 





Posted by zepelin
not music2013. 3. 9. 21:57

1 인터넷 이전의 백과사전


2012년에 브리태니커 영어판이 종이책 출간을 그만두겠다고 선언했다. 사실 그보다 몇년 전에 이미 브리태니커 한국어판은 종이책 출간이 정지된 상태였다. 예견된 일이었고 다들 조금 놀라는 척 하면서 당연하다는 듯 받아들이고 있다. 이 지점에서 우리시대의 백과사전은 어떤 의미를 가져야 할지에 대해 고민해보고자 이 글을 쓴다.


백과사전이란 무엇인지에 대해 한번 생각해보자. 백과사전의 기능은 궁금한 뭔가를 찾아보기 위한 것이다. 백과(百科)라는 말이 '세상의 모든 분야'라는 의미를 담고있다. 궁금한 점을 찾는 절대적인 참고처로 만들기 위해 백과사전은 검증된 지식을 객관적으로 기술하며 분야별로 공정하게 할애된 분량을 가진, 인간 지식의 총체적 요약이라는 성격을 가져왔다.


초기의 백과사전들은 요즘의 시사상식사전 같은 느낌이 있었다. 그것이 한가지 주제를 가질 수도 있고 여러가지를 포괄할 수도 있지만 주된 목적은 특정 분야의 도구 혹은 지적 유희의 대상 정도였다. 그러다가 서구에선 디드로의 백과전서가, 동양에선 사고전서가 획기적인 전기를 마련했는데 이 두 총서는 당대의 지식을 재정의하려는 목적에서 지식을 수집/재편집했다는 공통점을 가진다. 즉 지식 정리하는 행위 자체가 정치적인 것임을 의식하고 있었다. 백과전서는 혁명적이었고 사고전서는 보수적이었다는 점에서 그 엇갈림이 흥미진진하다. 이후 동양을 압도하는 서구문명의 힘은 이 지점에서 갈렸는지도 모르겠다.


이후 근대를 관통하면서 백과사전은 당대 지식의 총체이자 최고 권위자의 역할을 다했다. 백과사전에 수록되느냐 아니냐가 당대에 인정받은 지식의 기준이었다. 브리태니커 백과사전은 그 상징적 존재였고 전 세계 다른 백과사전의 귀감이 되었다.


전문용어사전은 백과가 아닌 일과(一科)에 특화된 백과사전이다. 전문용어사전은 개별 지식에 대한 설명이라는 면에서는 백과사전과 유사하며 해당 영역의 전문용어의 뜻풀이를 시도한다는 점에서 어학사전적인 면도 가지고 있다. 전문용어가 대중성을 얻으면 어학사전에 등재되는 일도 많이 있다. 하지만 기본적으로는 해당 항목을 설명하는 종류의 참고서적이며 전문용어사전이 여러개 모이면 백과사전이라 불러도 좋을 것이다.


백과사전이 근대 이후의 세계관을 반영한 책이라면 전문용어사전은 근대 이후의 실질적 문명 개화를 지탱한 책이라고 할 수 있다. 서구 학문의 기본은 해당 분야의 전문용어를 규정하는 것으로 시작했다. 동일한 용어를 동일한 의미로 사용하는 것이 혼선을 줄이는 최선의 길이었기 때문이다.


백과사전과 전문용어사전은 모두 책으로 출간되는 것이 기본이었으므로 판과 쇄라는 개념을 가지고 있었다. 수요가 늘면 쇄를 늘리고, 시간이 지나 고쳐야 할 시점이 되면 저자들이 모여 판을 고치는 방식이 그것이다. 하지만 책이라는 매체에서 인터넷이라는 매체로 변화하면서 이 두 사전은 변화를 겪어야 했다.


2 인터넷 이후의 백과사전


그러나 90년대 중반 이후 궁금한 뭔가를 찾는 대상이 백과사전에서 인터넷 검색으로 바뀌었다. 백과사전은 정보의 양과 실시간성에서 인터넷을 따라가지 못한다. 백과사전마저 인터넷에서 검색되는 환경에서 백과사전과 인터넷의 우위를 비교하는 것 자체가 무의미해졌다. 뭔가를 찾는 기능은 검색엔진에 완전히 패배했다.


전통적 백과사전은 위키백과라는 또다른 대항세력을 맞았다. 불특정 다수가 집필하는 방식의 위키백과는 소수의 훈련받은 전문가가 집필하는 전통적인 백과사전을 양과 질에서 압도하기 시작했다. 400만 항목에 육박하는 영어 위키백과는 10여만 항목의 브리태니커와 비교조차 할 수 없는 규모를 가지고 있다. 뭔가를 기술하는 기능에서도 전통적인 백과사전은 새로운 백과사전과의 경쟁에서 밀릴 수 밖에 없다.


전통적인 백과사전은 지금까지 그리 능동적으로 대응하지 못했다. 구글이 검색 성능을 끌어올리고 위키백과가 웹에서 만들어지기 시작한 이후 백과사전이 종이책 출간을 멈추고 웹상에서 기동성을 확보한다는 판단을 내리기까지 10년 이상 걸렸으니 너무 늦은 셈이다. 사실 종이책 출간을 멈춘 것 뿐이지 내부 집필진이 기동성에 최적화되어 움직이는지는 여전히 의문이다.


그럼에도 불구하고 한국의 전통적 백과사전은 꾸준히 개정중이다. 동서문화사에서 사운을 걸다시피해서 출간한 동서 파스칼백과사전은 2002년 이후 전혀 개정되지 않고있다. 2009년까지 야후코리아에서 서비스하다가 지금은 어디서도 내용을 찾아볼 수 없다. 두산 두피디아(구 엔싸이버, 동아대백과)의 경우는 두산그룹이 후원하고 또 네이버의 전폭적인 지원을 받아 꾸준히 새로운 항목이 추가되고 있다. 그리고 글로벌 기업인 브리태니커가 지속적으로 업데이트되어 다음에서 서비스중이다. 단지 이것이 얼마만큼 지속가능한 모델인가에 대해서는 회의적인 시각이 크다.


백과사전은 개인성보다는 사실의 집약적 편집물이기 때문에 공동편집이라는 방식이 유용하다. 기존 백과사전도 개별 필자에게 편집권이 있지 않고 백과사전 편집부에 편집권이 있었을 정도이다. 편집부에서 필자의 의지와 관계없이 내용을 수정할 필요가 있었기 때문이다. 그래서 위키위키라는 공동편집 방식에 기반을 서비스 중 가장 폭발적으로 성공한 서비스가 위키백과일 수 있었다.


한국어권에서 위키방식으로 만들어지는 대표적인 사전으로 위키백과와 엔하위키를 들 수 있다. 한국어 위키백과는 전세계적인 위키백과 프로젝트의 한국어판이고 엔하위키는 대중문화의 매니아들이 모여서 만드는 위키로 인터넷 문화와 일본만화 등 하위문화에 민감하다. 한국어 위키백과는 사전을 지향하고 엔하위키는 대중문화 소개페이지에 가까워서 양자는 거의 겹치지 않고 공존 중이다.


초기의 위키백과에 있었던 신뢰도의 의심은 시간이 지나서 많이 사라진 상태이다. 위키백과보다 엄밀하게 쓰여진 글도 별로 없다는 것이 서서히 증명되었기 때문이다. 엔하위키의 경우 엄밀함보다는 재미와 속도를 추구하기 때문에 여기서 신뢰도의 잣대를 들이대지는 않는다.


하지만 여전히 문제는 남는다. 영어 위키백과의 경우 미국, 캐나다, 영국, 호주 등 전 세계의 입장이 혼재된 상태여서 어떻게 중립적으로 기술할 것인가에 대한 논란이 한창이고, 전쟁과 같은 특정 분야에서는 객관적인 시각이나 역사학계의 관점보다는 군사문화 매니아들의 시각이 지배적이어서 형평성에 문제가 있다. 위키백과측도 이 문제를 잘 인지하고 있어 꾸준히 개선되고 있지만 참여자들이 워낙 다수이고 복잡도가 높아 개선에는 시간이 걸릴 전망이다.


위키방식의 백과사전은 현재 지속적으로 성장중이다. 영어 위키백과의 성장세가 이전에 비해 주춤하다고 하지만 브리태니커의 수십배에 이르는 항목수에 다수의 항목이 실시간 업데이트가 된다는 점에서 인터넷 상의 가장 압도적인 정보원이다. 중국어권은 중국 정부가 위키백과를 차단한 덕분에 위키백과 이외의 다른 위키방식의 사전들이 성장중이다. 한국의 엔하위키나 영어의 TV트롭스(tvtropes.org)등과 같은 위키방식의 상호 보완적 백과사전들이 꾸준히 생겨나고 있다.


인터넷 이후의 백과사전은 기존의 백과사전에 비해 용량제약이 사라졌기 때문에 무엇이 백과사전다운 항목인가라는 지식간의 투쟁 역시 약해졌다. 드라마 주인공에 대한 설명이어도 기술만 잘 되어있으면 남게 되는 곳이 위키백과다. 인터넷 이후의 백과사전이 가지는 의미라면 참조 항목의 양적 성장이다. 이전에 B급문화라 얘기되던 것도 그리스 철학과 같은 형식으로 기술될 수 있다. 권위보다는 정보 그 자체로 존중받는 전달매체가 바로 인터넷이고, 백과사전 역시 그 인터넷 민주주의 내에 들어있다.





Posted by zepelin
not music2013. 3. 9. 19:14

사전에서 기본적인 검색은 표제어를 찾는 것이다. 종이사전은 표제어 검색만을 위해 구성된 책이었을 정도로 표제어 검색은 기본이며 웹사전에서도 단일어 표제어 검색이 전체 검색의 90% 이상을 차지한다. 하지만 웹사전에서 검색할 수 있는 것들은 상당히 많다. 사전의 요소를 표제어, 뜻풀이, 예문 등으로 분할하여 개별 검색을 수행하기 때문이다. 웹사전에서 검색을 어디까지 수행할 수 있는가를 살펴보자.


* 두 단어 이상 검색


사전 검색 뿐 아니라 일반적인 검색을 할 때 두 단어 이상을 넣으면 훨씬 정교한 검색이 가능하다. have를 검색하면 얼마나 많은 예문과 뜻풀이가 나오겠는가. 그럴 때는 have lunch를 검색해야 좀 더 좁혀진 검색결과를 얻을 수 있는 것이다. 영어는 관용구와 구동사가 많으므로 두 단어 이상 검색하는 것은 필수적이다.


두 단어 이상으로 검색하면 숨어있는 뜻풀이를 발견할 수도 있다. '댄스 음악'이라는 검색어로 나온 결과중에는 dance music / Global Gathering / tecktonik  / The Oruro Carnival / a dance performed to music / silent disco 등 뜻풀이에 댄스와 음악이 동시에 들어가있는 영한사전 표제어가 다수 있다. 이것들이 댄스 음악과 직접일 수도 간접일 수도 있지만 어쨌든 관계를 가진 표제어들이다.


* 검색어의 검색범위 한정


언어의 특성에 맞춰 검색어를 다양하게 지정할 수 있다. 한국어를 예로 들면 사회로 시작하는 단어, 사회로 끝나는 단어, 사회가 포함된 단어, 사회로 시작하는 4음절 단어, 'ㄴ다'로 끝나는 모든 단어 등을 지정해서 검색할 수 있다. 영어라면 -ism으로 끝나는 단어. 모음으로 -au-가 포함된 단어 등을 한정지을 수 있다. 이 기능은 종이사전의 역순사전의 기능을 웹에서 소화하고 더 확대한 것이다.


또 영역을 지정할 수 있다. 예를들어 국민과 국어 사이의 모든 단어를 본다거나 하는 것이 가능하다. 이러한 기능들은 구현 자체가 어려운 것은 아니지만 검색할 때마다 서버에 무리를 주고 또 수요가 많은 기능이 아니므로 소수의 사전에서만 지원하고 있다. 표준국어대사전에서 강력하게 지원하고 있으며 네이버 사전에서도 일부 지원되고 있다. 


* 둘러보기의 기능 개선


웹사전이 종이사전에 비해 문제로 지적되던 것 중 대표적인 것은 전체를 한번에 조망하기 힘들다는 점이었다. 종이사전은 책이니까 주루륵 넘겨보거나 페이지당 정보 노출량이 많아서 한눈에 들어온다거나 하는 장점이 있었지만 웹사전은 한번에 한 표제어와 항목만을 볼 수 있었기 때문에 주변을 살펴보기에 적합하지 않았다.


그런 문제를 해소하기 위해 표제항을 다단계로 나누어서 배열할 수 있다. 한 페이지에 100개씩 항목을 배열하고 그 기준을 100개로 나누면 두 단계만에 1만 항목의 배열이 가능하다. 필터를 두되 다단계의 깊이를 최소화하고 주변의 항목을 보여주는 방식이다.


* 인지과학의 성과 도입


인지과학의 성과에 힘입어 여러가지 인간의 표현 방식을 인식해 그것을 컴퓨터로 입력받는 기술들이 나오고 있다. 이중 사전에 도입되는 것으로는 음성인식, 필기인식, 문자영상인식 등이 대표적이다.


필기인식은 사람의 필기체를 인식하는 방법인데 글자의 형식 뿐 아니라 글자 쓰는 순서, 특히 한자의 획순 등까지 정보로 받아들여 글자를 인식한다. 한자처럼 훈음을 모를 경우 검색이 힘든 문자에서 유용한 도구이다.


음성인식은 사람의 음성을 텍스트로 전사해주는 방법으로 손을 사용하기 어려운 환경에서 검색할 때 활용할 수 있다. 반대로 텍스트를 음성으로 합성해주는 TTS(text to speech) 기능도 있으며 이는 원어민 발음이 녹음되어있지 않을 때 문장 읽어주는 역할을 한다.


문자인식은 인쇄된 문자를 스마트폰의 카메라로 인식하여 바로 검색해주는 기능이다. 역시 한자와 같은 표음문자가 아닌 문자 검색에 유용하지만 로마자나 한글 등도 신속하게 여러 단어를 검색할 때는 손으로 입력하는 경우보다 더 빠르고 편리할 때가 있다.


이러한 형태의 입력은 신기하고 종종 편리하지만 손으로 검색어를 직접 입력하는 것에 비해 전반적으로 그리 효율적이진 않다. 부차적인 기능이므로 필요한 만큼만 활용하는 것이 좋다.


* 한자 파자 검색


한자는 표의문자라 하여 보통 글자 자체를 외워 학습해야 한다는 믿음이 많았다. 하지만 이미 설문해자 시대 이후로 부수법을 사용하고 강희자전의 부수체계도 한자는 개별 글자의 조합으로 이루어졌다는 개념을 이미 담고있다. 


그런 개념을 통해 한자는 개별 부수의 조합이라는 관점과 해당 부수의 위치를 고려하여 다중부수법(multi radical)을 얘기하는 학자들이 늘고 있으며 그러한 개념을 웹상에서 구현하였다. 이 경우 한자의 부수를 정확하게 몰라도 모양을 찾으면 해당 모양이 들어간 한자가 필터링되어 제시된다.





Posted by zepelin
not music2013. 3. 4. 00:39

인터넷은 많은 것을 바꾸었고 사전도 바꾸었다. 사전에 인터넷이 접목되면서 변화한 것으로는 접근방법이 둘러보기에서 검색하기로 바뀐 것, 용량 제약이 없어진 것, 실시간 갱신이 가능한 것 이 세가지가 크지만 그 외에도 많다. 위키백과처럼 사용자들이 참여하여 집단지성으로 만들어나가는 사전이 되었다거나, 자소별 검색, 역순 검색 등 다양한 검색 기능이 적용된 사전이 되었다거나 등이 그러하다. 여기서는 2012년 현재 웹으로 접근 가능하면서 독특한 장점을 가진 사전을 하나씩 소개해보려고 한다. 주로 영어사전과 한국어사전 등 사용자가 많은 사전을 먼저 소개하겠다.


* 종이사전 내용을 최적화


한국의 포탈 웹사전으로는 네이버와 다음의 웹사전이 대표적이다. 두 사전은 기능상으로 대동소이하다. 종이사전을 온라인으로 옮긴 기본 바탕에 다양한 예문을 확보해서 추가적으로 보여준다는 점에서 차이가 없다. 네이버 사전의 강점은 방대한 사전 종수이다. 영한사전만도 4개 혹은 그 이상을 제공하지만 터키어 베트남어까지 제2외국어를 다수 지원한다. 네이버 재팬에서는 일영사전, 일한사전을 제공하기 때문에 다른 관점의 사전도 볼 수 있다. 일한사전은 네이버 닷컴이 더 상세하지만 한일사전은 네이버 재팬쪽이 더 상세하다. 일본인 한국어 학습자를 위한 사전이기 때문이다. http://dic.naver.com/ 


* 예문 재정렬


다음 웹사전은 사전 본문을 네이버와 다르게 사용한다. 특히 고려대 한국어 대사전(2009)을 볼 수 있는 웹서비스는 다음 뿐이다. 사전의 내용을 참고할 때는 양자를 함께 활용하는 것이 좋다. 다음 영한사전의 특이한 점은 예문을 번역어로 재정렬해서 보여주기 때문에 예문을 묶어보기 좋다는 것이다. answer의 경우 ① 답하다 402건 ② 대답 399건 ③ 해답 159건 ④ 전화를 받다 126건 ⑤ 응답하다 62건이다. 명사중에서는 대답이 해답보다 두배이상 많이 쓰였고 동사에서는 답하다 다음으로 전화받다로 쓰인다는 것을 직관적으로 알려준다. 이것은 말뭉치언어학에서 말하는 예문 병렬말뭉치(parallel corpus)를 사용한 것이다. 종이사전에 의존하지 않는다는 점에서 주목할만한 접근이다. http://dic.daum.net


* 학습서 내용 재배열


영한사전류 중에서 특이한 것으로 '영어학습사전'이 있다. 이 사전은 아주 단순한 구조를 가진다. 뜻풀이든 예문이든 어휘 설명이든 꽤 작은 단위가 두서없이 들어있는 데이터베이스를 해당 표제어로 검색해 보여주는 것이다. 즉 영어학습 검색이지 사전처럼 정리된 내용이 아니다. 대신 예문이나 회화나 문법설명 등이 쏟아지기 때문에 사용자가 적당히 선택해서 읽으면 정보를 많이 얻을 수 있다. 즉 정형화된 사전이 아니라서 사용자에게 신선한 내용을 읽을 수 있게 한다.


이 사전은 외부의 다양한 영어 컨텐츠를 이용해 만들어지기 때문에 저작권에서 자유롭지 않다. 책에만 있고 웹에는 없는 자료들도 다수 존재한다. 그렇기 때문에 기존의 정형화된 사전과는 다른 내용을 보여줄 수 있기도 하다. 허나 98년 이후 십년 이상 서비스 중이고, 저작권 침해를 목적으로 했다기 보다는 인용의 수준으로 볼 수 있는 것들이 많아서 큰 문제가 되지는 않고 있는 것으로 보인다. 영한-한영 사전의 성공에 힘입어 제작자는 중국어와 일본어도 유사한 방식으로 서비스를 개발하였다. http://dic.impact.pe.kr/ 


* 스마트폰과 패드 앱


스마트폰의 사전은 설치형 앱이 대세를 이룬다. 설치형 앱은 사전 데이터 전체를 스마트폰에 설치하고 인터넷 없이 사전을 볼 수 있는 형태이므로 여기선 논외로 하자. 스마트폰 앱 중에는 사전 내용을 보여주기 보다는 단어암기와 학습 기능을 가진 경우가 다수이다.


모바일 웹으로 사전을 제공하는 포탈은 네이버와 다음이 대표적인데, 이중 스마트폰 앱을 제공하는 업체는 다음 뿐이다. 네이버와 다음의 모바일 웹을 활용해 서비스를 만드는 경우는 다수 있다. 영어 한방검색이 대표적이다.


* 단순한 내용을 신속하게 제공


신속함을 강조한 웹사전으로 블루딕을 들 수 있다. 블루딕은 사전이라기보다는 단어장에 가까운 내용을 보여주되 최대한 빨리, 복합어와 합성어/파생어 등을 함께 보여주는 점을 강조하는 서비스이다. 많은 사람들이 단순 대역어만 보면 되는 정도의 요구를 가지고 있어 만들어질 수 있는 사전들이다. 해외에는 닌자워즈가 있다. http://www.bluedic.com http://ninjawords.com/ 


웹사전은 아니지만 인터넷 사전 중에서 독특한 것으로 다음 꼬마사전이 있다. 단순 대역어만 보여주면 만족하는 사람들을 위한 도구로, 웹 브라우저 상이나 워드프로세서, pdf 문서 뷰어 등등에서 마우스 커서만 대면 해당 어휘나 구의 뜻을 툴팁 형태로 짧게 보여주는 것이다. 문서 읽기와 번역에 최적화된 방식이다. 해외에서는 주로 웹 브라우저의 플러그인이나 툴바 형태로 서비스 되고 있다. 꼬마사전처럼 브라우저 이외의 프로그램을 지원하는 서비스는 해외에서도 드물다. 영어, 중국어, 일본어까지 지원한다. http://dic.daum.net/html/download.htm 


* 색다른 내용을 제공


사용자가 참여한 사전들 중에서 독특한 위치를 점한 사전이 있다. 국내에서는 네이버의 오픈국어사전이 있고 해외에는 어번딕셔너리 등이 대표적이다. 이 사전들은 사용자들이 신조어에 대해 정리해서 올리는 방식을 취하고 있으며 사전다운 엄밀한 형식을 취하진 않는다. 오픈국어사전은 중복된 내용들을 허용하는 구조이고 어번딕셔너리는 동일 철자를 가진 항목들을 사용자들의 투표 순서로 정렬하여 보여준다. http://kin.naver.com/openkr/list.nhn http://www.urbandictionary.com


사용자가 참여한다는 점은 같지만 위키백과와 위키낱말사전은 조금 다른 양태를 보인다. 서로 편집하고 당하는는 위키형태이기 때문에 내용은 개인성이 적고 건조한 편이다. 특히 위키낱말사전은 형식에 언어학적 엄밀성도 포함되어 있어 개인이 참여하기는 쉽지 않은 편이다. 한국어 위키낱말사전은 소수의 편집자만이 편집에 개입하여 내용이 조금 편향된 느낌도 있다. http://ko.wiktionary.org





Posted by zepelin
not music2013. 3. 3. 16:05


앞서 정보를 찾는 방법으로 검색과 둘러보기를 언급했다. 검색에도 두가지 방법이 있다. 순차적 접근(sequential access)과 비순차적 접근(random access)이 그것이다. 당신이 어느날 책을 한권 다 읽었는데 거기서 뭔가 좋다고 밑줄을 그어놓았지만 어디에 그엇는지 전혀 모르겠다고 해보자. 어디 근처였는지도 기억나지 않는다면 첫페이지부터 눈으로 훑는 수 밖에 없다. 사전은 책이라는 순차적인 매체를 비순차적으로 접근하기 위해 내용을 구분하고 정렬한 책이다. 그래서 찾는 단어가 있으면 해당 단어를 가나다순으로 찾아서 펴볼 수 있다. 종이사전을 많이 쓰는 사람은 두세번만 펴도 찾는 단어를 금방 찾을 수 있었다. 고등학교때 친구들과 누가 가장 적게 펴서 원하는 단어를 찾는지, 누가 사전을 더 빨리 찾는지 내기를 했던 기억이 난다.


효과적인 검색을 위해서는 찾고자 하는 대상을 정렬해두는 것이 필수적이다. 비순차적 접근을 위해 해당 단어가 어디에 있는지 위치를 기록하는 것이 색인(index)이고 색인을 조합해 원하는 내용이 있는 위치로 찾아가는 것이 검색(search)이다. 단행본 뒤에 보면 핵심어들이 어떤 페이지에 있었는지를 정리해둔 찾아보기가 있다. 이것이 초보적인 검색엔진의 방식이다. 검색엔진은 이 찾아보기를 거대하고 빠르게 만든 것이다.


사전은 가나다순 말고도 찾는 방법을 다양하게 구성해두었다. 분류사전, 역순사전, 운율사전, 유의어사전 등이 그것이다. 분류사전은 갈래사전이라고도 하는데 어휘를 관련있는 것끼리 인접해서 보여주는 방식이다. 사과 옆에 배가 있고, 아버지 옆에 삼촌, 이모 등이 있는 식이다. 이렇게 같은 분류로 놓을 수 있는 어휘들을 통틀어 어휘장이라고 하는데 어휘장은 어휘를 종합적으로 이해하게 만들어준다.


역순사전은 단어의 끝을 기준으로 가다다 정렬을 시도한 것이다. 예를들어 ~주의로 끝나는 단어를 찾고싶을 경우 역순사전을 찾으면 민주주의, 사회주의, 공산주의, 사민주의 순으로 나온다. 취급주의라는 단어가 있다면 사민주의의 뒤에 있을 것이다. 받침의 ㄴ(민)보다 받침의 ㄷ(급)이 나중 순서이기 때문이다. 역순사전은 분류사전처럼 어휘의 유형분류와 유사성 파악에 도움을 준다.


운율사전은 시를 지을 때 사용할 수 있는 운율에 맞춰 단어를 배열한 것이다. 대표적인 것이 한시짓는 것이 중요했던 조선시대 이전의 운서들이다. 예를들어 칠언 율시의 경우 12468구의 마지막 글자에 각운이 들어간다. 이 각운은 당나라때의 한자음을 기준으로 하기 때문에 현대 중국한자음과는 큰 차이가 있으며 현대 한국한자음과도 차이가 있다. 현대 한국한자음은 중국한자음보다 당나라때 음에 가깝기 때문에 한시짓는데 더 쉽다고도 하지만 東과 같은 운에 속하는 글자에 公, 功, 紅, 夢, 逢 등이 있다는 것을 명확하게 알기는 어렵다. 이럴 때 같은 각운을 가진 한자가 모여있는 운서를 살펴본다면 자신이 쓸 수 있는 한자들의 목록을 볼 수 있어 더 좋은 시상이 떠오를 수도 있는 것이다.


유의어사전은 해당 어휘의 유의어, 반의어, 상위어 등의 관계어휘들을 모아둔 것이다. 분류사전과도 비슷한 느낌이 있지만 분류사전에 비해 체계적이고 분류사전처럼 어휘장을 방대하게 다루기 보다는 범위를 좀 더 명확하게 한정짓는다. 아버지 옆에는 반대말로 어머니가 있고 유의어로 부친, 아빠 등이 나온다. 삼촌이나 이모는 나오지 않는다.


이렇듯 정보를 어떻게 분류하느냐에 따라 찾는 방법이 달라지게 된다. 분류 대상의 속성을 잘 파악하는 것이 우선인거다. 도서관의 서가분류방식인 십진분류는 책을 내용에 따라 다단계로 분류한다. 하지만 개인 상황에 따라 책을 크기별로, 제목 가나다 순으로, 발행년도 순으로 등 도서관과는 다른 분류기준을 잡을 수도 있는 것이다. 자신의 목적에 가장 들어맞는 방식으로 기준을 세우면 된다.


검색엔진은 위의 사전들에서 소개한 여러가지 분류방법을 다 소화할 수 있다. 색인의 기준을 무엇으로 삼는가가 핵심이다. 다시 말하면 사전은 검색엔진의 원형이라고도 볼 수 있다. 사전도 검색엔진도 정보의 위치를 알려주는 기능을 하고 있기 때문이다. 뒤집어 생각하면 검색을 잘 하기 위해 우리는 사전을 연구하고 고민해봐야 한다는 것이다. 사전은 검색과 다른 것이 아니다.


정보 분류의 좋은 사례로 네이버가 주도한 한국식의 통합검색을 들 수 있다. 구글은 웹상의 문서를 한가지 기준으로 정렬하기 때문에 검색결과 또한 한가지로 나오는 것이 기본이다. 여기서 문서의 출처에 따라 그것만 걸러서 볼 수도 있지만 그것은 부차적인 동작이다. 반면에 통합검색은 블로그, 뉴스, 사전, 카페 등의 글 중에서 가장 좋은 것들을 위에 꺼내고 개별 노출 영역을 바꿔서 보여준다. 최근에 벌어진 사건에 대한 검색이라면 뉴스가 사전보다 먼저 나오겠지만 학술용어에 대한 검색이라면 사전이 먼저 나오는 식이다. 즉 영역별로 상위문서를 뽑고 또 어휘별로 영역의 위치를 재배열하는 방식이다. 무엇이 더 좋은지를 단언할 수는 없지만 한국식 통합검색은 구글이나 다른 외산 검색엔진의 국내 진출을 막아내고 있다. 대다수의 한국인들은 구글보다 네이버, 다음의 검색 서비스를 더 편안하게 여기는 것이다. 검색 기술로는 부족하겠지만 검색 서비스를 더 편안하게 유지한다는 것은 정보를 어떻게 묶어서 보여주는가가 정보 찾기에 큰 영향을 준다는 걸 반증한다.






Posted by zepelin
not music2013. 3. 3. 14:24

대중에게 인터넷의 시작은 검색(search)이 아니라 둘러보기(browse)였다. 95년도던가 친구가 웹브라우저 사용법을 알려주던 것이 생각난다. 자 웹브라우저를 실행시켜. 그리고 yahoo.com이라고 입력해봐. 그 다음 분류된 사이트 목록을 살펴서 원하는 사이트로 가면 되는거야. 당시 야후는 수많은 사이트를 정리해서 계통적인 분류를 했다. 도서관의 십진분류체계와 유사하게 다단계 나무구조로 분류했던 것이다. 유사한 한국어 포탈들도 동일한 전략을 취했다. 당시 서퍼(surfer)라는 직군이 있었는데 이 서퍼들은 하루종일 웹서핑을 하면서 새로운 사이트를 찾아 정리하곤 했다. 다른 예를 들자면 둘러보기 방식은 도서관의 서가 분류나 개인 컴퓨터의 폴더 분류 방식이다.


어느날 구글이 모든 것을 바꾸었다. 책이나 도서관의 색인 개념을 확대해서 문서에서 원하는 어휘를 찾아주는 검색기능을 제공하는 회사는 여럿 있었지만, 그 안에서 페이지랭크(pagerank, 문서 피인용도)를 이용한 검색을 내놓은 회사는 구글이었고, 해당 기술로 검색엔진의 수준을 확 끌어올렸다. 검색기능이 좋아질수록 기존 야후방식의 웹서핑을 사용하는 사람들은 줄어갔다.


사람들이 금방 느끼진 못했지만 웹검색을 하면서 사람들은 사전 사용량 자체를 줄여나가기 시작했다. 사전 사용도 가나다 순으로 된 책을 순차적으로 찾아나가는 검색행위인데 웹에서 검색하는 일이 많아지면서 사전 사용량 자체가 줄어든 것이다. 백과사전의 내용은 블로그나 게시판 내용들과 경쟁해야 했으며 어학사전에서 볼 수 있는 뜻풀이와 용례마저도 웹검색하면 상당히 발견할 수 있었다. 웹사전도 웹검색으로 찾을 수 있었을 뿐 아니라 사전검색으로 알 수 없는 내용들까지 웹검색에선 우연히 찾아낼 수 있으니 굳이 책사전이나 웹사전을 고수할 필요가 없다. 즉 기존 백과사전이나 어학사전의 경쟁자는 위키백과나 다른 사전류가 아니라 검색 그 자체라 할 수 있다.


그 결과 웹과 검색엔진이 폭발적으로 성장하는 것에 비례하여 전통적인 방식으로 사전을 편찬, 생산하는 분야는 지속적으로 줄어갔다. 우리가 기억하는 사전 이름인 민중서림, 두산동아, 시사영어사, 금성출판사 등은 제각기 인력을 최소한으로 유지하거나 편찬팀을 없앴다. 영어사전의 경우 국내 편찬을 포기하고 옥스포드, 롱맨, 콜린스 등의 학습자 사전을 한국어로 번역하는 방식으로 바뀌는 중이며 일본어사전도 최고의 권위를 자랑하는 일본어 사전인 코지엔이 한국어로 번역되었다. 이는 영어권도 예외가 아니어서 브리태니커 영문판이 2012년 이후 더이상 종이책을 생산하지 않겠다고 한 것이 상징적이고, 맥밀란 영어사전도 2012년에 종이사전 생산 중지를 선언했다.


최근 20여년간 사전은 꾸준히 축소의 길을 걸어왔다. CD롬, 전자사전, 웹 등으로 매체는 바뀌었고, 다양해진 매체를 통해 이전에 비해 이용자들에게는 더 쉽게 전달되었다. 여기까지는 기술적인 진보로 봐도 좋다. 하지만 사전의 생산구조는 전혀 달라지지 않았고 이제는 수익성 악화로 생산 기반 자체가 전면적으로 무너지는 중이다. 이 지점에서 사전은 그냥 멈춰있어도 좋다면 별 문제가 없지만 앞으로 사전 내용이 늘지 않아도 상관없는 것은 아니잖은가. 문제 인식의 시작은 여기부터이다. 웹과 검색으로 대체된 부분이 이전보다 더 나아졌으면 그것은 혜택으로 누리면 되고, 이전에 비해 부족한 부분이 있다면 개선해야 한다. 어떤 지점이 이전에 비해 부족한지 물어야 하는 시간인 것이다.





Posted by zepelin
not music2013. 3. 3. 12:41

하고싶은 얘기를 적지않으면 재미도 없으니까 손가는대로 적어본다. 그런대로 읽을만한 구석이 있다 생각하지만, 사적인 내용 별로 보고싶지 않다 싶으면 안봐도 상관없는 내용들이다.


다들 어려서부터 뭔가 취미를 강요받아왔다. 취미가 뭔가요라는 질문에 당당하게 TV시청이요 없어요라고 말할 사람은 거의 없고 다들 독서요 음악듣기요 이정도의 얘기로 얼렁뚱땅 넘어가게 된다. 초등학교때 방학숙제로 탐구발표라는게 있었다. 주제를 하나 정해서 열심히 살펴본 다음 수업시간에 공유하고 보고서를 작성하는, 초등학생에겐 꽤나 버거운 내용이었다. 그때 내가 정한 주제가 국보1호부터 50호까지 정리하기였다. 번호가 있으니까 순서가 정해진 느낌이 있었고, 조사 범위도 대략 한정적이어서 할만하다고 생각했다. 어쨌든 당시 국보랑 친해둔 덕에 경천사지 십층석탑이라거나 고달사지 부도 따위의 이름도 잘 기억할 수 있었고 이후 조선 역사에도 친근감을 가지게 되었으며 이후 문화재청과 함께 일할 기회가 생겼는지도 모른다. 여튼 일단 시작은 그런거였다.


그 외에 내가 좋아했던건 모두 뭔가 모으는 것이었다. 메모지를 모았고, 지우개를 모았고, 딱지를 모았고, 게임용 카드를 모았고 그랬다. 따먹기도 하고 애들이랑 교환도 하고 그러면서 차곡차곡 모아갔던 것 같다. 뭔가를 모으다보면 정리를 해야만 한다. 정리하지 않으면 감당이 안되지만 정리하면 아름다움마저 느껴졌다. 정리하는 기준은 내맘대로였다. 모양, 색깔, 디자인, 크기... 그렇게 정리해서 상자에 담아두면 '보기에 좋았다'. 그 과정에서 배우는게 있었다. 예를들어 게임용 카드는 대부분 규칙이 비슷했는데 나중에 알고보니 모두 고스톱 규칙이고 디자인만 다른거였다는거. 금메달을 다섯개 받으면 오광이 된다라거나 뭐 그런 식이었다. 지우개는 어떤 지우개가 잘 지워지는지, 어떤 지우개가 빨리 닳는지 등의 특성을 파악할 수 있었다. 뭔가 잉여적인 지식이지만 한가지를 많이 하다보니 쌓이는 자연스러운 지식이었다.


자연스럽게 우표로 이어졌다. 우표는 수집 대상으로 거의 완벽에 가까운 맛을 가지고 있다. 국가별, 도안별, 년도별, 이슈별로 분류방법이 워낙에 다양했다. 초일봉피, 소형시트 등의 특별한 수집물도 있었으며, 우표 발행일에 맞춰 우체국에 가서 우표를 사는 재미가 또 쏠쏠했다. 한 2-3년 신나게 모았다. 새 우표를 사기도 하고, 봉투에 붙어있는 우표를 물에 불려 떼기도 했다. 우표도록을 사서 한국 우표의 역사를 살펴보곤 했었는데 우표의 거래금액을 보면서 무엇이 그 우표의 가격을 결정했을까를 궁금해하고 귀한 우표에 대한 소유욕도 생겼었다. 가장 좋았던건 우표 디자인을 통해 한국 현대사에 관심을 가지게 되었다는 거다. 이승만의 1-3대 대통령 취임우표를 보면서 이상한 느낌이 들었고 그건 박정희도 마찬가지였다. 그리고 전두환의 해외순방 우표는 너무 많아서 얼굴이 혐오스럽게 보일 지경이었다. 민족기록화 우표나 각종 국제회의 기념우표등에는 해당 우표가 발행될 시절의 분위기를 한껏 담겨있었다. 지금도 우표를 좋아하고 우표가게를 지나가면 전시된 우표를 유심히 보곤 한다. 아이들에게 권할만한 취미다.


고등학생때부터 음악을 듣기 시작했다. 공부하면서 뭔가 방출할 곳이 필요했고, 그건 팝과 메탈을 거쳐 6-70년대 록에서 멎었다. 돈이 있으면 있는대로 없으면 없는대로 음반을 모았다. 음반, 특히 LP의 재킷은 하나의 미술품과 같아 모으고 구경하는 재미가 쏠쏠했다. 음악보다도 음반이 가진 종합예술적 특성에 끌린 나는 재킷에 특히 신경쓴 프로그레시브 록이라는 장르를 좋아했다. 음반 재킷은 장르별, 시대적 특성을 고스란히 담고있어 나중에는 발매 년도, 악기, 재킷 스타일만 보고도 앨범을 구매할 정도까지 되었다. 역시 앨범도 많아지면서 분류가 필요해졌고 주제별 분류로 갈 것인가 아니면 가나다 순으로 정리할 것인가 등의 문제를 고민하게 되었다. 그리고 외국어를 한글로 표기하는 것, 한국어를 로마자로 표기하는 것에도 관심을 가졌다. 대학교때 가요 명반을 영어로 소개하는 홈페이지를 하나 운영하면서 가졌던 고민이다. 다양한 문자표기와 언어에 대해 관심가지게 된 것은 모두 유럽 각국의 음반을 모으기 시작한 덕이다. 이때부터 15년이 지난 지금도 내가 가장 많은 시간을 들이는 취미는 록음악 감상이다. 취미로서의 수집은 음악듣기에서 정착한거다.


음악들으면서 친구들(주로 형들)을 만난 곳은 하이텔의 언더그라운드 뮤직 동호회였다. 여기서 형들은 자신들의 음악 지식을 마음껏 뿜어댔고 나는 그들의 떡밥을 덥석덥석 물어가며 앨범을 사모았다. 그때 하이텔이 문을 닫는다 했다. 문을 닫으면 당시 쌓여있던 수많은 프로그레시브 록 관련 글들은 어디로 가나. 그것이 사라지는게 나는 싫었다. 그래서 며칠 날잡고 게시판 전체를 캡쳐했다. 그렇게 모은 게시물은 밴드별로 정리해서 홈페이지에 올렸고, 지금도 볼 수 있다. 당시 내 관심사는 축적(아카이빙)이었던 것 같다. 조선왕조실록같은 기록물이 있는데 왜 중요한 것들을 축적하지 못할까. 내가 있는 공간에서도 축적이 안되는 것을 보고싶지 않았다. 


그렇게 축적한 것이 의미있는 형태로 되려면 정리가 필요하다. 데이터베이스가 되어야 접근이 가능한 것이다. 그래서 나는 혼자서 데이터베이스를 고민했다. 제목을 어떤 기준으로 적을 것인가, 앨범명이 어떻게 년도별로 나오게 할 것인가, 검색은 어떻게 할 것인가. 그러다가 나는 제로보드라는 웹게시판을 선택했고 그것을 음반 DB에 맞게 고친 버전을 찾아 적용시켰다. 하지만 계속 부족함을 느꼈다. 내가 프로그래머가 아니라 한계가 있었다. 프로그래머였다 하더라도 혼자서는 좀 버거웠을 것이다. 그러다가 위키위키라는 솔루션을 만났고 지금은 그 위키서비스에 기사들을 넣어둔 상태이다. 위키백과를 이루고 있는 바로 그 위키위키 시스템 맞다. 위키위키도 혼자서 작업하기 버거운 것은 마찬가지였지만, 적어도 언제든 손대서 고쳐나갈 수 있는 환경까지는 만들어볼 수 있었다. 음악 데이터베이스를 고민하는 시간은 내가 축적과 정리라는 두가지 주제를 무척이나 좋아한다는 사실을 새삼 깨닫게 했다.


직장생활 초년병 시절에 나는 메신저(네이트온이나 카카오톡 같은)와 무선인터넷을 기획하던 초보기획자였다. 하지만 뭔가 불편했다. 내가 이걸 하고싶은거 맞나 하는 생각이 자꾸 들었다. 그러다가 내가 읽은 책들에 대해 되돌아보니 주로 역사책과 언어(번역)에 관한 책을 읽고있다는걸 새삼 깨닫게 된 거다. 어떻게든 하고싶은 것을 해보자라고 여러가지 생각을 해봤다. 음악 DB를 만드는 것은 재미있어보이지만 나보다 더 잘할 사람이 많아 보였다. 역사와 인터넷을 조합하기는 쉽지 않아 보였고. 그래서 고른게 언어와 인터넷의 결합인, 검색과 사전만들기다. 인터넷 사전을 쓰면서 불편해하던게 한두개가 아니었고, 뭔가 지식iN으로는 안되는 지식의 축적형태를 만들고 싶었다. 그래서 나름대로 경쟁시스템을 도입한 사전서비스의 기획안을 작성해서 무작정 네이버를 찾아갔다. 그래서 일하게 된게 사전이고 어느새 사전서비스를 십년간이나 만들고 있다. 수집-정리의 최후 단계인 언어/어휘 수집으로 들어온 셈이다. 


결국 내가 사전과 데이터베이스에 계속 관심가지고 작업하는 이유는 정보에 편하게 접근하고싶기 때문이다. 그렇지 못한 것을 보면 화가나고 급기야 고쳐대기 시작한다. 직업과 적성이 그런대로 맞은 모양이다. 내가 하고싶은 것을 더 손대고 싶긴 하지만 직장인이라 맘대로 안되는게 아쉬울 뿐이다. 개인적으로는 좀 더 근본적인 학술 데이터베이스를 만들고 싶다.


이쯤에서 끝냈어도 좋았겠지만 뭔가 나를 포장하려한 혐의가 든다. 사실 나는 분류와 정리에 대한 강박, 집착이 있다. 난 이 강박에서 벗어나고 싶지 않다는 것이 문제다. 이 강박은 현재 나를 움직이고 있는 추동력이다. 내가 이렇게 가치를 부여하고 있는 분류에서 의미를 잃는다면 한동안 내 삶은 휘청할거다. 영화 '사랑도 리콜이 되나요'(High Fidelity, 2000)를 보면 여자친구와 헤어졌다며 음반을 정리하는 주인공이 나온다. 알파벳순으로 했다가, 장르별로 했다가, 구매시간순으로 했다가 이런 식이다. 그는 상실감을 벗어나보려 이런 행동을 한다. 그건 종종 아무것도 하지 않은 것과 같을 수도 있다. 정리가 더 엉망이 될 수도 있고. 그는 정리를 '하고 싶'은 상태인거다. 게다가 이 정리라는게 끝이 없다. 방금 예로 든 음반 정리도 새로 산 음반이 늘어나면 이것을 어디에 꼽을 것인가라는 문제가 발생한다. C로 시작하는 음반이 많아지만 C이하 뒤쪽을 전부 뒤로 밀어야 하는 일이 생기는거다. 시지푸스가 돌덩이를 끝없이 언덕위로 굴려올려야 하는, 그런 종류의 일이다. 데이터를 정리한다는건 그걸 다 알면서도 끝없이 하는 그런 일이다. 종종 허무한데 이 허무감을 어떻게 극복하면서 지속가능한 데이터베이스를 만들 수 있는가. 이게 내 상태인 것 같다. 웹사전 만들기는 내 이런 강박의 표현이다.


사실 이런 강박이 개별적으로 발현되었을 때는 반딧불 정도가 아닐까 싶다. 깜깜한 밤에 나름대로 깜찍한 재미를 선사하지만 문제는 그것이 어둠을 밝힐 정도는 못된다는 말이다. 반딧불이 백마리 만마리가 모여 엉덩이를 맞대야 주변이라도 밝힐 수 있다. 이걸 말만들기 좋아하는 사람들은 집단지성이라 부른다. 위키백과는 이 엉덩이 맞대는 방식 중에서 가장 성공한 것이고. 어떻게 하면 내 강박이 남의 강박과 잘 결합해서 의미있는 것으로 만들 수 있을까. 어쩌면 의미있는 것을 만들어야 한다는 마음상태가 바로 강박일 수도 있겠지만. 기왕이면 내가 한거 남은 또 반복해서 안하면 좋겠다, 이정도의 소박한 마음으로 봐도 좋겠다. 이정도의 마음을 가지고 오늘도 사전을 편집한다.





Posted by zepelin
not music2013. 3. 3. 12:17

10년간 웹사전을 만들면서 뭔가 그 경험을 공유하고 싶어졌다. 인터넷 환경이 변화하면서 사전도 많이 바뀌게 되었는데 그 한가운데서 경험한 사람인만큼 기록할 필요가 있다고 느꼈다.


# 사전을 왜 좋아하게 되었을까[L]

# 사전의 역사를 훑어보자 : [위키백과]

# 사전과 검색 1) 종이사전의 적은 검색엔진[L]

# 사전과 검색 2) 정보를 분류하는 방법[L]

# 사전과 검색 3) 검색엔진의 짧은 역사

# 사전이 만들어지는 방식

# 웹사전의 분석과 활용 1) 종이사전과 다른 내용[L]

# 웹사전의 분석과 활용 2) 검색방식의 다양화[L]

# 웹사전의 분석과 활용 3) 웹사전에서 사용중인 기술 설명

# 사전의 존재 의미 1) 한국어사전[L]

# 사전의 존재 의미 2) 외국어사전[L]

# 사전의 존재 의미 3) 백과사전[L]

# 사전은 공공재가 되어야 한다[L] 

## 사전은 어쩌다 공공재가 되었는가

# 무슨 사전을 만들고 싶은걸까[L]



Posted by zepelin