not music2013. 3. 17. 22:35

사전이 어떤 식으로 흘러갈지 나는 잘 모르겠다. 내 생각에는 검색과 인터넷이 이미 사전이기 때문에 그쪽의 미래를 고려하는게 더 현실적일듯 싶다. 어차피 사전은 표제어와 표제항만 있으면 다 사전이다. 블로그도 사전이고 카페도 사전이고 DB는 다 사전이다. 나는 세상 모든 DB를 사전으로 본다. 이럴땐 질문을 바꾸는 것이 좋다. 내가 만들고 싶은 사전이 뭘까 정도로.


사실 사전은 돈이 많이 드는 작업이다. 인건비, 서비스 개발비, 데이터 가공비 등 모든게 다 돈이다. 따라서 돈의 형편에 맞춰서 사전 만드는 방법론은 달라지게 된다. 언어학의 다른 분야에 비해 사전학 부분은 예산을 어떻게 확보하고 그것에 맞춰 어떤 사전을 만드는가가 중요하다. 양혜왕이 맹자를 만나 '기왕 오셨으니 우리 나라에 어떤 도움을 주실 수 있겠습니까.' 하고 말을 꺼내자 맹자는 곧바로 '당신은 보자마자 돈 얘기를 하는가!'(何必曰利)라고 했지만, 사전은 돈 얘기부터 시작해야 한다.


1 한국어사전 / 예산 무제한


이 경우 나는 한국어 역사 말뭉치를 만들고 싶다. 15세기 한국어 문헌, 16세기 한국어 문헌 ... 1920년대, ... 2010년대 등으로 나누어서 말뭉치를 만드는 것이다. 만들게 되면 아마 조선시대까지의 문헌은 전체를, 이후 문헌은 균형성을 고려하여 입력을 하게 될 것이다.


역사 말뭉치가 있으면 해당 표현의 최초출현형이 어떠했으며 이후 어떤 식으로 변해갔는지 추적이 가능해진다. 우리말 본래의 의미를 실증적 자료와 함께 살펴볼 수 있는 것이다. 기존 학계가 이러한 역사적 접근을 안해왔던 것은 아니지만 항상 일부의 자료를 활용해 중세한국어 연구자들에 의존한 기술 이상의 것을 하긴 어려웠다. 뭔가 완결된 형태로 사전 작업을 하려면 그 원천자료인 말뭉치를 치밀하게 확보하는 것이 필수적이다.


마찬가지 이유로 한문 말뭉치와 한문 형태분석기를 만들고 싶다는 소망도 있다. 한문을 전산언어학적 방법론으로 해석했을 때 어디까지 자동으로 어디부터 수동으로 작업해야 사전 속에서 한문 어휘들을 기술할 수 있을지를 테스트해보고 싶다. 언제까지 모든 것을 수동으로 할 수는 없을것 아닌가. 사전은 가능하면 반자동 반수동으로 작업하는게 좋다는 생각을 한다.


이건 예산보다는 정치적인 문제가 있는 것인데, 북한의 조선말 대사전을 웹으로 보고싶다. 지금 남북의 사전편찬자들이 모여 겨레말 큰사전을 만들고 있고 이건 매우 상징성이 큰 작업이다. 하지만 그 이전에 우리가 북한을 알기 원한다면 조선말 대사전의 표제어와 예문을 살펴볼 필요가 있다. 그래야 남북의 이질감을 조금이라도 덜 수 있지 않을까.


2 한국어사전 / 예산 한정


제한적인 예산 속에서 한국어사전을 살찌운다면 가장 하고싶은 것은 한국어사전도 편집자의 개입을 최소화해서 예문으로 재구성해보는 것이다. 가능성이 조금은 있는 것이, 일단 최근의 한국어 형태분석기는 정확하지는 않지만 어느정도 의미태깅을 해준다. 문장에서 어떤 것은 사과(과일)로, 어떤 것은 사과(행위)로 구분해주는 것이다. 그리고 개별 어휘는 연어관계만 잘 추적해도 비슷한 유형으로 모아볼 수 있는 여지가 있다. 따라서 이런 실험을 해보면 아주 고품질은 아니어도 어느정도는 자동으로 문장이 분류되는 사전을 만들어 볼 수 있을 것이란 생각이 든다. 또 한국어는 활용형이 무척 다양하게 만들어지지만 실제로 고빈도 활용형은 한정적이다. 그 고빈도 활용형의 용례를 묶어 보여주기만 해도 상당히 효율적일 것이다.


이것은 영어사전이나 일본어사전 등 다른 언어로도 응용이 가능할 것이다. 모두 일국어사전이기 때문이다. 얼마만큼 해당 언어의 자연어처리 기술을 높일 것인가가 관건이다.


다른 방식으로 가장 쉽게 생각할 수 있는 것은, 사용자 참여형이다. 허나 사용자 참여형으로 만든다는 것은 사실 컨텐츠 생산비용이 덜 들어간다는 말일 뿐 서비스 개발비용은 더 들어간다. 장기적으로 봐서 비용이 덜 들어가는 것 뿐이다. 


3 외국어사전 / 예산 무제한


사전은 유료컨텐츠였지만 초기부터 수요가 많아 불법으로 입력된 자료가 많았다. 이것은 중국의 전자사전 포맷인 stardict나 일본의 전자사전 포맷인 epwing 등으로 많이 만들어져 있다. 이런 사전 컨텐츠가 불법으로 풀렸기 때문에 쓰는 사람은 불법으로 사용하고 웹서비스로는 볼 수 없는 그런 상태가 지속된지 오래되었다. 이런 다양한 사전들의 저작권을 해결하여 합법적인 경로로 웹 서비스를 하면 좋겠다. 


사전을 만들면서 가장 많이 참조하는 대상은 바로 기 출간된 사전들이다. 사전 만들기는 거인의 어깨에 올라서서 더 먼 곳을 바라보는 것이기 때문이다. 그렇다면 기존에 나와있던 사전들은 일단 웹에서 참고할 수 있어야 한다. 


4 외국어사전 / 예산 한정


2013년 현재 다음 영어사전의 예문 분류 기준은 번역어이다. 그 외에 활용형과 연어관계 등을 활용하면 다른 기준으로 예문을 묶을 수 있다. 이것은 한국어 사전쪽에 대략 설명했으니 여기서는 넘어가기로 하자.


다른 예문을 집어넣으면 다른 사전이 될 수 있다. 예를들어 문학 예문과 기술문서 예문은 다를 수 밖에 없다. 지금 다음 영어사전이 주로 교육 문서와 언론 문서를 바탕으로 만들어져있는데 여기에 기술 문서와 문학 문서를 다수 포함하면 인문학도를 위한 영어사전과 이공계를 위한 영어사전 등으로 나누어서 서비스가 가능하다. 즉 좀 더 사용자에게 특화시킨 사전을 만들어 볼 수 있다.


다음 영어사전에서 구현한 예문사전의 방법론을 다른 언어까지 확장하고픈 생각도 있다. 중국어와 일본어는 한국어 대역문서를 어느정도 확보할 수 있을 것이다. 하지만 독어나 불어까지 가면 번역문이 부족해서 이 방법론을 쓰긴 어려울 듯 싶다.


5 백과사전 / 예산 무제한


백과사전에서는 위키백과의 대항마가 하나쯤 필요하지 않은가 하는 생각이 든다. 일당제보다는 양당제가 건강하기 때문이다. 대안이 있어야 고립되지 않고 서로 비판이 가능해진다. 위키백과의 모든 항목에 대해 대안 백과가 필요한 것은 아니지만 개념어라면 위키백과와 다른 관점으로 서술하는 것은 반드시 필요하다.


개념어를 전문가의 관점으로 서술하고 다른 전문가들이 상호리뷰를 해서 정리하고, 또 시간이 지나면 새로운 학자가 새롭게 정의하게 만드는 것은 그것 자체로도 학문적 토론의 장이 될 수 있다. 18세기에 디드로의 백과전서가 그랬던 것처럼.


전문용어사전을 백과사전의 일종으로 본다면 전문용어의 기술도 문제이지만 전문용어는 역시 표준화가 핵심 문제이다. 해당 업계에서 표준이 정의되지 않거나 정의되어도 지켜지지 않는 경우가 태반이다. 이를 위해서는 지금처럼 개별 업계 협회에서 일방적으로 정리해서 이것이 표준이다 이렇게 배포하는 방식으로는 더이상 되지 않는다. 먼저 해당 개념의 표기가 어떤 역사적인 과정을 거쳤는지 밝혀야 하고 현재 가장 많이 쓰이는 것이 무엇인지 적어야 한다. 그 뒤에 현재 권장되는 표기는 무엇이며 허용되는 표기는 무엇인지 보여줄 필요가 있다. 논란이 있는 표기는 토론을 거쳐 하나씩 천천히 고쳐나가야 한다. 일관성을 유지한다고 갑자기 독일어 기반으로 쓰던 화합물 표기를 모두 영어 기반으로 바꾼다는 등의 과격한 방식으로 일관하면 전문용어 표준화의 길은 멀다.


전문용어의 표준화 문제를 본격적으로 해소하기 위해서는 해당 학회에서 논문을 받을 때 개별 표기들을 규정에 맞게 일관되게 고쳐야 한다. 그리고 글을 넣고 표준 용어에 맞게 구사했는지를 검사할 수 있는 확인도구를 웹으로 제공할 필요가 있다. 가장 중요한 것은 이것이 정책의 일관성이며, 장기간동안 그것을 유지하는 것이다. 이는 돈보다도 시간이 필요하다.


6 백과사전 / 예산 한정


전통적인 백과사전이나 위키백과나 모두 항목의 서술에 집중하고 있다. 하지만 항목을 집필하는 것은 시간과 비용이 엄청나게 소요되는 일이다. 그렇다면 나는 메타 백과사전을 한번 만들어보고 싶다.


웹 상에는 여러 사전들이 있으며 그것들은 여기저기에 산재해있다. 이중 어떤 항목이 더 상세하고, 어떤 항목이 어떤 분야를 서술하고 있는지 등을 한꺼번에 파악하긴 쉽지 않다. '세포'라는 항목이 20개의 사전에 올라가있다고 할 때 무엇이 정치학 용어이고, 무엇이 생물학 용어이고, 무엇이 국어사전에 실린 것인지를 읽는 이가 일일이 걸러서 읽어야하는 것이다. 즉 정보가 많기 때문에 원하는 정보를 거르는 작업이 필요해진 것이다. 이것은 웹 전반에 걸쳐 해결해야 하는 문제이기도 하다.


간단하게 말하면 백과사전의 스크랩북이다. 세포라는 항목이 20개쯤 있다면 가장 좋은데 2-3개를 정리해두고 나머지 중 읽을만한 것들을 적절히 분류해놓고 나머지는 기타에 넣어버리는 것이다. 이렇게 하면 정보를 거르는 작업이 물흐르듯 쉬워진다. 현재 네이버 전문용어사전을 보면 사전이 많아서 그만큼 중복항목이 많다. 이런 문제를 해소하는 방식으로 메타 백과사전이 필요한 것이다.


여기서 더 나아갈 수도 있다. 백과사전 항목 뿐 아니라 연관된 설명들을 좀 더 체계적으로 스크랩해줄 수 있다. 정보는 백과사전 말고도 신문, 블로그, 카페 등에 산재해있다. 그것들까지 포함해서 정보를 분류해주면 그것은 일종의 가이드북이 된다. 이런 가이드북을 위키방식으로 만들때 위키백과나 기존 백과사전류를 보완해주는 메타백과사전이 만들어진다.


7 종합해보면


내가 만들고 싶은 사전은 변화하는 사전인 것 같다. 위키백과가 기존 백과사전의 대체재가 될 수 있었던 것은 기존 백과사전이 판을 바꿀 때까지 내용이 새로워지지 못하는 반면 위키백과는 끊임없이 내용이 달라졌기 때문이다.


출판사가 만드는 어학사전도 백과사전과 마찬가지로 달라져야 했고, 그 한가지 방식으로 시도한 것이 다음영어사전의 예문사전 기능이었다. 이것이 기존 종이사전 기반의 웹사전을 대체한 것은 아니지만 그것과는 다른 정보를 보여주는 대안사전으로서의 가능성을 보여준 것은 맞다. 웹사전이 종이사전과 달라야 했다면 형식 뿐 아니라 내용까지도 달라야 했다.


앞으로 얼마나 종이사전과 다른 웹사전을 만들 수 있을지는 모르겠지만, 어느새 웹사전은 자기가 가야 할 방향으로 가고있는 것 같다. 일단은 그 배가 잘 나아갈 수 있도록 노를 저어보려고 한다.




Posted by zepelin