not music2013. 3. 9. 19:14

사전에서 기본적인 검색은 표제어를 찾는 것이다. 종이사전은 표제어 검색만을 위해 구성된 책이었을 정도로 표제어 검색은 기본이며 웹사전에서도 단일어 표제어 검색이 전체 검색의 90% 이상을 차지한다. 하지만 웹사전에서 검색할 수 있는 것들은 상당히 많다. 사전의 요소를 표제어, 뜻풀이, 예문 등으로 분할하여 개별 검색을 수행하기 때문이다. 웹사전에서 검색을 어디까지 수행할 수 있는가를 살펴보자.


* 두 단어 이상 검색


사전 검색 뿐 아니라 일반적인 검색을 할 때 두 단어 이상을 넣으면 훨씬 정교한 검색이 가능하다. have를 검색하면 얼마나 많은 예문과 뜻풀이가 나오겠는가. 그럴 때는 have lunch를 검색해야 좀 더 좁혀진 검색결과를 얻을 수 있는 것이다. 영어는 관용구와 구동사가 많으므로 두 단어 이상 검색하는 것은 필수적이다.


두 단어 이상으로 검색하면 숨어있는 뜻풀이를 발견할 수도 있다. '댄스 음악'이라는 검색어로 나온 결과중에는 dance music / Global Gathering / tecktonik  / The Oruro Carnival / a dance performed to music / silent disco 등 뜻풀이에 댄스와 음악이 동시에 들어가있는 영한사전 표제어가 다수 있다. 이것들이 댄스 음악과 직접일 수도 간접일 수도 있지만 어쨌든 관계를 가진 표제어들이다.


* 검색어의 검색범위 한정


언어의 특성에 맞춰 검색어를 다양하게 지정할 수 있다. 한국어를 예로 들면 사회로 시작하는 단어, 사회로 끝나는 단어, 사회가 포함된 단어, 사회로 시작하는 4음절 단어, 'ㄴ다'로 끝나는 모든 단어 등을 지정해서 검색할 수 있다. 영어라면 -ism으로 끝나는 단어. 모음으로 -au-가 포함된 단어 등을 한정지을 수 있다. 이 기능은 종이사전의 역순사전의 기능을 웹에서 소화하고 더 확대한 것이다.


또 영역을 지정할 수 있다. 예를들어 국민과 국어 사이의 모든 단어를 본다거나 하는 것이 가능하다. 이러한 기능들은 구현 자체가 어려운 것은 아니지만 검색할 때마다 서버에 무리를 주고 또 수요가 많은 기능이 아니므로 소수의 사전에서만 지원하고 있다. 표준국어대사전에서 강력하게 지원하고 있으며 네이버 사전에서도 일부 지원되고 있다. 


* 둘러보기의 기능 개선


웹사전이 종이사전에 비해 문제로 지적되던 것 중 대표적인 것은 전체를 한번에 조망하기 힘들다는 점이었다. 종이사전은 책이니까 주루륵 넘겨보거나 페이지당 정보 노출량이 많아서 한눈에 들어온다거나 하는 장점이 있었지만 웹사전은 한번에 한 표제어와 항목만을 볼 수 있었기 때문에 주변을 살펴보기에 적합하지 않았다.


그런 문제를 해소하기 위해 표제항을 다단계로 나누어서 배열할 수 있다. 한 페이지에 100개씩 항목을 배열하고 그 기준을 100개로 나누면 두 단계만에 1만 항목의 배열이 가능하다. 필터를 두되 다단계의 깊이를 최소화하고 주변의 항목을 보여주는 방식이다.


* 인지과학의 성과 도입


인지과학의 성과에 힘입어 여러가지 인간의 표현 방식을 인식해 그것을 컴퓨터로 입력받는 기술들이 나오고 있다. 이중 사전에 도입되는 것으로는 음성인식, 필기인식, 문자영상인식 등이 대표적이다.


필기인식은 사람의 필기체를 인식하는 방법인데 글자의 형식 뿐 아니라 글자 쓰는 순서, 특히 한자의 획순 등까지 정보로 받아들여 글자를 인식한다. 한자처럼 훈음을 모를 경우 검색이 힘든 문자에서 유용한 도구이다.


음성인식은 사람의 음성을 텍스트로 전사해주는 방법으로 손을 사용하기 어려운 환경에서 검색할 때 활용할 수 있다. 반대로 텍스트를 음성으로 합성해주는 TTS(text to speech) 기능도 있으며 이는 원어민 발음이 녹음되어있지 않을 때 문장 읽어주는 역할을 한다.


문자인식은 인쇄된 문자를 스마트폰의 카메라로 인식하여 바로 검색해주는 기능이다. 역시 한자와 같은 표음문자가 아닌 문자 검색에 유용하지만 로마자나 한글 등도 신속하게 여러 단어를 검색할 때는 손으로 입력하는 경우보다 더 빠르고 편리할 때가 있다.


이러한 형태의 입력은 신기하고 종종 편리하지만 손으로 검색어를 직접 입력하는 것에 비해 전반적으로 그리 효율적이진 않다. 부차적인 기능이므로 필요한 만큼만 활용하는 것이 좋다.


* 한자 파자 검색


한자는 표의문자라 하여 보통 글자 자체를 외워 학습해야 한다는 믿음이 많았다. 하지만 이미 설문해자 시대 이후로 부수법을 사용하고 강희자전의 부수체계도 한자는 개별 글자의 조합으로 이루어졌다는 개념을 이미 담고있다. 


그런 개념을 통해 한자는 개별 부수의 조합이라는 관점과 해당 부수의 위치를 고려하여 다중부수법(multi radical)을 얘기하는 학자들이 늘고 있으며 그러한 개념을 웹상에서 구현하였다. 이 경우 한자의 부수를 정확하게 몰라도 모양을 찾으면 해당 모양이 들어간 한자가 필터링되어 제시된다.





Posted by zepelin