네이버에 시맨틱 검색을 허하라 경영학


※ 34% 정도 픽션입니다

일화 1.
엠제는 MAC 화장품을 찾기 위해 이글루스에서 'mac'과 '맥'을 이글루스 관심태그로 달아두었다.
그러자 이 태그를 달고 있는 게시물만 676개? 가 등장했다. 
이글루스에는 오덕남성사용자가 월등히 많다고 생각했던 엠제는 깜짝 놀랐다. 첫번째 글을 클릭한 순간.
아아니..! 맥 OS 이야기였다. 

일화 2.
"잠비아, 온두라스, 부탄, 모잠비크. 대체 지구촌 어드메에 붙어있는 나라들이야?"
모 대학 MIS 연구실 이 박사는 베트남 옆에 있다고 했고 최 석사는 남미에 있다고 주장했다.
듣고 있던 김 석박통합과정이 구글에 '부탄'을 집어넣자
이 노래가 나왔다.

일화 3.
돈이 필요하여 네이버에 '돈'을 쳤더니
나가 나왔다. ......

- 시맨틱 검색이 무엇인가요?
시맨틱 검색의 가장 중요한 핵심은 사용자가 원하는 게 "이기 이기 맞능교?" 입니다.
컴퓨터가 의미(semantics)를 이해하지 못하는 이상, 시맨틱 웹을 가능하게 하려면 
단어와 단어, 웹페이지와 웹페이지에 관계를 부여하여야 하지요. 이것이 바로 온톨로지의 역할입니다.

부탄 - 부탄가스 - 썬연료 - 국민연료 썬연료 CM송
부탄 - 나라 - 아시아 - Buhtan - 히말라야 - 인도

이렇게 개념끼리 이어놓으면 컴퓨터가 서로 '관련이 있다고' 생각되는 단어 꾸러미(=온톨로지)를 먼저 찾기 때문에 검색을 한결 편하게 해줄 것입니다. 위 꾸러미에 따르면 '부탄 위치'라고 검색할 때 사용자가 의도한 부탄이 가스가 아니라 아시아 국가 중 하나이며, 히말라야 근처에 있다는 것이 쉽게 나오겠지요. 따라서 '맥락 있는' 검색결과가 나오려면 온톨로지가 필수적입니다.

에이, 이런 건 키워드 검색으로도 알 수 있잖아요!
키워드 검색이 '과거'에 쌓아놓은 웹페이지가 대상이라면 시맨틱 검색은 온톨로지를 통해 사용자의 의도를 '예측'할 수 있도록 하는 것이 목표입니다. 예를 들어 만약 과거에 없던, 시의성을 띄는 검색어라면?

신정환 - 연예인 - 개그맨 - 가수 - 컨츄리 꼬꼬 - 탁재훈 .... 계속되는 단어 꾸러미들을 찾아나간다 하더라도
신정환과 뎅기열의 관계를 알려면 기존에 쌓아놓은 자료만 가지고선 꽤나 고생을 해야할 겁니다.
이 경우 쏟아져 나오는 뉴스들의 공통어를 뽑아내서 자동으로 추가하면(예를 들어 뎅기열, 도박, 필리핀 등) 나중에 뉴스를 보지 않은 사람이라도 무슨 일이 있었는지 알 수 있도록 할 수 있겠지요. 

온톨로지가 자동으로 관계를 매칭해주면 끝인가요?
하지만 끝이 아닙니다. 물론 매일 매시간 매초 이 단어 꾸러미들을 업데이트할 수는 있지만, 그렇게 되면 (지구상 모든 단어 개수) x (지구상 모든 단어 개수) 의 연산이 필요하겠죠? 이것조차도 단어 사이 관계가 하나 뿐이라고 가정할 때 이야기고. ~를 하다, ~를 맡다, ~의 부모이다, ~와 상극이다, 등등등 개념과 개념 사이에는 수많은 관계가 있을 수 있습니다. 포함 관계나 조건부 관계라면 방향에 따라 또 달라지고요. 예를 들어 신정환→연예인(O) 이지만 연예인→신정환(X) 이지요.

여튼, 이런 이슈를 다 극복하고 아래와 같이 관계가 부여된 온톨로지(=꾸러미)가 자동으로 만들어졌다고 합시다.

나는가수다 - MBC - 정엽 - 탈락 - 김건모 - 백지영 - 김연우 - 김제동 - 이소라 - 나가수 - PD

중요한 단어, 중요하지 않은 단어, 고유명사, 일반명사, 약자가 섞여있네요. 컴퓨터는 '나는가수다'와 '나가수'가 같은 말인지 알 수 없습니다. 게다가 '백지영'과 '김건모'와 '정엽'이 검색어로서 동일한 중요도를 가지는 것도 아닙니다. 가중치를 부여해야 하지요. 이는 아직까지 컴퓨터가 알아서 해결할 수 없는 부분입니다.

우리에게 시맨틱 검색을 허하라!
우리가 생각하는 이상적인 시맨틱 검색은 불가능할지도 모릅니다. 컴퓨터가 내 말을 어떻게 다 이해하겠어요.
현재 네이트, 네이버 등에서 부르고 있는 '시맨틱 검색'은 그래서 반쪽짜리라고 할 수 있지요.
컴퓨터가 내 말을 이해한 게 아니라 알바생들이 데이터를 다 집어넣느라 음청 고생한 거죠 ...
보이시나요. 각 개념간 관계(출연하다, 감독하다, 수상하다 등)가 부여된 단어 꾸러미들(=온톨로지)입니다.
하지만 아직 많이 불완전하지요.
김태희 출연 영화를 검색하니 <춘향뎐>이 나오고, 또 거기서 김태희를 따라가니 <박쥐>가 나옵니다. 
동명이인을 알지 못하는 컴퓨터의 문제인가요. 하라는 대로 데이터를 집어넣은 알바생의 문제일까요 ;ㅁ; 
(참고로 스샷은 제가 일부러 흠을 잡으려고 찾은 게 아닙니다. 하라는 대로 '~~ 출연영화'를 치니 나온 결과)

딴 얘기지만, 오늘 오랜만에 네이버에 로긴했는데 제가 예전에 올린 글이 블라인드 처리 당했더군요. 
별 것 아닌 이유여서 더 화가 났습니다. 그래도 알바생을 생각하며 이의제기글에 말투를 조심조심히 썼습니다.
5일 내로 연락이 온다니까 두고 봐야죠.
무늬만 시맨틱 검색엔진을 만드느라 알바생들이 고생하지 않게 저는 공부를 더 열심히(?) 해야겠습니다.

긴글 요약: 온톨로지=개념 사이 관계가 부여된 단어 꾸러미. 시맨틱 검색을 위해 필수불가결.
진짜 요약: 엠제 공부하자 ...;



공유하기 버튼

 

트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://aimeje.egloos.com/tb/285868 [도움말]

덧글

  • 보노본호 2011/03/29 18:25 # 답글

    재미나게 이야기 풀어주셨네요. 신정환 뎅기열에서 뿜었어요 ㅋㅋㅋ 시멘틱웹실현은 아직은 좀 먼길 같긴합니다. 김태희 춘향뎐이라니 큭..
  • 엠제 2011/03/30 01:43 #

    재미나게 읽어주셨다니 고맙습니다^^
    시맨틱 검색이 사용자의 의도를 읽는 검색을 뜻한다면 시맨틱 웹은 구조화 되어 있지 않은 웹을 RDF 등 구조화된 데이터로 만드는 것 아닌가요? 시맨틱 검색은 http://www.slideshare.net/webscikorea/ss-2659453 시맨틱 웹은 http://www.slideshare.net/sonagi/ss-presentation-691694 를 참고하시면 감이 오실듯 합니다. '시맨틱 검색'이 여러 사람에 의해 각자 다른 의미로 쓰이는 것처럼 '시맨틱 웹'의 정의에 대해서도 이견이 많은 것 같아요. 전 아직도 확실히 모르겠습니다... >_<
    보노본호님께서 어떤 의미로 말씀하셨든지간에, 시맨틱 검색이나 시맨틱 웹이나 둘 다 요원한 길 같습니다. 할 일이 많아요ㅠㅜㅎㅎㅎ

    그리고 김태희-춘향뎐의 관계는 저도 잘 모르겠으나 김태희라는 이름의 동명이인 배우가 있는 모양입니다. 처음에는 '헛, 춘향뎐 봤는데 대체 김태희가 언제 나왔었지..!' 라고 생각했어요;
  • 2011/03/29 21:33 # 답글 비공개

    비공개 덧글입니다.
  • 엠제 2011/03/29 23:58 #

    아이고야 이리 친히 열어주시다니ㅎㅎ 링크 추가 했습니다~^^
댓글 입력 영역


[위자드팩토리] 고양이 시계