※ 34% 정도 픽션입니다
일화 1.
엠제는 MAC 화장품을 찾기 위해 이글루스에서 'mac'과 '맥'을 이글루스 관심태그로 달아두었다.
그러자 이 태그를 달고 있는 게시물만 676개? 가 등장했다.
이글루스에는
아아니..! 맥 OS 이야기였다.
일화 2.
"잠비아, 온두라스, 부탄, 모잠비크. 대체 지구촌 어드메에 붙어있는 나라들이야?"
모 대학 MIS 연구실 이 박사는 베트남 옆에 있다고 했고 최 석사는 남미에 있다고 주장했다.
듣고 있던 김 석박통합과정이 구글에 '부탄'을 집어넣자
이 노래가 나왔다.
일화 3.
돈이 필요하여 네이버에 '돈'을 쳤더니
마돈나가 나왔다. ......

- 시맨틱 검색이 무엇인가요?
시맨틱 검색의 가장 중요한 핵심은 사용자가 원하는 게 "이기 이기 맞능교?" 입니다.
컴퓨터가 의미(semantics)를 이해하지 못하는 이상, 시맨틱 웹을 가능하게 하려면
단어와 단어, 웹페이지와 웹페이지에 관계를 부여하여야 하지요. 이것이 바로 온톨로지의 역할입니다.
부탄 - 부탄가스 - 썬연료 - 국민연료 썬연료 CM송
부탄 - 나라 - 아시아 - Buhtan - 히말라야 - 인도
이렇게 개념끼리 이어놓으면 컴퓨터가 서로 '관련이 있다고' 생각되는 단어 꾸러미(=온톨로지)를 먼저 찾기 때문에 검색을 한결 편하게 해줄 것입니다. 위 꾸러미에 따르면 '부탄 위치'라고 검색할 때 사용자가 의도한 부탄이 가스가 아니라 아시아 국가 중 하나이며, 히말라야 근처에 있다는 것이 쉽게 나오겠지요. 따라서 '맥락 있는' 검색결과가 나오려면 온톨로지가 필수적입니다.
- 에이, 이런 건 키워드 검색으로도 알 수 있잖아요!
키워드 검색이 '과거'에 쌓아놓은 웹페이지가 대상이라면 시맨틱 검색은 온톨로지를 통해 사용자의 의도를 '예측'할 수 있도록 하는 것이 목표입니다. 예를 들어 만약 과거에 없던, 시의성을 띄는 검색어라면?
신정환 - 연예인 - 개그맨 - 가수 - 컨츄리 꼬꼬 - 탁재훈 .... 계속되는 단어 꾸러미들을 찾아나간다 하더라도
신정환과 뎅기열의 관계를 알려면 기존에 쌓아놓은 자료만 가지고선 꽤나 고생을 해야할 겁니다.
이 경우 쏟아져 나오는 뉴스들의 공통어를 뽑아내서 자동으로 추가하면(예를 들어 뎅기열, 도박, 필리핀 등) 나중에 뉴스를 보지 않은 사람이라도 무슨 일이 있었는지 알 수 있도록 할 수 있겠지요.
시맨틱 검색의 가장 중요한 핵심은 사용자가 원하는 게 "이기 이기 맞능교?" 입니다.
컴퓨터가 의미(semantics)를 이해하지 못하는 이상, 시맨틱 웹을 가능하게 하려면
단어와 단어, 웹페이지와 웹페이지에 관계를 부여하여야 하지요. 이것이 바로 온톨로지의 역할입니다.
부탄 - 부탄가스 - 썬연료 - 국민연료 썬연료 CM송
부탄 - 나라 - 아시아 - Buhtan - 히말라야 - 인도
이렇게 개념끼리 이어놓으면 컴퓨터가 서로 '관련이 있다고' 생각되는 단어 꾸러미(=온톨로지)를 먼저 찾기 때문에 검색을 한결 편하게 해줄 것입니다. 위 꾸러미에 따르면 '부탄 위치'라고 검색할 때 사용자가 의도한 부탄이 가스가 아니라 아시아 국가 중 하나이며, 히말라야 근처에 있다는 것이 쉽게 나오겠지요. 따라서 '맥락 있는' 검색결과가 나오려면 온톨로지가 필수적입니다.
- 에이, 이런 건 키워드 검색으로도 알 수 있잖아요!
키워드 검색이 '과거'에 쌓아놓은 웹페이지가 대상이라면 시맨틱 검색은 온톨로지를 통해 사용자의 의도를 '예측'할 수 있도록 하는 것이 목표입니다. 예를 들어 만약 과거에 없던, 시의성을 띄는 검색어라면?
신정환 - 연예인 - 개그맨 - 가수 - 컨츄리 꼬꼬 - 탁재훈 .... 계속되는 단어 꾸러미들을 찾아나간다 하더라도
신정환과 뎅기열의 관계를 알려면 기존에 쌓아놓은 자료만 가지고선 꽤나 고생을 해야할 겁니다.
이 경우 쏟아져 나오는 뉴스들의 공통어를 뽑아내서 자동으로 추가하면(예를 들어 뎅기열, 도박, 필리핀 등) 나중에 뉴스를 보지 않은 사람이라도 무슨 일이 있었는지 알 수 있도록 할 수 있겠지요.
- 온톨로지가 자동으로 관계를 매칭해주면 끝인가요?
하지만 끝이 아닙니다. 물론 매일 매시간 매초 이 단어 꾸러미들을 업데이트할 수는 있지만, 그렇게 되면 (지구상 모든 단어 개수) x (지구상 모든 단어 개수) 의 연산이 필요하겠죠? 이것조차도 단어 사이 관계가 하나 뿐이라고 가정할 때 이야기고. ~를 하다, ~를 맡다, ~의 부모이다, ~와 상극이다, 등등등 개념과 개념 사이에는 수많은 관계가 있을 수 있습니다. 포함 관계나 조건부 관계라면 방향에 따라 또 달라지고요. 예를 들어 신정환→연예인(O) 이지만 연예인→신정환(X) 이지요.
여튼, 이런 이슈를 다 극복하고 아래와 같이 관계가 부여된 온톨로지(=꾸러미)가 자동으로 만들어졌다고 합시다.
나는가수다 - MBC - 정엽 - 탈락 - 김건모 - 백지영 - 김연우 - 김제동 - 이소라 - 나가수 - PD
중요한 단어, 중요하지 않은 단어, 고유명사, 일반명사, 약자가 섞여있네요. 컴퓨터는 '나는가수다'와 '나가수'가 같은 말인지 알 수 없습니다. 게다가 '백지영'과 '김건모'와 '정엽'이 검색어로서 동일한 중요도를 가지는 것도 아닙니다. 가중치를 부여해야 하지요. 이는 아직까지 컴퓨터가 알아서 해결할 수 없는 부분입니다.
- 우리에게 시맨틱 검색을 허하라!
우리가 생각하는 이상적인 시맨틱 검색은 불가능할지도 모릅니다. 컴퓨터가 내 말을 어떻게 다 이해하겠어요.
현재 네이트, 네이버 등에서 부르고 있는 '시맨틱 검색'은 그래서 반쪽짜리라고 할 수 있지요.
컴퓨터가 내 말을 이해한 게 아니라 알바생들이 데이터를 다 집어넣느라 음청 고생한 거죠 ...

보이시나요. 각 개념간 관계(출연하다, 감독하다, 수상하다 등)가 부여된 단어 꾸러미들(=온톨로지)입니다.
하지만 아직 많이 불완전하지요.
김태희 출연 영화를 검색하니 <춘향뎐>이 나오고, 또 거기서 김태희를 따라가니 <박쥐>가 나옵니다.
동명이인을 알지 못하는 컴퓨터의 문제인가요. 하라는 대로 데이터를 집어넣은 알바생의 문제일까요 ;ㅁ;
(참고로 스샷은 제가 일부러 흠을 잡으려고 찾은 게 아닙니다. 하라는 대로 '~~ 출연영화'를 치니 나온 결과)
딴 얘기지만, 오늘 오랜만에 네이버에 로긴했는데 제가 예전에 올린 글이 블라인드 처리 당했더군요.
별 것 아닌 이유여서 더 화가 났습니다. 그래도 알바생을 생각하며 이의제기글에 말투를 조심조심히 썼습니다.
5일 내로 연락이 온다니까 두고 봐야죠.
무늬만 시맨틱 검색엔진을 만드느라 알바생들이 고생하지 않게 저는 공부를 더 열심히(?) 해야겠습니다.
별 것 아닌 이유여서 더 화가 났습니다. 그래도 알바생을 생각하며 이의제기글에 말투를 조심조심히 썼습니다.
5일 내로 연락이 온다니까 두고 봐야죠.
무늬만 시맨틱 검색엔진을 만드느라 알바생들이 고생하지 않게 저는 공부를 더 열심히(?) 해야겠습니다.
긴글 요약: 온톨로지=개념 사이 관계가 부여된 단어 꾸러미. 시맨틱 검색을 위해 필수불가결.
진짜 요약: 엠제 공부하자 ...;
공유하기 버튼
|
|



덧글
보노본호 2011/03/29 18:25 # 답글
재미나게 이야기 풀어주셨네요. 신정환 뎅기열에서 뿜었어요 ㅋㅋㅋ 시멘틱웹실현은 아직은 좀 먼길 같긴합니다. 김태희 춘향뎐이라니 큭..
엠제 2011/03/30 01:43 #
재미나게 읽어주셨다니 고맙습니다^^시맨틱 검색이 사용자의 의도를 읽는 검색을 뜻한다면 시맨틱 웹은 구조화 되어 있지 않은 웹을 RDF 등 구조화된 데이터로 만드는 것 아닌가요? 시맨틱 검색은 http://www.slideshare.net/webscikorea/ss-2659453 시맨틱 웹은 http://www.slideshare.net/sonagi/ss-presentation-691694 를 참고하시면 감이 오실듯 합니다. '시맨틱 검색'이 여러 사람에 의해 각자 다른 의미로 쓰이는 것처럼 '시맨틱 웹'의 정의에 대해서도 이견이 많은 것 같아요. 전 아직도 확실히 모르겠습니다... >_<
보노본호님께서 어떤 의미로 말씀하셨든지간에, 시맨틱 검색이나 시맨틱 웹이나 둘 다 요원한 길 같습니다. 할 일이 많아요ㅠㅜㅎㅎㅎ
그리고 김태희-춘향뎐의 관계는 저도 잘 모르겠으나 김태희라는 이름의 동명이인 배우가 있는 모양입니다. 처음에는 '헛, 춘향뎐 봤는데 대체 김태희가 언제 나왔었지..!' 라고 생각했어요;
2011/03/29 21:33 # 답글
비공개 덧글입니다.
엠제 2011/03/29 23:58 #
아이고야 이리 친히 열어주시다니ㅎㅎ 링크 추가 했습니다~^^