검색엔진을 사용해본 사람이면 누구나 웹에서 정보를 찾는게 얼마나 시간을 많이 잡아먹고 짜증나는 일인가를 안다. 고양이과의 야생동물인 재규어에 대한 정보를 찾기 위해 검색엔진에 「재규어」라는 키워드를 입력했을 경우 검색결과는 재규어라는 자동차, 미국미식축구팀인 재규어, 수년전에 단종된 컴퓨터인 재규어 등에 관한인터넷사이트가 정작 찾고 싶은 맹수 재규어에 관한 사이트와 뒤섞여 나타난다.현재의 검색엔진은 단어의 의미를 구분할 수 없다. 해당 키워드가문장 안에 있으면 찾도록 프로그램했기 때문이다. 키워드가 여러의미를 지닌 단어라면 검색결과는 엉망이다. 또한 인터넷에 널려있는 잡다한 사이트와 중요한 사이트를 구분하지도 못한다. 단지 해당 키워드의 빈도나 헤드라인에 포함됐는지의 여부만으로 판단할뿐이다.그러나 미국 코넬대학의 존 클라인버그 교수는 이 두가지 문제를해결할 수 있는 방안을 고안했다. 키워드보다는 웹사이트들간의 구조를 분석해 특정 주제에 대한 공동체를 찾은 다음 그 공동체 안에서 가장 중요한 역할을 하는 웹페이지를 찾을 수 있도록 했다.월드와이드웹이 거미줄과 같은 네트워크가 된 것은 각 웹페이지를연결하는 하이퍼텍스트 링크때문이다. 이 링크를 따라가면 사용자들은 힘들이지 않고도 각 웹페이지를 찾아갈 수 있다. 웹페이지에링크가 연결돼 있다는 것은 서로 긴밀한 관계가 있음을 나타낸다.그러나 이들 링크는 일방적으로 설정된다. A사이트에서 B사이트로링크됐다해서 반드시 B사이트에서 A사이트로 링크되는 것은 아니다. 따라서 많은 웹사이트에서 링크됐다는 것은 중요한 웹페이지일가능성이 높다고 볼수 있다.클라인버그 박사가 고안한 방법론의 원조는 인용목록이다. 인용목록은 학계에서 우수 논문을 찾기 위해 오랫동안 사용한 방법이다.다른 연구논문에서 빈번하게 인용되는 연구논문을 우수하다고 판정하는 것이다. 클라인버그 박사는 여기에 한가지를 더 추가했다. 웹페이지의 인용빈도(즉 링크빈도)와 함께 가장 많이 인용된 웹페이지를 찾도록 했다. 클라인버그 박사는 링크빈도가 높은 웹페이지를「전적」(권위있는 문서)이라 하고 가장 많이 링크된 웹페이지를「중추」라고 명명했다.클라인버그 박사는 이 개념의 실용성을 확인하기 위해 IBM의 알마단 연구소(캘리포니아 새너제이 소재)와 함께 HITS (HiterlinkInduced Topic Search)라는 시제품을 개발했다. HITS는 알타비스타나 핫보트와 같은 검색엔진을 이용해 텍스트기반의 문서를 검색하는 프로그램이다.HITS의 검색과정은 2단계로 구분할 수 있다. 우선 특정 키워드를이용해 2백개의 핵심 웹페이지를 찾은 다음 핵심 웹페이지에서 링크돼 나가는 수천개의 웹페이지를 찾는다. 2차로 찾은 웹페이지들은 링크된 정도에 따라 가중치를 부여한 다음 링크된 곳이 실제 존재하는지의 여부를 살핀다. 이런식으로 하이퍼텍스트링크의 중요도를 재산출하면 찾고자 하는 주제에 해당하는 전적사이트와 중추사이트를 추려낼 수 있게 된다.이 방법을 조금만 개선하면 재규어처럼 여러 가지 해석이 가능한주제어로도 정확한 검색결과를 얻을 수 있다. 서로 다른 뜻으로 해석할 수 있는 웹페이지들끼리는 서로 링크될 가능성이 적어 검색된웹페이지들은 자연스럽게 비슷한 종류끼리 분류된다. 물론 HITS에단점이 없는게 아니다. 정밀한 검색결과를 얻으려 할때는 오히려장애가 된다. 「넷스케이프4.04」에 대한 자료를 찾으려 할 경우웹브라우저에 대한 일반적인 리스트만 보일 뿐이다. 이런 부정확성을 극복하기 위해 알마단연구팀은 하이퍼링크 전후에 있는 텍스트를 분석하는 기능을 추가했다. 키워드주변에 있는 링크에는 더 많은 가중치를 부여한 것이다. 그 결과 검색시간은 반으로 줄고 검색적중률도 30%나 향상됐다.새 검색엔진으로 인터넷은 또 한번의 도약을 앞두고 있다. 정보의바다에서 구원해줄 전자구명조끼인 셈이다.「Hits and misses」 The Economist Jun 26정리·안도현 기자