웹 검색 엔진
검색 엔진은(는) 여기로 연결됩니다. 다른 뜻에 대해서는 검색 엔진 (동음이의) 문서를 참조하십시오.
웹 검색 엔진이란 웹 사이트를 검색하기 위한 프로그램이다. 어떤 검색 엔진들은 FTP 서버나 웹 사이트의 파일 검색 결과를 포함하며, 이미지나 토렌트 파일 또는 특정 부류의 웹사이트에 특화된 웹 검색 엔진도 있다.
웹 검색 엔진은 대개 웹 서비스로 이용할 수 있다. 서버에서는 '로봇'(robot)이라 불리는 특별한 프로그램을 이용해 웹 사이트들을 돌아다니며 웹 사이트들에 대한 정보를 미리 자동적으로 수집한다. 이후 검색 엔진 사이트에서 특정 검색어를 입력하면 검색 엔진이 수집한 정보 중 그에 맞는 결과를 볼 수 있다. 많은 포털 사이트들은 이와 같은 웹 검색 서비스를 제공한다. 포털 사이트의 검색 결과 페이지에서는 사람이 직접 관리하는 웹 사이트의 모음인 웹 디렉터리의 결과를 함께 보여 주기도 한다. 초기 검색 엔진은 웹 디렉터리를 기반으로 하고 있었지만 지금은 웹 디렉터리를 검색 엔진이라 하지 않는 편이다.
웹 검색 엔진은 본래 컴퓨터 내의 파일이나 회사, 조직 내부 데이터베이스 등을 검색하기 위한 방법의 연장선상에 있다. 다만 웹은 하이퍼텍스트 기반으로 이루어져 있으며 문서와 이미지나 동영상 등이 결합되어 있으므로, 로봇이 참조와 어휘를 분석하는 방식에 따라 검색의 품질이 결정된다.
목차 |
[편집] 역사
폐쇄적으로 운영되는 기업 내부의 정보를 검색하여 주는 내부 검색 솔루션은 기업 내의 정보 양이 큰 폭으로 증가하고 있지 않지만, 웹 검색 솔루션은 공개적으로 운영되는 특성 때문에 해마다 취급하는 정보의 양이 기하급수적으로 늘어나게 됨에 따라 시장과 사용자의 요구에 따라 계속 변해왔다.
- 1세대 검색 엔진, 디렉터리 검색 엔진: 전 세계 인터넷 페이지가 수천만 페이지에 불과했던 초기에는 사람이 좋은 사이트를 선별하여 정리해 놓은 야후의 디렉터리 검색 엔진이 주류였다.
- 2세대 검색 엔진, 1세대 로봇 검색 엔진: 인터넷 페이지가 억 단위로 증가하자 더 이상 사람이 사이트를 선별하는 것이 무의미해졌고, 사용자들은 디렉터리 검색 엔진이 찾아 주지 못하는 더 많은 정보를 검색하고자 하는 욕구가 생겼다. 이에 따라, 웹봇(webbot) 또는 에이전트(agent)를 이용한 로봇 검색 엔진이 등장하게 되었으며, W3C 의 세계로봇규약을 표준 규약에 따라 알타비스타, 핫봇, 익사이트와 같은 검색 엔진이 서비스 되었으나 잘 정리되지 못한 결과를 보여 주는 1세대 로봇 검색 엔진은 사용자의 호응을 얻지 못하였다.
- 2.5세대 검색 엔진, 디렉터리와 로봇의 응용 검색 엔진: 로봇검색 엔진은 많은 정보를 찾아 주기는 하였지만, 1세대 검색 엔진인 야후와 같이 엄선되고 정리된 느낌의 검색결과를 보여주기에는 역부족이이었다. 또한, 로봇검색 엔진의 검색로직이 모두 다르다 보니 특정 검색어에 따라 특정 검색 엔진의 결과가 좋을 수 있었다. 이러한 이유로 메타 검색 엔진이 등장하였는데, 메타 검색 엔진은 자체적으로 정보를 보유하고 있지는 않으면서, 다른 검색 엔진 서비스 회사들의 검색결과를 실시간으로 가져와 정리해서 보여주는 방식이다. 대한민국에도 미스다찾니와 같은 메타 검색 엔진이 있었지만 지금은 사라졌으며, 대한민국 밖에서는 마이서치, 독파일 등이 서비스 되고 있다. 또한, 대한민국에서는 이 2.5세대 검색 엔진 중 디렉터리 검색 엔진의 장점과 로봇 검색 엔진의 장점을 잘 혼합한 형태의 서비스가 등장하여 지금까지 주류를 이루고 있는데, 네이버, 다음, 엠파스, 파란 등이 그 대표적인 예이다.
- 3세대 검색 엔진, 2세대 로봇 검색 엔진: 알타비스타와 같은 1세대 로봇 검색 엔진은 여전히 매우 많은 양의 검색결과를 가져오지만, 검색결과 첫 페이지에서 클릭하고 싶은 정보가 노출되기 쉽지 않은 구조를 가지고 있다. 그러한 이유로, 알타비스타는 세계최초의 글로벌 로봇 검색 엔진이었음에도 시장을 거의 점유하지 못하였다. 하지만. 2세대 로봇 검색 엔진으로 구글이 등장하게 되는데, 이 구글은 페이지랭크(Page Rank)를 통해, 첫 페이지에 클릭하고 싶은 정보가 노출되게 하는 로직을 적용하였다. 이러한 검색 엔진 방식은 2008년 현재 전 세계적으로 가장 앞서 있는 기술로 평가되고 있으며, 한국, 일본 등 아시아 몇 개 나라를 제외하고는 북미, 유럽 등 전 세계에서 적어도 50% 이상의 점유율을 확보하고 있다.
- 4세대 검색 엔진, 3세대 로봇 검색 엔진: 2008년 현재 4세대 검색 엔진은 흔히 차세대 검색 엔진이라고 불린다. 그 이유는 기존의 검색 엔진 서비스의 변화에서 가장 큰 변화를 가져올 것이 예상되기 때문이다. 1세대 검색 엔진부터 3세대 검색 엔진까지 약 20년 동안 모든 검색 엔진은 좋은 정보를 찾아내기 위한 방법으로 사용자가 입력한 검색어와 동일한 단어가 들어가 있는 페이지를 찾는 즉 키워드 검색 엔진에 기반을 두어 왔다. 하지만, 4세대 검색 엔진은 키워드 기반이 아닌 의미 기반의 검색 방법을 사용한다. 대표적으로 하키아와 큐로보는 시맨틱랭크를 사용한다. 이 4세대 검색 엔진 서비스는 기존 검색 엔진의 요구와 달리 사용자 인터페이스면에서도 다른 시도가 있어 왔다. 대표적으로 마이크로소프트사의 윈도 비스타에 내장된 사용자 시각 인터페이스를 적용한, 서치미와 레드지등이 있으며, 한국에는 비주얼큐로보가 있다.
[편집] 원리
검색의 과정은 크롤러(crawler)와 함께 시작된다. 크롤러는 웹상에서 링크 사이를 오가는 정보수집 전용 프로그램으로, 찾은 페이지를 전부 가져온 다음에 인덱스(색인) 처리되도록 서버에 보낸다. 크롤러는 웹페이지를 긁어모은 다음에 자동 색인 프로그램인 인덱서(indexer)로 넘기고 손을 뗀다. 인덱스는 데이터가 처리되어 일반 검색자가 소화할 수 있는 형태로 되었는지 여부에 따라 여러 개의 조각으로 나뉜다. 똑똑한 인덱스를 창조하는 다음 단계가 데이터베이스를 역전환(invert)하는 것, 즉 본질적으로 URL과 관련된 단어 목록을 만드는 것이다. 따라서 '외몽고'라는 단어를 검색창에 입력한다면 검색 엔진은 이 단어를 포함한 모든 URL의 목록을 즉시 끄집어낼 수 있게 된다. 일단 크롤 데이터가 분석되고 인덱스된 후 태그가 붙여지면 사용자에게 결과를 제공할 준비가 되어 있는 데이터베이스인 런타임 인덱스(runtime index)라고 불리는 것으로 보내진다. 런타임 인덱스는 검색 엔진의 배후 끝부분(크롤 및 인덱스)과 맨 앞부분(쿼리 서버와 사용자 인터페이스) 사이를 연결하는 교각 역할을 한다.
[편집] 상업화
검색엔진의 상업성 추구는 컨텐츠를 전면에 내세우는 이른바 포털화로 진행된 사례가 많다. 다음은 이메일 서비스의 수요자를 기반으로 포털화에 성공하기 위해 야후의 검색결과를 이용한 바 있다.[출처 필요] 네이버에 대해서는 최근에도 네이버 블로그나 카페의 검색 결과를 우대해 사용자의 유출을 막고 저작권 문제를 방치한다든지, 검색 결과를 정치적 의도에 따라 조작한다는 등의 의혹이 제기된 바 있다.[1] 한편 구글은 타 검색 엔진 사이트의 포털화 당시에 서비스를 시작하면서, 웹 검색과 광고를 분리해 검색 서비스를 단순화했다. 구글은 현재 광고 외에도 많은 사업과 몇몇 수익원을 두고 있다.
[편집] 같이 보기
- ↑ 김인성 (2011년). 한국 IT산업의 멸망. 북하우스, 392쪽. ISBN 9788956055220 저자의 관련 블로그 글