검색 엔진

위키백과 ― 우리 모두의 백과사전.

검색 엔진은 원래 정보를 수집하고 찾아주는 컴퓨터 시스템을 말한다. 하지만 현재는 주로 월드 와이드 웹을 대상으로 하는 인터넷 검색 서비스의 의미로 쓰인다. 그런 의미로 보면 포털 사이트도 비슷한 뜻이라고 할 수 있다.

검색엔진은 크게 나누어서 자동화된 로봇 프로그램이 웹 페이지 문서를 수집해오는 웹 페이지 검색엔진과 사람들이 주제별로 웹사이트 주소록을 정리하는 디렉터리 검색엔진으로 나눌 수 있다. 대부분의 검색엔진 서비스들은 이 두 가지를 모두 운영하고 있으며 최근에는 야후처럼 이 둘을 통합하여 보여 주는 방향도 진행하고 있다.

[편집] 검색 엔진 솔루션

검색엔진은 위와 같이 주로 서비스를 의미하지만, 검색 서비스를 만들기 위한 시스템(솔루션)을 지칭하기도 한다. 검색엔진 솔루션은 웹을 대상으로 웹 검색 솔루션과 회사/조직 내부의 데이터베이스나 파일 시스템의 문서를 검색하는 내부 검색 솔루션으로 나눌 수 있다. 내부 검색 솔루션 회사로는 세계적으로는 Autonomy, Fast Search and Transfer 등의 기업이 있고, 국내에서는 코난테크놀로지, 코리아와이즈넛, 다이퀘스트, 자랩 등이 있다.

[편집] 검색 엔진의 검색 과정

검색의 과정은 크롤러(crawler)와 함께 시작된다. 크롤러는 웹상에서 링크 사이를 오가는 정보수집 전용 프로그램으로, 찾은 페이지를 몽땅 긁어온 다음에 인덱스(색인) 처리되도록 서버에 보낸다. 크롤러는 웹페이지를 긁어모은 다음에 자동 색인 프로그램인 인덱서(indexer)로 넘기고 손을 뗀다. 인덱스는 데이터가 처리되어 일반 검색자가 소화할 수 있는 형태로 되었는지 여부에 따라 여러 개의 조각으로 나뉘어진다. 똑똑한 인덱스를 창조하는 다음 단계가 데이터베이스를 역전환(invert)하는 것, 즉 본질적으로 URL과 관련된 단어 목록을 만드는 것이다. 따라서 '외몽고'라는 단어를 검색창에 입력한다면 검색 엔진은 이 단어를 포함한 모든 URL의 목록을 즉시 끄집어낼 수 있게 된다. 일단 크롤 데이터가 분석되고 인덱스된 후 태그가 붙여지면 사용자에게 결과를 제공할 준비가 되어 있는 데이터베이스인 런타임 인덱스(runtime index)라고 불리는 것으로 보내진다. 런타임 인덱스는 검색 엔진의 배후 끝부분(크롤 및 인덱스)과 맨 앞부분(쿼리 서버와 사용자 인터페이스) 사이를 연결하는 교각 역할을 한다.

[편집] 같이 보기

이 문서는 컴퓨터에 관한 토막글입니다. 서로의 지식을 모아 알차게 문서를 완성해 갑시다.