프로젝트 구텐베르크

위키백과, 우리 모두의 백과사전.
둘러보기로 가기 검색하러 가기

프로젝트 구텐베르크(Project Gutenberg,PG)는 인류의 자료를 모아서 전자정보로 저장하고 배포하는 프로젝트로, 1971년 미국인 마이클 하트(Michael Hart)가 시작했다.

인쇄술을 발명하여 지식의 전달을 급속도로 확장시킨 요하네스 구텐베르크의 이름에서 따온 것으로, 인터넷에 전자화된 문서(e-text)를 저장해 놓고 누구나 무료로 책을 받아 읽을 수 있는 가상 도서관을 만드는 것을 목표로 한다. 수많은 자원봉사자들이 인터넷을 이용해 기여하여 만들어지는 프로젝트로 수많은 고전의 원문이 모여 있다.

2006년 3월 프로젝트 구텐베르크 발표에 따르면, 프로젝트는 18,000개 항목 이상의 전자문서를 보유하고 있으며, 매주 50여개의 새로운 전자책이 새롭게 등록되고 있다고 한다.

프로젝트에 등록된 전자책은 대부분이 서구의 문학작품으로 이루어져 있다. 소설, , 단편소설, 드라마 등의 문학작품 외에 요리책, 사전류, 정기간행물이 포함되어 있다. 또한 일부 오디오 파일과 음악 악보 파일도 갖고 있다.

대부분은 영문 서적이지만, 독일어, 프랑스어, 이탈리아어, 에스파냐어, 네덜란드어, 핀란드어, 중국어, 포르투갈어, 라틴어, 스웨덴어, 라틴어, 에스페란토로 된 책도 있으며, 여타 언어 문서도 꾸준히 증가하고 있다.

문서는 주로 아스키 문자 집합, 때때로 ISO-8859-1 문자 집합으로 인코딩된 텍스트문서를 언제나 내려받을 수 있으며, HTML등의 다른 형식의 문서도 받을 수 있다. 편집이 어려운 PDF등의 문서형식은 프로젝트가 지향하는 바와 맞지 않는 것으로 여겨지지만, PDF형식을 이용할 수 있는 문서도 있다. 최근 수년동안 XML형식을 도입할지에 대한 토론이 있었지만, 토론은 지지부진하다.

기술의 발전[편집]

1990년대 들어 스캐닝과 OCR기술에 힘입어 마이클 하트는 컴퓨터 제조회사에서 스캐닝장비를 기증받아 문서를 스캐닝한후 OCR소프트웨어로 이를 텍스트화하는 작업을 구축하였다.[1] 이러한 형태의 발전된 프로세스는 현재 주요한 작업기술이다. 한편 PG는 다중원본제공을 지원하며 또한 사용자 제공 콘텐츠 절차를 지원한다. 이는 셀프 출판을 의미한다.[2]

라이선스[편집]

프로젝트 구텐베르크 라이선스(The Project Gutenberg License,PGL)[3]는 아래와 같은 2개의 큰 맥락을 갖는다.

1. 구텐베르크 프로젝트에 영구적, 전 세계적, 비 독점, 철회 불가능한 저작권 라이선스를 부여하고, 무 제한적인 재배포를 허용함.

2. 작품은 플레인 텍스트 또는 HTML버전, 또는 두 가지 버전으로 제공되어야 함.

이러한 프로젝트 구텐베르크 라이선스는 이후 몇몇 추가된 라이선스를 도입했으며 이전의 라이선스와 추가변형된 라이선스는 '프로젝트 구텐베르크'의 공식웹사이트에서 전문을 확인할수있다.

같이 보기[편집]

외부 링크[편집]