구글 엔그램 뷰어
구글 엔그램 뷰어(Google Ngram Viewer) 또는 구글 북스 엔그램 뷰어(Google Books Ngram Viewer)는 영어, 중국어(간체), 프랑스어, 독일어, 히브리어, 이탈리아어, 러시아어, 스페인어로 된[1][2] 구글의 말뭉치에서 1500년부터 2019년 사이[3][1][4][5][6] 인쇄된 출전에서 발견되는 연간 n-gram의 수를 이용하여 일련의 검색 문자열의 주기를 도표화하는 온라인 검색 엔진이다. 미국 영어, 영국 영어, 영어 픽션 등 일부 특수한 영어 말뭉치도 존재한다.[7]
이 프로그램은 오철자나 이치에 맞지 않는 단어나 구를 검색할 수 있다.[2] n-gram은 선택된 말뭉치 내에서 텍스트와 매칭이 되며 선택적으로 철자의 대소문자 구별이 가능하며[8] 40개 이상의 서적에서 발견되는 경우 그래프로 표출된다.[9]
구글 엔그램 뷰어는 품사와 와일드카드 검색을 지원한다.[7] 이는 검색에 주로 사용된다.[10][11]
역사
[편집]이 프로그램은 Jon Orwant, Will Brockman에 의해 개발되었으며 2010년 12월 중순에 출시되었다.[1][4]
말뭉치
[편집]검색에 쓰이는 말뭉치는 각 언어별로 total_counts, 1-grams, 2-grams, 3-grams, 4-grams, 5-grams로 구성된다. 각 파일의 개별 파일 포맷은 TSV(탭 구분 데이터)로 되어 있다. 각 줄은 다음의 포맷을 가진다:[12]
- total_counts 파일
- year TAB match_count TAB page_count TAB volume_count NEWLINE
- 버전 1 ngram 파일 (2009년 7월 생성됨)
- ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
- 버전 2 ngram 파일 (2012년 7월 생성됨)
- ngram TAB year TAB match_count TAB volume_count NEWLINE
구글 엔그램 뷰어는 match_count를 사용하여 그래프를 그린다.
한 예로, 영어 1-grams의 버전 2 파일의 "Wikipedia"라는 단어는 다음과 같이 저장되어 있다:[13]
ngram | year | match_count | volume_count |
---|---|---|---|
Wikipedia | 1904 | 1 | 1 |
Wikipedia | 1912 | 11 | 1 |
Wikipedia | 1924 | 1 | 1 |
Wikipedia | 1925 | 11 | 1 |
Wikipedia | 1929 | 11 | 1 |
Wikipedia | 1943 | 11 | 1 |
Wikipedia | 1946 | 11 | 1 |
Wikipedia | 1947 | 11 | 1 |
Wikipedia | 1949 | 11 | 1 |
Wikipedia | 1951 | 11 | 1 |
Wikipedia | 1953 | 22 | 2 |
Wikipedia | 1955 | 11 | 1 |
Wikipedia | 1958 | 1 | 1 |
Wikipedia | 1961 | 22 | 2 |
Wikipedia | 1964 | 22 | 2 |
Wikipedia | 1965 | 11 | 1 |
Wikipedia | 1966 | 15 | 2 |
Wikipedia | 1969 | 33 | 3 |
Wikipedia | 1970 | 129 | 4 |
Wikipedia | 1971 | 44 | 4 |
Wikipedia | 1972 | 22 | 2 |
Wikipedia | 1973 | 1 | 1 |
Wikipedia | 1974 | 2 | 1 |
Wikipedia | 1975 | 33 | 3 |
Wikipedia | 1976 | 11 | 1 |
Wikipedia | 1977 | 13 | 3 |
Wikipedia | 1978 | 11 | 1 |
Wikipedia | 1979 | 112 | 12 |
Wikipedia | 1980 | 13 | 4 |
Wikipedia | 1982 | 11 | 1 |
Wikipedia | 1983 | 3 | 2 |
Wikipedia | 1984 | 48 | 3 |
Wikipedia | 1985 | 37 | 3 |
Wikipedia | 1986 | 6 | 4 |
Wikipedia | 1987 | 13 | 2 |
Wikipedia | 1988 | 14 | 3 |
Wikipedia | 1990 | 12 | 2 |
Wikipedia | 1991 | 8 | 5 |
Wikipedia | 1992 | 1 | 1 |
Wikipedia | 1993 | 1 | 1 |
Wikipedia | 1994 | 23 | 3 |
Wikipedia | 1995 | 4 | 1 |
Wikipedia | 1996 | 23 | 3 |
Wikipedia | 1997 | 6 | 1 |
Wikipedia | 1998 | 32 | 10 |
Wikipedia | 1999 | 39 | 11 |
Wikipedia | 2000 | 43 | 12 |
Wikipedia | 2001 | 59 | 14 |
Wikipedia | 2002 | 105 | 19 |
Wikipedia | 2003 | 149 | 53 |
Wikipedia | 2004 | 803 | 285 |
Wikipedia | 2005 | 2964 | 911 |
Wikipedia | 2006 | 9818 | 2655 |
Wikipedia | 2007 | 20017 | 5400 |
Wikipedia | 2008 | 33722 | 6825 |
위 데이터를 사용하여 구글 엔그램 뷰어가 그려낸 그래프는 여기에 있다:[14]
같이 보기
[편집]각주
[편집]- ↑ 가 나 다 "Google Ngram Database Tracks Popularity Of 500 Billion Words" Huffington Post, 17 December 2010, webpage: HP8150.
- ↑ 가 나 "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 22 August 2011, webpage: Buf497 보관됨 2013-07-02 - 웨이백 머신.
- ↑ "Quantitative analysis of culture using millions of digitized books"JB Michel et al, Science 2011, DOI: 10.1126/science.1199644[1]
- ↑ 가 나 "Google's Ngram Viewer: A time machine for wordplay", Cnet.com, 17 December 2010, webpage: CN93 Archived 2014년 1월 23일 - 웨이백 머신.
- ↑ "A Picture is Worth 500 Billion Words – By Rusty S. Thompson", HarrisburgMagazine.com, 20 September 2011, webpage: HBMag20[깨진 링크].
- ↑ Google SearchLiaison. “The Google Books Ngram Viewer has now been updated with fresh data through 2019”. 《Twitter》 (영어). 2020년 8월 11일에 확인함.
- ↑ 가 나 Google Books Ngram Viewer info page: https://books.google.com/ngrams/info
- ↑ "Google Ngram Viewer - Google Books", Books.Google.com, May 2012, webpage: G-Ngrams.
- ↑ "Google Ngram Viewer - Google Books" (Information), Books.Google.com, December 16, 2010, webpage: G-Ngrams-info: notes bigrams and use of quotes for words with apostrophes.
- ↑ Greenfield P. M. (2013). The changing psychology of culture from 1800 through 2000. Psychological Science, 24(9), 1722–1731. https://doi.org/10.1177/0956797613479387
- ↑ Younes, N., & Reips, U.-D. (2018). The changing psychology of culture in Germany: A Google Ngram study. International Journal of Psychology, 53(S1), 53-62. https://doi.org/10.1002/ijop.12428
- ↑ “Google Books Ngram Viewer”.
- ↑ googlebooks-eng-all-1gram-20120701-w.gz at http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- ↑ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
외부 링크
[편집]- 구글 엔그램 뷰어 - 공식 웹사이트