구글 엔그램 뷰어

위키백과, 우리 모두의 백과사전.

구글 엔그램 뷰어(Google Ngram Viewer) 또는 구글 북스 엔그램 뷰어(Google Books Ngram Viewer)는 영어, 중국어(간체), 프랑스어, 독일어, 히브리어, 이탈리아어, 러시아어, 스페인어로 된[1][2] 구글의 말뭉치에서 1500년부터 2019년 사이[3][1][4][5][6] 인쇄된 출전에서 발견되는 연간 n-gram의 수를 이용하여 일련의 검색 문자열의 주기를 도표화하는 온라인 검색 엔진이다. 미국 영어, 영국 영어, 영어 픽션 등 일부 특수한 영어 말뭉치도 존재한다.[7]

이 프로그램은 오철자나 이치에 맞지 않는 단어나 구를 검색할 수 있다.[2] n-gram은 선택된 말뭉치 내에서 텍스트와 매칭이 되며 선택적으로 철자의 대소문자 구별이 가능하며[8] 40개 이상의 서적에서 발견되는 경우 그래프로 표출된다.[9]

구글 엔그램 뷰어는 품사와일드카드 검색을 지원한다.[7] 이는 검색에 주로 사용된다.[10][11]

역사[편집]

이 프로그램은 Jon Orwant, Will Brockman에 의해 개발되었으며 2010년 12월 중순에 출시되었다.[1][4]

말뭉치[편집]

검색에 쓰이는 말뭉치는 각 언어별로 total_counts, 1-grams, 2-grams, 3-grams, 4-grams, 5-grams로 구성된다. 각 파일의 개별 파일 포맷은 TSV(탭 구분 데이터)로 되어 있다. 각 줄은 다음의 포맷을 가진다:[12]

  • total_counts 파일
    year TAB match_count TAB page_count TAB volume_count NEWLINE
  • 버전 1 ngram 파일 (2009년 7월 생성됨)
    ngram TAB year TAB match_count TAB page_count TAB volume_count NEWLINE
  • 버전 2 ngram 파일 (2012년 7월 생성됨)
    ngram TAB year TAB match_count TAB volume_count NEWLINE

구글 엔그램 뷰어는 match_count를 사용하여 그래프를 그린다.

한 예로, 영어 1-grams의 버전 2 파일의 "Wikipedia"라는 단어는 다음과 같이 저장되어 있다:[13]

ngram year match_count volume_count
Wikipedia 1904 1 1
Wikipedia 1912 11 1
Wikipedia 1924 1 1
Wikipedia 1925 11 1
Wikipedia 1929 11 1
Wikipedia 1943 11 1
Wikipedia 1946 11 1
Wikipedia 1947 11 1
Wikipedia 1949 11 1
Wikipedia 1951 11 1
Wikipedia 1953 22 2
Wikipedia 1955 11 1
Wikipedia 1958 1 1
Wikipedia 1961 22 2
Wikipedia 1964 22 2
Wikipedia 1965 11 1
Wikipedia 1966 15 2
Wikipedia 1969 33 3
Wikipedia 1970 129 4
Wikipedia 1971 44 4
Wikipedia 1972 22 2
Wikipedia 1973 1 1
Wikipedia 1974 2 1
Wikipedia 1975 33 3
Wikipedia 1976 11 1
Wikipedia 1977 13 3
Wikipedia 1978 11 1
Wikipedia 1979 112 12
Wikipedia 1980 13 4
Wikipedia 1982 11 1
Wikipedia 1983 3 2
Wikipedia 1984 48 3
Wikipedia 1985 37 3
Wikipedia 1986 6 4
Wikipedia 1987 13 2
Wikipedia 1988 14 3
Wikipedia 1990 12 2
Wikipedia 1991 8 5
Wikipedia 1992 1 1
Wikipedia 1993 1 1
Wikipedia 1994 23 3
Wikipedia 1995 4 1
Wikipedia 1996 23 3
Wikipedia 1997 6 1
Wikipedia 1998 32 10
Wikipedia 1999 39 11
Wikipedia 2000 43 12
Wikipedia 2001 59 14
Wikipedia 2002 105 19
Wikipedia 2003 149 53
Wikipedia 2004 803 285
Wikipedia 2005 2964 911
Wikipedia 2006 9818 2655
Wikipedia 2007 20017 5400
Wikipedia 2008 33722 6825

위 데이터를 사용하여 구글 엔그램 뷰어가 그려낸 그래프는 여기에 있다:[14]

각주[편집]

  1. "Google Ngram Database Tracks Popularity Of 500 Billion Words" Huffington Post, 17 December 2010, webpage: HP8150.
  2. "Google Books Ngram Viewer - University at Buffalo Libraries", Lib.Buffalo.edu, 22 August 2011, webpage: Buf497 Archived 2013-07-02 - 웨이백 머신..
  3. "Quantitative analysis of culture using millions of digitized books"JB Michel et al, Science 2011, DOI: 10.1126/science.1199644[1]
  4. "Google's Ngram Viewer: A time machine for wordplay", Cnet.com, 17 December 2010, webpage: CN93.
  5. "A Picture is Worth 500 Billion Words – By Rusty S. Thompson", HarrisburgMagazine.com, 20 September 2011, webpage: HBMag20[깨진 링크].
  6. Google SearchLiaison. “The Google Books Ngram Viewer has now been updated with fresh data through 2019”. 《Twitter》 (영어). 2020년 8월 11일에 확인함. 
  7. Google Books Ngram Viewer info page: https://books.google.com/ngrams/info
  8. "Google Ngram Viewer - Google Books", Books.Google.com, May 2012, webpage: G-Ngrams.
  9. "Google Ngram Viewer - Google Books" (Information), Books.Google.com, December 16, 2010, webpage: G-Ngrams-info: notes bigrams and use of quotes for words with apostrophes.
  10. Greenfield P. M. (2013). The changing psychology of culture from 1800 through 2000. Psychological Science, 24(9), 1722–1731. https://doi.org/10.1177/0956797613479387
  11. Younes, N., & Reips, U.-D. (2018). The changing psychology of culture in Germany: A Google Ngram study. International Journal of Psychology, 53(S1), 53-62. https://doi.org/10.1002/ijop.12428
  12. “Google Books Ngram Viewer”. 
  13. googlebooks-eng-all-1gram-20120701-w.gz at http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
  14. https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0

외부 링크[편집]