Gensim

위키백과, 우리 모두의 백과사전.

Gensim은 최신 통계 기계 학습을 사용하여 비지도 주제 모델링, 문서 색인화, 유사성 검색 및 기타 자연어 처리 기능을 위한 오픈 소스 라이브러리이다.

Gensim은 성능을 위해 파이썬사이썬으로 구현되었다. Gensim은 데이터 스트리밍 및 증분 온라인 알고리즘을 사용하여 대규모 텍스트 컬렉션을 처리하도록 설계되었으며, 이는 메모리 내 처리만을 대상으로 하는 대부분의 다른 기계 학습 소프트웨어 패키지와 차별화된다.

주요 특징[편집]

Gensim에는 fastText[1], word2vec 및 doc2vec 알고리즘[2]의 스트리밍 병렬 구현뿐만 아니라 잠재 의미 분석(LSA, LSI, SVD), 비음수 행렬 분해(NMF), 잠재 디리클레 할당(LDA), tf-idf무작위 투영이 포함되어 있다.[3]

Gensim의 새로운 온라인 알고리즘 중 일부는 Gensim의 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문인 자연어 처리에서 의미론적 분석의 확장성에도 게재되었다.[4]

각주[편집]

  1. Scalable *2vec training
  2. Deep learning with word2vec and Gensim
  3. Radim Řehůřek and Petr Sojka (2010). Software framework for topic modelling with large corpora. Proc. LREC Workshop on New Challenges for NLP Frameworks
  4. Řehůřek, Radim (2011). “Scalability of Semantic Analysis in Natural Language Processing” (PDF). 2015년 1월 27일에 확인함. my open-source gensim software package that accompanies this thesis 

외부 링크[편집]