Gensim

Gensim은 최신 통계 기계 학습을 사용하여 비지도 주제 모델링, 문서 색인화, 유사성 검색 및 기타 자연어 처리 기능을 위한 오픈 소스 라이브러리이다.

Gensim은 성능을 위해 파이썬 및 사이썬으로 구현되었다. Gensim은 데이터 스트리밍 및 증분 온라인 알고리즘을 사용하여 대규모 텍스트 컬렉션을 처리하도록 설계되었으며, 이는 메모리 내 처리만을 대상으로 하는 대부분의 다른 기계 학습 소프트웨어 패키지와 차별화된다.

주요 특징[편집]

Gensim에는 fastText^[1], word2vec 및 doc2vec 알고리즘^[2]의 스트리밍 병렬 구현뿐만 아니라 잠재 의미 분석(LSA, LSI, SVD), 비음수 행렬 분해(NMF), 잠재 디리클레 할당(LDA), tf-idf 및 무작위 투영이 포함되어 있다.^[3]

Gensim의 새로운 온라인 알고리즘 중 일부는 Gensim의 창시자인 라딤 예흐렉(Radim Řehůřek)의 2011년 박사 학위 논문인 자연어 처리에서 의미론적 분석의 확장성에도 게재되었다.^[4]

각주[편집]

↑ Scalable *2vec training
↑ Deep learning with word2vec and Gensim
↑ Radim Řehůřek and Petr Sojka (2010). Software framework for topic modelling with large corpora. Proc. LREC Workshop on New Challenges for NLP Frameworks
↑ Řehůřek, Radim (2011). “Scalability of Semantic Analysis in Natural Language Processing” (PDF). 2015년 1월 27일에 확인함. my open-source gensim software package that accompanies this thesis

외부 링크[편집]

Gensim - 공식 웹사이트

[1] Scalable *2vec training

[2] Deep learning with word2vec and Gensim

[3] Radim Řehůřek and Petr Sojka (2010). Software framework for topic modelling with large corpora. Proc. LREC Workshop on New Challenges for NLP Frameworks

[4] Řehůřek, Radim (2011). “Scalability of Semantic Analysis in Natural Language Processing” (PDF). 2015년 1월 27일에 확인함. my open-source gensim software package that accompanies this thesis

[1]

[2]

[3]

[4]