DBSCAN

DBSCAN(Density-based spatial clustering of applications with noise, 밀도 기반 클러스터링 비모수적 알고리즘)은 마틴 에스터, 한스-피터 크리겔, 외르크 산더, 샤오웨이 쑤가 1996년에 제안한 데이터 클러스터링 알고리즘이다.^[1] 밀도 기반 클러스터링 비모수적 알고리즘이다. 일부 공간에 있는 점의 경우, 서로 밀접하게 밀집된 점(인근 이웃이 많은 점)을 그룹화하여 저밀도 지역(가장 가까운 이웃이 너무 멀리 떨어져 있음)에 혼자 있는 이상점으로 표시한다. DBSCAN은 가장 일반적이고 가장 많이 인용되는 클러스터링 알고리즘 중 하나이다.^[2]

2014년에 이 알고리즘은 선도적인 데이터 마이닝 컨퍼런스인 ACM SIGKDD에서 테스트 오브 타임 어워드(이론과 실제에서 상당한 관심을 받은 알고리즘에 수여되는 상)를 수상했다.^[3] 2020년 7월 현재, 후속 논문 "DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN"^[4]이 권위 있는 ACM TODS(Transactions on Database Systems) 저널의 가장 많이 다운로드된 8개 기사 목록에 나타난다.^[5]

인기 있는 후속 HDBSCAN*은 2013년에 리카르도 J. G. 캄펠로, 다비드 물라비, 외르그 산더에 의해 처음 출판된 후 2015년에 아서 지멕에 의해 확장되었다.^[6] 이는 경계점과 같은 원래 결정 중 일부를 수정하고 평평한 결과가 아닌 계층적 구조를 생성한다.^[7]

각주[편집]

↑ Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M., 편집. 《A density-based algorithm for discovering clusters in large spatial databases with noise》 (PDF). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. 226–231쪽. CiteSeerX 10.1.1.121.9220. ISBN 1-57735-004-9.
↑ “Microsoft Academic Search: Papers”. 2010년 4월 21일에 원본 문서에서 보존된 문서. 2010년 4월 18일에 확인함. Most cited data mining articles according to Microsoft academic search; DBSCAN is on rank 24.
↑ “2014 SIGKDD Test of Time Award”. ACM SIGKDD. 2014년 8월 18일. 2016년 7월 27일에 확인함.
↑ Schubert, Erich; Sander, Jörg; Ester, Martin; Kriegel, Hans Peter; Xu, Xiaowei (July 2017). “DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN”. 《ACM Trans. Database Syst.》 42 (3): 19:1–19:21. doi:10.1145/3068335. ISSN 0362-5915. S2CID 5156876.
↑ “TODS Home”. 《tods.acm.org》 (영어). Association for Computing Machinery. 2020년 7월 16일에 확인함.
↑ Campello, Ricardo J. G. B.; Moulavi, Davoud; Sander, Joerg (2013). Pei, Jian; Tseng, Vincent S.; Cao, Longbing; Motoda, Hiroshi, 편집. 《Density-Based Clustering Based on Hierarchical Density Estimates》. Advances in Knowledge Discovery and Data Mining. Berlin, Heidelberg: Springer Berlin Heidelberg. 160–172쪽. doi:10.1007/978-3-642-37456-2_14. ISBN 978-3-642-37455-5. 2023년 8월 18일에 확인함.
↑ Campello, Ricardo J. G. B.; Moulavi, Davoud; Zimek, Arthur; Sander, Jörg (2015). “Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection”. 《ACM Transactions on Knowledge Discovery from Data》 10 (1): 1–51. doi:10.1145/2733381. ISSN 1556-4681. S2CID 2887636.

[dbscan-1] Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M., 편집. 《A density-based algorithm for discovering clusters in large spatial databases with noise》 (PDF). Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. 226–231쪽. CiteSeerX 10.1.1.121.9220. ISBN 1-57735-004-9.

[2] “Microsoft Academic Search: Papers”. 2010년 4월 21일에 원본 문서에서 보존된 문서. 2010년 4월 18일에 확인함. Most cited data mining articles according to Microsoft academic search; DBSCAN is on rank 24.

[3] “2014 SIGKDD Test of Time Award”. ACM SIGKDD. 2014년 8월 18일. 2016년 7월 27일에 확인함.

[tods-4] Schubert, Erich; Sander, Jörg; Ester, Martin; Kriegel, Hans Peter; Xu, Xiaowei (July 2017). “DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN”. 《ACM Trans. Database Syst.》 42 (3): 19:1–19:21. doi:10.1145/3068335. ISSN 0362-5915. S2CID 5156876.

[5] “TODS Home”. 《tods.acm.org》 (영어). Association for Computing Machinery. 2020년 7월 16일에 확인함.

[hdbscan1-6] Campello, Ricardo J. G. B.; Moulavi, Davoud; Sander, Joerg (2013). Pei, Jian; Tseng, Vincent S.; Cao, Longbing; Motoda, Hiroshi, 편집. 《Density-Based Clustering Based on Hierarchical Density Estimates》. Advances in Knowledge Discovery and Data Mining. Berlin, Heidelberg: Springer Berlin Heidelberg. 160–172쪽. doi:10.1007/978-3-642-37456-2_14. ISBN 978-3-642-37455-5. 2023년 8월 18일에 확인함.

[hdbscan2-7] Campello, Ricardo J. G. B.; Moulavi, Davoud; Zimek, Arthur; Sander, Jörg (2015). “Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection”. 《ACM Transactions on Knowledge Discovery from Data》 10 (1): 1–51. doi:10.1145/2733381. ISSN 1556-4681. S2CID 2887636.

[1]

[2]

[3]

[4]

[5]

[6]

[7]