Blog

Document Clustering with LLM Embeddings in Scikit-learn - MachineLearningMastery.com

Iván Palomares Carrascosa

2026.02.11

·Web·by 이호민

#Document Clustering#Embeddings#K-Means#LLM#Scikit-learn

핵심 포인트

1이 논문은 LLM 기반 임베딩과 scikit-learn의 표준 클러스터링 알고리즘을 사용하여 텍스트 문서를 클러스터링하는 방법을 시연합니다.
2구체적으로, BBC News 데이터셋에 대해 SentenceTransformer로 임베딩을 생성한 후 K-Means와 DBSCAN을 적용하고, PCA 시각화를 통해 그 결과를 비교 분석합니다.
3실험 결과, 이 데이터셋의 잘 분리된 클러스터 구조와 임베딩의 높은 차원 때문에 K-Means가 DBSCAN보다 더 나은 성능을 보였습니다.

batch_size=32

Blog

Iván Palomares Carrascosa

2026.02.11

·Web·by 이호민

#Document Clustering#Embeddings#K-Means#LLM#Scikit-learn

1이 논문은 LLM 기반 임베딩과 scikit-learn의 표준 클러스터링 알고리즘을 사용하여 텍스트 문서를 클러스터링하는 방법을 시연합니다.
2구체적으로, BBC News 데이터셋에 대해 SentenceTransformer로 임베딩을 생성한 후 K-Means와 DBSCAN을 적용하고, PCA 시각화를 통해 그 결과를 비교 분석합니다.
3실험 결과, 이 데이터셋의 잘 분리된 클러스터 구조와 임베딩의 높은 차원 때문에 K-Means가 DBSCAN보다 더 나은 성능을 보였습니다.

batch_size=32