Feed

open-index/hacker-news · Datasets at Hugging Face

OpenIndex

2026.03.25

·Hugging Face·by 배레온/부산/개발자

#data analysis#dataset#Hacker News#Hugging Face#NLP

핵심 포인트

1이 데이터셋은 2006년 10월부터 2026년 3월까지의 모든 Hacker News 아이템(스토리, 댓글, 설문조사 등)을 포함하며, 4,740만 개 이상의 항목으로 5분마다 실시간 업데이트됩니다.
2데이터는 월별 Parquet 파일로 구성되어 있으며, 당일 활동은 5분 단위의 Parquet 블록으로 저장되고 매일 자정 UTC에 월별 파일로 통합됩니다.
3사용자는 DuckDB, Hugging Face의 `datasets` 라이브러리, `huggingface_hub`, 또는 pandas를 통해 이 데이터에 쉽게 접근하고 분석할 수 있습니다.

SELECT "by", count(*) AS posts FROM read_parquet('hf://datasets/open-index/hacker-news/data/*/*.parquet') WHERE type = 1 AND title LIKE 'Ask HN:%' GROUP BY "by" ORDER BY posts DESC LIMIT 20;

Feed

OpenIndex

2026.03.25

·Hugging Face·by 배레온/부산/개발자

#data analysis#dataset#Hacker News#Hugging Face#NLP

1이 데이터셋은 2006년 10월부터 2026년 3월까지의 모든 Hacker News 아이템(스토리, 댓글, 설문조사 등)을 포함하며, 4,740만 개 이상의 항목으로 5분마다 실시간 업데이트됩니다.
2데이터는 월별 Parquet 파일로 구성되어 있으며, 당일 활동은 5분 단위의 Parquet 블록으로 저장되고 매일 자정 UTC에 월별 파일로 통합됩니다.
3사용자는 DuckDB, Hugging Face의 `datasets` 라이브러리, `huggingface_hub`, 또는 pandas를 통해 이 데이터에 쉽게 접근하고 분석할 수 있습니다.

SELECT "by", count(*) AS posts FROM read_parquet('hf://datasets/open-index/hacker-news/data/*/*.parquet') WHERE type = 1 AND title LIKE 'Ask HN:%' GROUP BY "by" ORDER BY posts DESC LIMIT 20;