2025-07-14-데이터 정규화
[데이터 엔지니어링] 데이터 정규화(Normalization) : 비교 가능한 데이터를 만드는 방법
[데이터 엔지니어링] 데이터 정규화(Normalization) : 비교 가능한 데이터를 만드는 방법
초당 수백만 건, 데이터를 실시간으로 다루는 법
Azure Event Hubs: 대규모 실시간 데이터 스트리밍의 핵심 허브
1. 서론 : 왜 서버리스 컴퓨팅(Azure Functions)인가?
1. 서론: Python과 Pandas의 한계, 그리고 PySpark & Databricks의 필요성
Power BI란?
1. Pandas로는 부족했던 이유, Pyspark가 필요한 배경
[Learn] Python 기초와 데이터 처리: 데이터 엔지니어의 필수 도구
지금까지 우리는 ‘나만의 최적 여행지 추천 시스템’ 프로젝트의 초기 비전부터 데이터 수집 과정에서의 HTTP 429 오류 해결, 그리고 복잡한 데이터 통합 및 아키텍처 진화 과정까지 살펴보았다. 모든 데이터 파이프라인의 핵심 기능은 성공적으로 구현되었고, 로컬 환경에서 안정적으로 ...
데이터 수집 단계에서 Google Trends HTTP 429 오류를 해결하고 필요한 데이터를 안정적으로 Azure Event Hubs에 모았다. 이제 수집된 원시 데이터를 가공하고 통합하여 ‘여행지 매력도 점수’를 산출하는 단계로 넘어왔다.
지난 첫 번째 포스팅에서는 ‘나만의 최적 여행지 추천 시스템’ 프로젝트의 초기 비전과 데이터를 수집 및 처리하기 위한 전반적인 설계 방향을 소개했다. 하지만 구상과 현실은 달랐다. 프로젝트의 첫 번째 관문이자 가장 큰 도전은 바로 다양한 외부 데이터를 안정적으로 수집하는 과정에서 ...
1. 프로젝트 개요