[MSDS-Team-Projects]서울시 열섬 예측 ML 및 시각화 프로젝트: Databricks 활용 회고

1. 프로젝트 개요 : 데이터로 이해하는 서울시 열섬 현상

지구 온난화와 도시화가 가속화되면서, ‘열섬 현상’(Urban Heat Island)은 서울시를 비롯한 대도시의 주요 환경 문제로 부상하고 있다. 나는는 Microsoft Data School 과정에서 팀원들과 함께 서울시의 열섬 현상을 데이터 기반으로 분석하고, 그 원인을 심층적으로 탐색하는 프로젝트에 참여했다. 이 프로젝트의 궁극적인 목표는 열섬 강도(UHII: Urban Heat Island Intensity)를 예측하고, 이를 통해 도시 정책 수립에 기여할 수 있는 시뮬레이션의 기반을 다지는 것이다.

팀 내에서 나의 주요 역할은 다양한 공공 데이터의 수집 및 전처리, 그리고 탐색적 데이터 분석(EDA)을 통한 핵심 인사이트 도출이었다. 특히, Azure Databricks 환경에서 PySpark를 활용하여 방대한 데이터를 정제하고 분석 가능한 형태로 가공하는 데 집중했다.

이 프로젝트의 핵심 목표는 다음과 같았습니다.

  • 열섬 현상 예측 서비스 구축
  • 열섬 원인에 대한 시각화 및 분석 제공
  • Azure 클라우스 서비스 활용 역량 강화

팀 내에서 저는 주로 데이터 전처리와 EDA분석을 담당했습니다. 이 프로젝트는 Databricks를 핵심 분석 환경으로, Power BI와 Flask를 시각화 및 서비스 제공에 활용했습니다.

2. 프로젝트 아키텍쳐 : 데이터의 흐름을 이해하다

저희 프로젝트는 크게 웹 UI, Flask 웹 서버, 그리고 데이터 & 예측 인프라 로 구성되었습니다.

  • Databricks : 방대한 데이터를 전처리하고, 머신러닝 모델을 학습하며 예측을 수행하는 핵심 분석 엔진입니다

3. 데이터 수집 및 전처리

저희 프로젝트는 2020년부터 2024년까지의 여름철(6,7,8월) 서울시 전역 데이터를 기반으로 했습니다. 총 70,230개의 데이터를 다루었으며, 다양한 공공 데이터 포털 및 API를 통해 데이터를 수집했습니다.

주요 데이터 소스 :

  • 기상데이터 : 서울 열린데이터 광장 - 스마트서울 도시데이터 센서(S-DoT) 환경정보, 기상청 방재기상관측(AWS) 데이터
  • 녹지율 데이터: 분석 도구: Google Earth Engine (Sentinel-2 NDVI 활용)
  • 건물 밀도 데이터: 서울 열린데이터 광장 - 서울시 건축물 연면적 통계
  • 교통량 데이터: View-T 월 속도 데이터
  • 인구 밀도 데이터: 서울 열린데이터 광장 - 서울시 인구밀도 통계
  • 차량 등록 대수 데이터: 서울 열린데이터 광장 - 서울시 자치구별 연료별 자동차 등록 현황

수집된 데이터는 Azure Databricks 환경에서 Pyspark를 활용하여 전처리 되었습니다. 이 과정에서 누락값처리, 이상치 제거, 데이터 타입 변환, 그리고 다양한 피처 엔지니어링이 수행되었습니다.

2025

2025-07-01

less than 1 minute read

1. 서론 : 왜 Azure Stream Analytics인가 ?

2025-06-20-Azure-Functions

13 minute read

### [MicroSoft Data School] Azure Functions : 서버리스 기반의 효율적인데이터 수집 및 파이프라인 트리거

Back to top ↑