1. 데이터 정제
결측치, 이상치 확인
- Null: JOIN 후 매칭되는 데이터가 없거나 원래 누락된 경우.
처리 방법
1. is not null: 값이 있는 데이터만 필터링.
2. if(rating>=1, rating, 대체값): 조건문을 사용하여 다른 값으로 대체.
3. coalesce(column, 대체값): 해당 컬럼이 Null일 때 지정한 값으로 한 번에 채우기. - 이상치: 나이가 2세이거나 100세 이상인 경우 등 상식 밖의 데이터.
처리 방법
: case when 조건문을 사용하여 값의 범위를 강제로 지정. (예: 15세 미만은 15로, 80세 초과는 80으로 처리)
2. SQL로 Pivot Table 만들기
- 핵심 원리
:group by로 행을 설정, if 또는 case when문을 사용해 각 조건에 맞는 값을 열로 펼친 뒤 집계 함수(sum, count 등)를 적용.
3. Window Function: 순위와 누적합 계산하기
- 각 행 간의 관계를 정의하여 그룹 내 연산을 매우 쉽게 만들어주는 심화 문법
- 주요 함수
RANK()
SUM() OVER: 누적합 - 기본 구조: window_function(인자) over (partition by 그룹기준 order by 정렬기준)
4. 날짜 포맷과 조건 활용하기
- 문자나 숫자 형태의 날짜 데이터를 실제 날짜 타입으로 변경하고 원하는 형식으로 가공하는 방법
- 주요 기능
- date(column): 문자열 데이터를 날짜 형식으로 변환
- date_format(date, '%Y-%m'): 연도, 월, 일, 요일 등 필요한 정보만 추출하여 포맷을 변경
- 활용 예시:년도별/월별 주문 건수 집계, 특정 날짜 이후의 데이터 필터링 등 시계열 분석에 필수적