Salting 기법 예제 코드
Salting 기법
Salting 기법은 데이터 쏠림 문제를 해결하기 위한 기법으로, 기존 데이터에 새로운 join key를 추가하여 데이터를 더 잘게 쪼개주는 것입니다.
간단한 예제 코드를 통해 Salting 기법을 사용하여 데이터 분산 처리를 확인할 수 있습니다. 데이터에 소금( ) 열을 추가하여 각 데이터를 더 잘게 쪼개어 JOIN 과정에서 데이터 쏠림을 완화시킵니다.
보다 심화된 버전의 Salting join 코드에서는 지역별 선수 숫자 데이터를 활용하여 적절한 크기로 데이터를 나누어 줌으로써, 데이터 쏠림 문제를 해결합니다.
Salting 기법은 데이터의 규모가 커지거나 각 데이터에 대한 계산 과정이 복잡해진 경우에 유용하게 활용될 수 있는 기법입니다.