고성능 GPU 클러스터 도입기 #2: 이주하는 데이터

고성능 GPU 클러스터 도입기
- 서론
- GPU 간 통신
- NVLink의 장점
- 서버 간 통신
- 인 피니 밴드의 고려사항
- 서버 간 통신 시 고려할 점
서론
고성능 GPU 클러스터를 도입하면서 통신 비용이 늘어나는 문제에 대해 다뤄보고자 한다.
GPU 간 통신
GPU 간 통신은 LLM 학습 및 추론에서 자주 발생하는데, NVLink를 이용하면 통신 성능이 향상된다.
NVLink의 장점
- 대역폭과 지연 시간이 우수하다.
- 서로 다른 GPU 사이의 효율적인 통신이 가능하다.
서버 간 통신
서버 간 통신은 다른 서버의 GPU 간 통신보다 더 비용이 많이 든다. 인 피니 밴드를 고려할 때 대역폭과 GPU 당 인 피니 밴드 카드 개수를 고려해야 한다.
인 피니 밴드의 고려사항
- 대역폭과 GPU 당 인 피니 밴드 카드 개수를 고려해야 한다.
- NVLink를 이용하고 있을 때는 서버 내 GPU가 이미 all-to-all로 연결되어 있어 추가적인 인 피니 밴드를 부착할 필요가 없다.
서버 간 통신 시 고려할 점
- 통신량이 많은 경우는 스토리지 병목이 있는지 확인해야 한다.
- GPU 간 통신이 많고 성능 병목이 있는 경우에는 NVLink, NVSwitch를 고려해야 한다.
- 서버 간 통신량이 많고 병목이 심하다면 인 피니 밴드를 고려해야 한다.