Toss Tech BLog

고성능 GPU 클러스터 도입기 #2: 이주하는 데이터

thumbnail

고성능 GPU 클러스터 도입기

  • 서론
  • GPU 간 통신
    • NVLink의 장점
  • 서버 간 통신
    • 인 피니 밴드의 고려사항
    • 서버 간 통신 시 고려할 점

서론

고성능 GPU 클러스터를 도입하면서 통신 비용이 늘어나는 문제에 대해 다뤄보고자 한다.

GPU 간 통신

GPU 간 통신은 LLM 학습 및 추론에서 자주 발생하는데, NVLink를 이용하면 통신 성능이 향상된다.

NVLink의 장점

  • 대역폭과 지연 시간이 우수하다.
  • 서로 다른 GPU 사이의 효율적인 통신이 가능하다.

서버 간 통신

서버 간 통신은 다른 서버의 GPU 간 통신보다 더 비용이 많이 든다. 인 피니 밴드를 고려할 때 대역폭과 GPU 당 인 피니 밴드 카드 개수를 고려해야 한다.

인 피니 밴드의 고려사항

  • 대역폭과 GPU 당 인 피니 밴드 카드 개수를 고려해야 한다.
  • NVLink를 이용하고 있을 때는 서버 내 GPU가 이미 all-to-all로 연결되어 있어 추가적인 인 피니 밴드를 부착할 필요가 없다.

서버 간 통신 시 고려할 점

  • 통신량이 많은 경우는 스토리지 병목이 있는지 확인해야 한다.
  • GPU 간 통신이 많고 성능 병목이 있는 경우에는 NVLink, NVSwitch를 고려해야 한다.
  • 서버 간 통신량이 많고 병목이 심하다면 인 피니 밴드를 고려해야 한다.