AI Tools

SageMaker AI, GPU 부족 시 자동 예비 인스턴스로 가동 시간 보장

필요한 GPU가 갑자기 동나서 AI 엔드포인트가 멈추는 일, 지긋지긋하셨죠? Amazon SageMaker가 AI 트래픽 관리처럼, 배포를 가능한 하드웨어로 지체 없이 전환해주는 기능을 내놨습니다.

SageMaker AI 엔드포인트로 향하는 우선순위 인스턴스 유형 목록을 보여주는 다이어그램.

Key Takeaways

  • Amazon SageMaker AI가 우선순위별 인스턴스 풀을 지원하여 추론 엔드포인트에서 용량 부족 문제를 해결합니다.
  • 이 기능은 인스턴스 유형 목록을 통해 엔드포인트 배포를 자동화하여 수동 개입을 줄입니다.
  • 용량 인식 추론은 생성, 자동 확장 및 축소 이벤트 중 엔드포인트 가동 시간을 개선합니다.
  • 사용자는 풀 내의 다양한 인스턴스 유형과 모델 호환성을 보장해야 하며, 잠재적으로 최적화된 모델 아티팩트가 필요할 수 있습니다.
  • 향상된 관찰 기능은 성능 모니터링 및 디버깅을 위해 인스턴스 유형별 지표를 제공합니다.

스크롤을 멈추게 할 만한 통계가 있습니다. 생성형 AI 워크로드를 확장하려는 조직에게 안정적인 GPU 컴퓨팅을 확보하는 것은 가장 지속적인 운영상의 난관 중 하나였습니다. 속도나 비용이 아니라, 그냥 그 망할 놈을 실행시키는 것 말입니다. 마치 매진된 콘서트의 맨 앞 좌석을 예약하려는데, 공연장에 갑자기 의자가 부족하다는 것을 알게 된 것과 같아요.

오랫동안 Amazon SageMaker AI에서 실시간 추론 엔드포인트를 배포하는 것은 고위험 도박 게임이었습니다. 적절한 GPU와 완벽한 VRAM 용량을 갖춘 이상적인 인스턴스 유형을 선택하고 배포 버튼을 누르면 되죠. 만약 해당 특정 하드웨어를 사용할 수 없다면? 뿅. 엔드포인트 생성 실패. 그러고는 설정을 바꾸고, 다른 유형을 시도하고, 이 과정을 반복하며 귀중한 개발자 시간을 낭비하고 중요한 시장 기회를 놓치기도 했습니다. 정말 번거롭고 수동적인 춤이었죠.

하지만 이제 SageMaker AI가 새로운 용량 인식 인스턴스 풀로 이 판도를 뒤집으려 합니다. 이건 단순한 점진적 업데이트가 아닙니다. AI를 대규모로 배포하는 방식에 대한 근본적인 변화입니다. 마치 끊임없는 교통 체증에 시달리는 편도 1차선 도로에서 스마트 라우팅이 가능한 다차선 고속도로로 이동하는 것과 같습니다.

단일 인스턴스 유형의 문제점

이 문제는 결코 사소하지 않았습니다. 특히 수요가 엄청난 최첨단 GPU와 같이 특정하고 희소한 AI 하드웨어에 의존하는 무언가를 구축할 때, 생성 시점에 하나의 인스턴스 유형만 고집하는 것은 재앙을 불러오는 지름길이었습니다. 해당 유형의 용량이 부족하면 엔드포인트는 실행 상태에 도달조차 하지 못했습니다. 뿐만 아니라, 생성 시점뿐만 아니라 자동 확장도 최대치에 도달한 유형을 프로비저닝하려 애쓰다 멈출 수 있었습니다. 축소도 마찬가지로 지능적이지 못했죠. 단순히 무작위로 인스턴스를 제거할 뿐이었습니다. 더 나쁜 것은, 문제가 발생했을 때 CloudWatch 지표는 집계되어 무언가 잘못되었다는 것은 알려주지만, 어디서 또는 인지는 알려주지 못했습니다.

“해당 용량을 사용할 수 없을 때, 엔드포인트는 요청을 처리하기 전에 실패합니다.”

이것이 바로 Amazon SageMaker AI가 해결하려는 핵심 고통점입니다. AI 모델을 프로덕션으로 가져오는 경로에서 마찰을 제거하는 것에 관한 것이죠.

엔드포인트가 실제로 시작될 것입니다

그렇다면 이 마법은 어떻게 작동할까요? 이제 우선순위가 지정된 인스턴스 유형 목록, 즉 인스턴스 풀을 정의할 수 있습니다. SageMaker AI는 이제 지능형 배포 에이전트가 됩니다. 첫 번째 선택 인스턴스 유형을 시도합니다. 용량이 제약적이면, 즉시 두 번째, 세 번째 선택지로 이동합니다. 더 이상 수동으로 재시도할 필요가 없습니다. 엔드포인트는 귀하의 기준을 충족하는 첫 번째 사용 가능한 AI 인프라에서 프로비저닝됩니다. 이는 모델이 더 빠르게 트래픽을 처리하고 팀이 인프라 씨름이 아닌 혁신에 집중할 수 있음을 의미합니다.

이것은 초기 배포에만 국한되지 않습니다. 트래픽 급증 시 자동 확장 프로그램이 확장해야 하는데 최상위 인스턴스 유형이 모두 사용 중이라면, SageMaker AI는 풀에서 다음 사용 가능한 유형으로 부드럽게 전환합니다. 애플리케이션은 반응성을 유지합니다. 축소 시에는 시스템이 하위 우선순위의 예비 인스턴스를 먼저 지능적으로 제거합니다. 시간이 지남에 따라 선호하는 하드웨어를 다시 사용할 수 있게 되면, 귀하의 플릿은 자연스럽게 재조정되어 가장 최적화되고 아마도 비용 효율적인 인스턴스 유형으로 다시 이동합니다. 이는 자체 복구되고 지능적으로 적응하는 배포입니다.

그리고 관찰 가능성은 어떻습니까? 이제 세분화되었습니다. 모든 CloudWatch 지표에는 이제 InstanceType 차원이 포함됩니다. 단일 엔드포인트 내에서 인스턴스 유형별 지연 시간, 처리량, GPU 사용률 및 인스턴스 수를 추적할 수 있습니다. 이 수준의 세부 정보는 디버깅 및 성능 최적화에 있어 금과 같습니다.

모델-인스턴스 매치 게임

이제 이곳에서 상황이 정말로 흥미로워지며, 약간의 인간-AI 협업이 필요합니다. 예비 인스턴스 유형은 종종 다른 사양을 가집니다. GPU 메모리가 더 적거나, 다른 컴퓨팅 기능이 있거나, 완전히 다른 아키텍처를 가질 수도 있습니다. 대규모 멀티 GPU 시스템에 최적화된 모델은 작고 단일 GPU인 예비 인스턴스에서 버벅거릴 수 있습니다. SageMaker AI는 이를 마법처럼 해결해주지 않습니다. 프레임워크를 제공하지만, 적절한 하드웨어에 적절한 모델을 제공해야 합니다.

이는 모델 아티팩트를 신중하게 준비해야 함을 의미합니다. 최상위 고성능 인스턴스의 경우, 여러 GPU에 걸친 텐서 병렬화와 같은 고급 기술을 사용할 수 있습니다. 중간 계층 예비 인스턴스의 경우, 추측 디코딩이 추론을 가속화할 수 있습니다. 가장 낮은 우선순위 인스턴스, 즉 아무것도 사용할 수 없을 때 사용할 인스턴스의 경우, INT4 양자화를 사용하여 모델을 더 작은 메모리 예산에 맞출 수 있습니다. 각 구성에 대해 별도의 SageMaker 모델을 만들고 인스턴스 풀 구성의 ModelNameOverride를 사용하여 참조해야 합니다.

대안으로, 모델이 비교적 유연하고 고도로 특화된 최적화가 필요하지 않다면, SageMaker AI는 전체 인스턴스 풀에 걸쳐 단일 모델 아티팩트를 자동으로 사용할 수 있습니다. 이는 모델의 복잡성과 성능 요구 사항에 따라 적절한 접근 방식을 선택하는 것입니다. 이러한 유연성은 진정한 복원력을 발휘하는 데 핵심입니다.

나만의 독특한 통찰: 이 기능의 핵심은 클라우드 대기업이 AI 배포가 더 이상 단순한 강력한 성능만이 아니라 가용성지능적인 리소스 할당임을 인정했다는 것입니다. 수년 동안 우리는 더 강력한 GPU의 필요성에 대해 이야기해왔습니다. 이제 대화는 우리가 사용 가능한 것을 유연하고 안정적으로 액세스하는 방법에 대해 이야기하고 있습니다. 이는 AI 추론을 경직된, 프로비저닝하고 기도하는 모델에서 동적이고 적응적인 시스템으로 이동시키는 플랫폼의 변화입니다. 이는 단 하나의 고도로 특화된 도구를 소유하는 것과 작업에 적응하는 다재다능한 도구 키트를 갖는 것의 차이입니다.

개발자에게 이것이 왜 중요할까요?

개발자에게 이것은 엄청난 승리입니다. Insufficient Capacity 오류에 대한 밤샘 걱정이 줄어듭니다. 배포가 더 안정적이어서 반복 주기가 빨라집니다. 더 큰 확신을 가지고 복잡한 AI 애플리케이션을 구축하고 확장할 수 있음을 의미합니다. 불안정한 하드웨어 가용성이라는 마찰 지점이 크게 줄어들어 팀은 AI를 실행하는 것뿐만 아니라 더 나은 AI를 구축하는 데 집중할 수 있습니다.

또한 더 고급 AI 배포에 대한 액세스를 민주화합니다. 이전에는 고가용성을 보장하려면 복잡한 사용자 지정 솔루션이나 여러 지역에 걸친 플릿 유지 관리가 필요했을 수 있습니다. 이제 SageMaker AI 내의 잘 구성된 인스턴스 풀은 훨씬 적은 노력으로 상당한 수준의 복원력을 제공할 수 있습니다.


🧬 관련 인사이트

자주 묻는 질문

용량 인식 추론이란 무엇인가요?

Amazon SageMaker AI 엔드포인트가 선택한 인스턴스가 용량 제약으로 인해 사용할 수 없을 때 우선순위가 지정된 여러 인스턴스 유형을 자동으로 시도하여 엔드포인트가 성공적으로 배포되도록 합니다.

이것이 ML 운영 엔지니어로서 제 일자리를 대체할까요?

아니요, 하지만 당신의 초점을 크게 바꿀 것입니다. 수동 재시도 및 기본 용량 관리 시간을 보내는 대신, 모델 최적화, 고급 성능 튜닝 및 전략적 인프라 계획과 같은 더 높은 가치를 지닌 작업에 집중할 수 있게 될 것입니다.

풀에서 어떤 인스턴스 유형이든 사용할 수 있나요?

모델에 대해 SageMaker AI 엔드포인트에서 지원하는 모든 인스턴스 유형을 사용할 수 있습니다. 그러나 특히 사양이 다른 예비 옵션의 경우, 모델 아티팩트가 풀의 인스턴스 유형 하드웨어 특성과 호환되는지 확인해야 합니다.

Written by
theAIcatchup Editorial Team

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by AWS Machine Learning Blog