AI Hardware

엔비디아 넴트로, 풀사이드 LLM 및 vLLM 업데이트 소식

AI 분야는 이번 주 모델 출시가 조용했지만, 엔비디아의 넴트로 3 나노 옴니와 풀사이드의 라구나 XS.2가 주목받았습니다. 한편, 추론 엔진 vLLM은 끊임없는 최적화 행진을 이어가고 있습니다.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
AI 모델과 하드웨어를 나타내는 상호 연결된 노드들의 개략적인 다이어그램, 데이터 흐름과 최적화 경로를 나타내는 화살표 포함.

Key Takeaways

  • vLLM v0.20.0은 TurboQuant KV 캐시와 하드웨어 최적화를 통해 추론 효율성을 크게 향상시킵니다.
  • NVIDIA의 넴트로 3 나노 옴니는 에이전트 작업을 위한 강력한 오픈소스 멀티모달 MoE 모델로 널리 배포됩니다.
  • 풀사이드의 라구나 XS.2는 Apache 2.0 라이선스 하에 실용적인 단일 GPU 배포 가능한 MoE 코딩 모델을 제공합니다.
  • AI 모델에서 멀티벤더 하드웨어 지원 및 CUDA 종속성 탈피 추세가 두드러집니다.
  • AI 에이전트 개발은 데모 단계에서 벗어나 강력한 프로덕션 준비 오케스트레이션으로 발전하고 있습니다.

조용했다. 이게 이번 주 헤드라인입니다.

AINews를 Substack으로 이전하기로 했을 때, 목표는 매일같이 맷 레빈 풍의 심층 분석이었습니다. 하지만 때로는 샘이 마를 때도 있죠. 오늘은 획기적이고 세상을 뒤흔들 만한 발표가 나온 날은 아닙니다. 추론 수요와 멀티 에이전트 시스템에 대한 에세이를 작업 중이지만, 아직 제대로 된 내용은 준비되지 않았습니다. 그렇다고 아무 일도 없었던 건 아닙니다. 엔비디아 넴트로, 풀사이드, 그리고 알렉 래드포드가 모델을 출시했지만, 이들의 수명이 얼마나 갈지는 미지수입니다. 물론, GPT-6에 대한 소문도 서서히 커지고 있습니다.

AI 뉴스, 2026년 4월 27일-28일. 우리는 수십 개의 서브레딧, 544개의 트위터, 그리고 차마 말하기도 힘든 수많은 디스코드를 샅샅이 뒤졌습니다. 좋은 소식이요? 우리 웹사이트는 모든 소식을 기록하고 있습니다. 네, AINews는 이제 공식적으로 Latent Space의 일부가 되었습니다. 여러분의 이메일 운명을 통제할 수 있습니다.

추론 엔진의 격전

vLLM의 최신 버전인 v0.20.0은 단순한 업데이트가 아닙니다. 낭비되는 연산과 메모리에 대한 선전포고입니다. 주요 기능은 터보퀀트 2비트 KV 캐시로, KV 용량을 4배 늘린다고 약속하며, SM90+ 하드웨어에서 MLA 사전 채널링을 위한 FA4를 다시 활성화했습니다. 이것은 단순히 속도에 관한 것이 아니라, LLM 확장에 있어 핵심적인 격전지인 ‘적은 자원으로 더 많은 것을 담는 것’에 관한 것입니다. 새로운 vLLM IR 기반과 융합된 RMSNorm으로 2.1%의 지연 시간 단축까지 더하면, 끊임없는 최적화 행진을 볼 수 있습니다. 블랙웰 상의 DeepSeek V4 MegaMoEGB200/Grace-Blackwell 설정을 더 쉽게 지원하는 것은 하드웨어 시장을 장악하겠다는 그들의 의도를 보여줍니다.

한편, SemiAnalysis는 분산된 B200/B300/H200/GB200 설정에서 DeepSeek V4 Pro를 서비스하는 것에 대한 폭탄 선언을 하고 있습니다. 그들의 주장은? B300이 특정 워크로드에서 H200보다 8배 빠를 수 있다는 것입니다. 여러 연산을 단일 메가 커널로 융합하는 accompanying DeepGEMM MegaMoE는 좋은 것과 위대한 것을 구분하는 건축 마법입니다.

마하라시(Maharshi)는 동적 활성화 양자화의 오버헤드를 지적하며, 정적 양자화가 보정 비용에도 불구하고 추론 속도에서 종종 이긴다고 주장했습니다.

동적 유연성과 정적 효율성 사이의 이러한 긴장감은 반복되는 주제입니다. 제레미 하워드의 DeepSeek V4 사전 채널링 지원에 대한 노트는 — 많은 제공업체가 뒷전으로 미뤄둔 기능 — 프로덕션 배포에서 발생하는 미묘한 절충점을 강조합니다. 그리고 CUDA 독점에 대한 움직임이 커지고 있다는 점도 있습니다. teortaxesTex는 DeepSeek의 TileKernels로의 구조적 전환이 모델 공급업체들이 NVIDIA의 폐쇄적인 정원뿐만 아니라, 이기종적인, 심지어 국내 가속기 함대까지 점차 지원하게 될 수 있음을 의미할 수 있다고 주장합니다. 이것이 자리 잡는다면 엄청난 변화입니다.

새로운 모델: 약속과 실용성의 혼합

풀사이드의 라구나 XS.2 등장은 흥미롭습니다. Apache 2.0 라이선스로 출시된 33B 전체 / 3B 활성 MoE 코딩 모델로, 단일 GPU에서 실행된다고 광고합니다. MoE 분야에서는 드문, 배포 친화적인 모델입니다. 데이터, 훈련 인프라, RL, 추론 스택까지 포괄하는 처음부터의 훈련에 대한 그들의 강조는 깊고 통합된 접근 방식을 시사합니다. 커뮤니티 노트는 디테일을 더합니다: 하이브리드 어텐션FP8 KV 캐시를 갖춘 두 개의 코더 모델(225B/23B 활성 및 33B/3B 활성)은 Qwen-3.5에 가까운 성능을 주장합니다. Ollama의 빠른 채택은 많은 것을 말해줍니다.

한편, NVIDIA의 넴트로 3 나노 옴니는 이번 주 인프라 네이티브의 강자입니다. 텍스트, 이미지, 비디오, 오디오 전반에 걸쳐 에이전트 작업에 최적화된, 방대한 256K 컨텍스트 창을 가진 오픈 30B / A3B 멀티모달 MoE입니다. OpenRouter, LM Studio, Ollama 등 거의 모든 플랫폼에서 거의 즉각적으로 배포되었습니다. Piotr Żelasko는 영어 전용이라는 점을 언급했지만, Parakeet 인코더를 기반으로 Open ASR 리더보드에서 5.95%의 WER을 기록했다는 점을 강조했습니다. 여러 호스트는 유사한 오픈 옴니 모델에 비해 ~9배의 처리량 이점을 보고했습니다. 이는 NVIDIA가 멀티모달 에이전트 미래에 확실히 깃발을 꽂는 것입니다.

이 외에도 Microsoft의 TRELLIS.2는 1536³ PBR 텍스처 애셋을 생성할 수 있는 오픈소스 4B 이미지-3D 모델을 제공합니다. 월드 모델 연구 또한 흥미로운데, World-R1은 기존 비디오 모델이 이미 RL로 활성화될 수 있는 잠재적인 3D 구조를 가지고 있으며, 아키텍처 변경이나 추가 훈련 데이터가 필요 없다고 주장합니다.

에이전트의 성숙: 데모에서 프로덕션으로

AI 에이전트에 대한 이야기는 분명히 화려한 데모에서 프로덕션의 핵심으로 옮겨가고 있습니다. 이제 공개 미리 보기 상태인 Mistral의 Workflows는 엔터프라이즈 AI 프로세스를 내구성 있고, 관찰 가능하며, 오류 내성 있게 만드는 오케스트레이션 레이어를 목표로 합니다. 장기 실행 에이전트에 대한 내구성 있는 실행이라는 시드니 렁클의 프레이밍과, 지속성과 재개를 갖춘 서브에이전트에 대한 threepointone의 작업은 모두 이러한 산업화로 향하고 있습니다.

로컬 및 오프라인 에이전트는 더 이상 먼 미래의 열망이 아닙니다. 테크니움(Teknium)이 “완전히 오프라인 에이전트가 가능하다”고 주장한 것은 예측이라기보다는 사실 선언처럼 느껴집니다. 닐스 로게(Niels Rogge)의 Pi + 로컬 모델을 사용한 데스크톱 정리 데모와 Google Gemma의 로컬 코딩 에이전트 튜토리얼은 실제 구현을 보여줍니다. Hugging Face가 지속적으로 로컬 기능 확대를 추진하는 것은 이러한 추세를 더욱 강화합니다.

AI에 느린 한 주인가?

객관적으로 볼 때 그렇습니다. 작년에 헤드라인을 장식했던 크고 패러다임을 바꾸는 모델 출시는 잠시 휴식을 취하는 것 같습니다. 하지만 이것이 반드시 나쁜 것은 아닙니다. 이 통합 및 최적화 기간은 매우 중요합니다. 추론 효율성, 코딩 및 멀티모달 작업을 위한 실용적인 배포, 그리고 에이전트 오케스트레이션의 성숙에 대한 초점은 단순히 더 크고 비싼 다음 모델이 아니라, 더 깊은 통합과 사용성으로의 이동을 시사합니다. 진정한 혁신은 모델 가중치 자체보다는, 우리가 그것들을 어떻게 제공하고, 관리하며, 사용하는지에 있을 수 있습니다. 이 조용한 기간이 다음 폭발적인 파동의 기초가 될 수 있습니다.

개발자에게 왜 중요한가?

vLLM의 효율성 향상, CUDA로부터의 이식성 증가, 로컬/오프라인 에이전트 기능에 대한 초점과 같은 여기서 설명된 발전은 개발자에게 직접적인 이익입니다. vLLM은 더 빠르고 저렴한 추론을 의미합니다. CUDA로부터의 이동은 더 넓은 범위의 하드웨어에 대한 접근을 의미하며, 잠재적으로 비용을 절감하고 접근성을 높일 수 있습니다. 그리고 로컬 에이전트를 위한 도구와 튜토리얼은 강력한 AI 기능을 민주화하여, 지속적인 클라우드 의존 없이 더 강력하고 개인적인 애플리케이션을 만들 수 있게 합니다. 이는 AI를 더 관리하기 쉽고, 더 접근 가능하며, 궁극적으로 일상적인 개발 워크플로우에서 더 유용하게 만드는 것에 관한 것입니다.


🧬 관련 인사이트

자주 묻는 질문 vLLM v0.20.0이란 무엇인가요? vLLM v0.20.0은 vLLM 추론 엔진의 중요한 업데이트로, 메모리 효율성과 MoE 서빙에 중점을 둡니다. 주요 기능에는 용량 증가를 위한 TurboQuant 2비트 KV 캐시와 NVIDIA Blackwell 및 Grace-Blackwell과 같은 다양한 하드웨어 구성을 위한 향상된 지원이 포함됩니다.

NVIDIA 넴트로 3 나노 옴니란 무엇인가요? Nemotron 3 Nano Omni는 NVIDIA의 오픈소스 멀티모달 MoE 모델로, 에이전트 워크로드에 최적화되어 있습니다. 텍스트, 이미지, 비디오, 오디오 처리를 지원하며 큰 컨텍스트 창을 가지고 있고 유사한 오픈 모델에 비해 강력한 성능 향상을 보여줍니다.

이 새로운 모델들이 AI 비용을 낮출까요? vLLM 최적화와 풀사이드의 단일 GPU 배포 집중은 더 비용 효율적인 추론을 향한 추세를 시사합니다. 원시 모델 훈련 비용은 여전히 높지만, 서빙 효율성과 접근성 개선은 AI 사용 비용을 낮추는 것을 목표로 합니다.

Written by
theAIcatchup Editorial Team

AI news that actually matters.

Worth sharing?

Get the best AI stories of the week in your inbox — no noise, no spam.

Originally reported by Latent Space