Sakin bir hafta. Manşet bu.
AİNews’u Substack’e taşıma kararını aldığımızda hedefimiz, her gün Matt Levine tarzı derinlemesine analizler sunmaktı. Ancak bazı günler kuyudan ses çıkmıyor. Bugün çığır açan, dünyayı sarsacak gelişmelerin yaşandığı bir gün değil. Çıkarım talebi ve çoklu ajan sistemleri üzerine denemelerle uğraşıyoruz ama asıl önemli kısım henüz tam pişmedi. Yine de bu, hiçbir şeyin yaşanmadığı anlamına gelmiyor. Nvidia Nemotron, Poolside ve Alec Radford modellerini piyasaya sürdü, ancak bunların ne kadar kalıcı olacağı konusunda kristal küre sisli. Ve elbette, GPT-6 fısıltıları giderek daha yüksek sesle duyulmaya başlıyor.
Yapay Zeka Haberleri, 27-28 Nisan 2026. Bir düzine subreddit’i, 544 Twitter hesabını ve itiraf etmek istemeyeceğim kadar çok sayıda Discord sunucusunu didik didik ettik. Güzel haber mi? Web sitemiz her bir raporu arşivliyor. Ve evet, AINews artık resmi olarak Latent Space’in bir bölümü. E-posta kaderinizi kontrol edebilirsiniz.
Çıkarım Motoru Cehennem Sahnesi
vLLM’in en yenisi v0.20.0, sadece bir güncelleme değil; boşa harcanan işlem döngülerine ve belleğe karşı bir savaş ilanı. Öne çıkan özellikleri, KV önbelleği için 2-bit TurboQuant ile KV kapasitesinde 4 kat artış vaadi ve SM90+ donanımlarda MLA ön yükleme için FA4’ün yeniden etkinleştirilmesi. Bu sadece hızla ilgili değil; LLM’leri ölçeklendirmede kritik bir savaş alanı olan daha azına daha fazlasını sığdırmakla ilgili. Yeni bir vLLM IR temeli ve %2.1 gecikme süresi kazancı sağlayan birleşik RMSNorm eklenince, optimizasyonun amansız ilerleyişini görüyorsunuz. Blackwell üzerinde DeepSeek V4 MegaMoE ve daha kolay GB200/Grace-Blackwell kurulumları için destek, donanım pazarında hakimiyet kurma niyetlerini gösteriyor.
Bu sırada SemiAnalysis, parçalanmış B200/B300/H200/GB200 kurulumlarında DeepSeek V4 Pro hizmetiyle ilgili bomba haberler yayınlıyor. İddiaları mı? B300, belirli iş yüklerinde H200’den 8 kat daha hızlı olabilir. Buna eşlik eden, birden fazla işlemi tek bir dev çekirdekte birleştiren DeepGEMM MegaMoE, iyi ile mükemmeli ayıran mimari sihir türüdür.
Maharshi, dinamik aktivasyon nicelemesinin ek yüklerini vurgulayarak, statik nicelemenin kalibrasyon maliyetine rağmen çıkarım hızında genellikle kazandığını savundu.
Bu dinamik esneklik ile statik verimlilik arasındaki gerilim, tekrarlayan bir tema. Jeremy Howard’ın DeepSeek V4’ün ön yükleme desteği üzerine notu – birçok sağlayıcının göz ardı ettiği bir özellik – üretim dağıtımlarındaki ince ödünleşmeleri vurguluyor. Ve ardından CUDA tekeline yönelik artan hareket geliyor. teortaxesTex, DeepSeek’in TileKernels’e yönelik yapısal kaymasının, model satıcılarının yalnızca NVIDIA’nın kapalı bahçesine değil, giderek artan bir şekilde heterojen, hatta yerli hızlandırıcı filolarına hitap edeceğini gösterebileceğini savunuyor. Eğer bu tutarsa, bu sismik bir değişim.
Yeni Modeller: Vaat ve Pratikliğin Karışık Bir Çantası
Poolside’ın girişi Laguna XS.2 ilginç. Apache 2.0 lisansıyla yayınlanan ve tek bir GPU’da çalışabileceği iddia edilen 33B toplam / 3B aktif MoE kodlama modeli. Bu, MoE alanında nadir görülen, dağıtıma uygun bir özellik. Veri, eğitim altyapısı, RL ve çıkarım yığınını kapsayan sıfırdan eğitime vurgu yapmaları, derin, entegre bir yaklaşım olduğunu gösteriyor. Topluluk notları ayrıntı ekliyor: hibrit dikkat ve FP8 KV önbelleği ile iki kodlayıcı modeli (225B/23B aktif ve 33B/3B aktif), Qwen-3.5’e yakın bir performans iddia ediyor. Ollama’nın hızlı benimsemesi çok şey anlatıyor.
NVIDIA’nın Nemotron 3 Nano Omni’si ise bu haftanın altyapı yerlisi ağır topu. Metin, görüntü, video ve ses genelinde ajan görevleri için tasarlanmış, devasa 256K bağlam penceresine sahip, açık kaynaklı 30B / A3B çok modlu MoE. Dağıtımı neredeyse anında gerçekleşti ve OpenRouter, LM Studio, Ollama ve daha fazlası gibi akla gelebilecek hemen hemen her platformda yerini aldı. Piotr Żelasko, yalnızca İngilizce olmasına dikkat çekti ancak Parakeet kodlayıcısı ile desteklenen Open ASR lider tablosunda %5.95 WER‘ini vurguladı. Birden fazla yayıncı, benzer açık kaynak çok modlu modellere göre yaklaşık 9 kat verim avantajı bildirdi. Bu, NVIDIA’nın çok modlu ajan geleceğine bayrağını diktiğini gösteriyor.
Bunların ötesinde Microsoft’un TRELLIS.2’si, 1536³ PBR dokulu varlıklar üretebilen açık kaynaklı 4B görüntüden 3D’ye model sunuyor. Dünya modeli araştırması da ilgi çekici; World-R1, mevcut video modellerinin, mimari değişiklik veya ek eğitim verisi gerektirmeden RL ile aktive edilebilen gizli 3D yapıya sahip olduğunu iddia ediyor.
Ajanlar Olgunlaşıyor: Demolardan Üretime
Yapay Zeka ajanları etrafındaki anlatı açıkça gösterişli demolar yerine üretimin inceliklerine doğru kayıyor. Mistral’in şu anda halka açık ön izlemede olan Workflows’u, kurumsal yapay zeka süreçlerini dayanıklı, gözlemlenebilir ve hataya dayanıklı hale getirmek için orkestrasyon katmanını oluşturmayı hedefliyor. Sydney Runkle’ın uzun süren ajanlar için dayanıklı yürütme çerçevesi ve threepointone’ın kalıcılık ve devamlılık sağlayan alt ajanlar üzerine çalışmaları, bu endüstriyelleşmeye işaret ediyor.
Yerel ve çevrimdışı ajanlar artık uzak bir hedef değil. Teknium’un “tamamen çevrimdışı ajanların mümkün olduğu” iddiası bir tahmin olmaktan çok bir gerçek ifadesi gibi geliyor. Niels Rogge’nin masaüstü temizliği için Pi + yerel modeller demosu ve Google Gemma’nın yerel kodlama ajanları için öğreticisi, pratik uygulamayı örneklendiriyor. Hugging Face’in yerel yeteneklere yönelik devam eden çalışmaları bu eğilimi yalnızca güçlendiriyor.
Yapay Zeka İçin Yavaş Bir Hafta mı?
Nesnel olarak evet. Geçen yıl manşetleri domine eden büyük, paradigma değiştiren model sürümleri bir soluklanma dönemine girmiş gibi görünüyor. Ama bu her zaman kötü bir şey değil. Bu konsolidasyon ve optimizasyon dönemi hayati önem taşıyor. Çıkarım verimliliğine, kodlama ve çok modlu görevler için pratik dağıtıma ve ajan orkestrasyonunun olgunlaşmasına odaklanmak, sadece bir sonraki daha büyük, daha pahalı model yerine daha derin entegrasyon ve kullanılabilirliğe doğru bir hareketi gösteriyor. Gerçek inovasyon model ağırlıklarının kendisinde değil, onları nasıl sunduğumuz, yönettiğimiz ve kullandığımız alanında gerçekleşiyor olabilir. Bu sakin dönem, bir sonraki patlayıcı dalganın temeli olabilir.
Geliştiriciler İçin Neden Önemli?
Burada detaylandırılan gelişmeler — vLLM’in verimlilik kazanımları, CUDA’dan uzaklaşan artan taşınabilirlik ve yerel/çevrimdışı ajan yeteneklerine odaklanma — geliştiriciler için doğrudan faydalar sağlıyor. vLLM, daha hızlı, daha ucuz çıkarım anlamına geliyor. CUDA’dan uzaklaşmak, daha geniş bir donanım yelpazesine erişim sağlayarak potansiyel olarak maliyetleri düşürür ve erişilebilirliği artırır. Ve yerel ajanlar için araçlar ve öğreticiler, sürekli bulut bağımlılığı olmadan güçlü yapay zeka yeteneklerini demokratikleştirerek, daha sağlam, özel uygulamalara olanak tanır. Bu, yapay zekayı daha yönetilebilir, daha erişilebilir ve nihayetinde günlük geliştirme iş akışlarında daha kullanışlı hale getirmekle ilgilidir.
🧬 İlgili İçgörüler
- Daha fazla oku: ASL-den Sese: İşaretleri Gerçek Zamanlı Çevirebilecek Kamera Sihirbazı
- Daha fazla oku: İranlı Hackerlar FBI Direktörünün Eski Gmail’ini Çaldı—FBI Sistemleri Sağlam Kaldı
Sıkça Sorulan Sorular vLLM v0.20.0 nedir? vLLM v0.20.0, bellek verimliliği ve MoE hizmetine odaklanan vLLM çıkarım motoruna yapılan önemli bir güncellemedir. Anahtar özellikler arasında artırılmış kapasite için TurboQuant 2-bit KV önbelleği ve NVIDIA Blackwell ve Grace-Blackwell gibi çeşitli donanım yapılandırmaları için gelişmiş destek yer alır.
Nvidia’nın Nemotron 3 Nano Omni’si nedir? Nemotron 3 Nano Omni, ajan görevleri için tasarlanmış NVIDIA’nın açık kaynaklı, çok modlu MoE modelidir. Metin, görüntü, video ve ses işleme desteği sunar, geniş bir bağlam penceresine sahiptir ve benzer açık modellerle karşılaştırıldığında güçlü performans artışları gösterir.
Bu yeni modeller yapay zekayı daha mı ucuz hale getirecek? vLLM optimizasyonları ve Poolside’ın tek GPU dağıtımına odaklanması, daha uygun maliyetli çıkarım eğilimlerini gösteriyor. Ham model eğitim maliyetleri yüksek kalmaya devam etse de, hizmet verimliliği ve erişilebilirlikteki iyileştirmeler, yapay zekayı kullanma maliyetini düşürmeyi hedefliyor.