Büyük dil modelleri (LLM'ler), sohbet botlarından kod asistanlarına ve bilimsel araştırma araçlarına kadar her şeyi güçlendirerek yapay zeka alanını kökten değiştirdi. Ancak birçok uygulayıcı ve meraklı için bu sistemlerin iç işleyişi hala sis perdesinin ardında. LLM'lerin aslında nasıl işlediğini anlamak, yapay zeka teknolojisiyle geliştirme yapan, onu değerlendiren veya bu konuda kararlar alan herkes için hayati önem taşıyor.
Bu rehber, modern LLM'lerin üç temel taşıyıcısını; transformer mimarisini, dikkat mekanizmasını ve insan dilini bir sinir ağının anlayabileceği bir şeye dönüştüren tokenizasyon sürecini ele alıyor.
Transformer Mimarisi: Bir Paradigma Değişikliği
Transformer'lar 2017'de sahneye çıkmadan önce, doğal dil işlemenin büyük çoğunluğu tekrarlayan sinir ağlarına (RNN) ve uzun kısa süreli bellek ağlarına (LSTM) dayanıyordu. Bu mimariler metni adım adım, kelime kelime işlerdi ve bu da iki ciddi soruna yol açıyordu: eğitilmeleri yavaştı ve uzun metinlerde bağlamı korumakta zorlanıyorlardı.
Vaswani ve arkadaşlarının öncü makalesi Attention Is All You You Need'de tanıttığı transformer, tüm dizileri paralel olarak işleyerek bu iki sorunu da çözüverdi. Bir cümleyi kelime kelime okumak yerine, transformer tüm kelimeleri aynı anda inceler ve aralarındaki ilişkileri öğrenir.
Bir transformer iki ana bileşenden oluşur: girdi metnini okuyan ve anlayan bir kodlayıcı (encoder) ve çıktı metnini üreten bir kod çözücü (decoder). BERT gibi modeller sadece kodlayıcıyı kullanırken, GPT tarzı modeller sadece kod çözücüyü kullanır. Orijinal transformer, makine çevirisi görevleri için her ikisini de kullanmıştı.
Her kodlayıcı ve kod çözücü katmanı iki alt katman içerir: çok başlı öz-dikkat mekanizması (multi-head self-attention) ve konuma duyarlı ileri beslemeli ağ (position-wise feed-forward network). Artık bağlantılar (residual connections) ve katman normalizasyonu (layer normalization) her alt katmanı sararak eğitimi dengeler ve gradyanların kaybolmadan derin ağlar üzerinden akmasını sağlar.
Öz-Dikkat: Modeller Bağlamı Nasıl Anlar?
Öz-dikkat mekanizması, transformer'daki belki de en can alıcı yeniliktir. Modelin bir dizideki her kelimenin önemini, diğer her kelimeye göre ağırlıklandırmasına olanak tanır ve önceki mimarilerin gözden kaçırdığı uzun mesafeli bağımlılıkları yakalar.
Öz-dikkat şu adımlarla çalışır:
- Sorgu, Anahtar ve Değer vektörleri: Girişteki her token için model, token'ın gömülmesini öğrenilmiş ağırlık matrisleriyle çarparak üç vektör oluşturur. Sorgu (query), token'ın ne aradığını temsil eder; anahtar (key), token'ın ne sunduğunu temsil eder; değer (value) ise taşınan gerçek bilgiyi temsil eder.
- Dikkat puanları: Model, her sorgu ile tüm anahtarlar arasında bir nokta çarpımı hesaplar. Bu, bir token'ın diğerine ne kadar dikkat etmesi gerektiğini gösteren bir puan üretir. Bu puanlar, aşırı büyük değerleri önlemek için anahtar boyutunun karekökü ile ölçeklendirilir.
- Softmax normalizasyonu: Ölçeklenmiş puanlar bir softmax fonksiyonundan geçer ve toplamı bire eşit olan olasılıklara dönüştürülür. Bu, dizideki tüm token'lar üzerinde bir dikkat dağılımı oluşturur.
- Ağırlıklı toplam: Son olarak, model her bir değer vektörünü karşılık gelen dikkat ağırlığıyla çarpar ve sonuçları toplar. Bu, her token için bağlama duyarlı bir temsil üretir.
Şu cümleyi ele alalım: Kedi minderin üzerine oturdu çünkü o yorgundu. O kelimesi işlenirken, dikkat mekanizması zamir referansını doğru bir şekilde çözümleyerek minder yerine kedi kelimesine yüksek ağırlıklar atar. Bağlamsal ilişkileri yakalama yeteneği, transformer'ları bu kadar güçlü kılan şeydir.
Çok Başlı Dikkat (Multi-Head Attention)
Transformer'lar, dikkati yalnızca bir kez hesaplamak yerine, farklı öğrenilmiş ağırlık matrisleriyle birden fazla dikkat hesaplamasını paralel olarak çalıştıran çok başlı dikkat kullanır. Her baş, farklı ilişki türlerine odaklanabilir: biri sözdizimsel yapıyı, diğeri anlamsal benzerliği ve bir başkası da konumsal örüntüleri yakalayabilir. Tüm başların çıktıları birleştirilir ve son temsile doğrusal olarak dönüştürülür.
GPT-4 sınıfı modeller tipik olarak 100'den fazla katman boyunca 96 veya daha fazla dikkat başı kullanır, bu da onlara karmaşık dil örüntülerini modellemek için muazzam bir kapasite sağlar.
Tokenizasyon: Dili Sayılara Dönüştürme
Sinir ağları ham metni doğrudan işleyemez. Tokenizasyon, insan tarafından okunabilir metni modelin üzerinde çalışabileceği tamsayı dizilerine dönüştüren kritik bir ön işleme adımıdır.
Neden Sadece Kelimeleri Kullanmayalım?
Bütün kelimeleri token olarak kullanmak inanılmaz derecede büyük bir kelime dağarcığı yaratır. Yalnızca İngilizce'de yüz binlerce kelime bulunur ve teknik jargon, özel isimler ve çok dilli metinler eklendiğinde kelime dağarcığı kontrol edilemez hale gelir. Kelime düzeyinde tokenizasyon ayrıca yazım hatalarını, yeni kelimeleri veya morfolojik varyasyonları zarif bir şekilde ele alamaz.
Alt Kelime (Subword) Tokenizasyonu
Modern LLM'ler, en yaygın olarak Byte Pair Encoding (BPE) veya SentencePiece gibi varyantları olan alt kelime tokenizasyon yöntemlerini kullanır. Bu algoritmalar, karakter düzeyinde ve kelime düzeyinde tokenizasyon arasında akıllıca bir denge kurar.
BPE, tek tek karakterlerle başlayıp en sık karşılaşılan çiftleri adım adım birleştirerek çalışır. the gibi yaygın kelimeler tek bir token haline gelirken, nadir kelimeler anlamlı alt kelime birimlerine ayrılır. Örneğin, unhappiness kelimesi [un, happi, ness] olarak tokenleştirilebilir, bu da modelin tam kelimeyi daha önce görmemiş olsa bile bileşenlerini anlamasına olanak tanır.
GPT-4, yaklaşık 100.000 token'lık bir kelime dağarcığına sahip bir tokenizatör kullanır. Ortalama bir İngilizce kelime yaklaşık 1.3 token gerektirirken, kod ve İngilizce dışındaki diller genellikle kelime başına daha fazla token gerektirir, bu da hem maliyeti hem de bağlam penceresi kullanımını etkiler.
Konumsal Kodlama (Positional Encoding)
Transformer'lar dizileri ardışık olarak değil, paralel olarak işlediği için kelime sırası hakkında doğal bir sezgileri yoktur. Token gömülmelerine (token embeddings) her token'ın dizideki konumuna ilişkin bilgileri aşılamak için konumsal kodlamalar eklenir. Orijinal transformer bu amaçla sinüzoidal fonksiyonları kullanırken, GPT gibi daha yeni modeller, uzun bağlamları daha iyi ele alan öğrenilmiş konumsal gömülmeleri veya Döner Konumsal Gömülmeleri (RoPE) gibi daha gelişmiş şemaları kullanır.
Her Şeyi Bir Araya Getirmek: LLM'ler Metni Nasıl Üretir?
Eğitim sırasında bir LLM, milyarlarca metin örneğini işleyerek, önceki tüm token'lar verildiğinde bir sonraki token'ı tahmin etmek için parametrelerini ayarlar. Nedensel dil modellemesi (causal language modeling) olarak adlandırılan bu süreç, modeli dilin her seviyesindeki istatistiksel örüntüleri; dilbilgisinden, gerçeklerden, akıl yürütme kalıplarından ve üsluptan öğreterek besler.
Çıkarım (inference) sırasında (metin üretilirken) model özyinelemeli (autoregressive) olarak çalışır:
- Girdi komut istemini (prompt) alır, tokenleştirir ve tüm transformer katmanlarından geçirir.
- Son katman, tüm kelime dağarcığı üzerinde bir sonraki token için bir olasılık dağılımı çıkarır.
- Bir örnekleme stratejisi (açgözlü, top-k, top-p veya sıcaklık tabanlı) bir sonraki token'ı seçer.
- Bu token dizinin sonuna eklenir ve bir durdurma koşulu karşılanana kadar süreç tekrarlanır.
Bu özyinelemeli döngü, altta yatan mimari ileri geçiş sırasında dizileri paralel olarak işlese de, LLM'lerin metni neden token token ürettiğinin temel sebebidir.
Ölçek ve Sonuçları
Modern LLM'ler yeteneklerinin büyük kısmını saf ölçekten alır. GPT-3'ün 175 milyar parametresi vardır ve daha sonraki modellerin önemli ölçüde daha büyük olduğu düşünülmektedir. Bu modelleri eğitmek, aylarca süren binlerce GPU ve devasa miktarda elektrik tüketimi gerektirir.
Araştırmalar, model yeteneklerinin belirli ölçeklerde genellikle beklenmedik bir şekilde ortaya çıktığını göstermiştir. Az örnekli öğrenme (few-shot learning), adım adım akıl yürütme (chain-of-thought reasoning) ve kod üretimi gibi yetenekler, modeller belirli parametre eşiklerini aştığında dramatik bir şekilde iyileşir; bu olguya araştırmacılar ortaya çıkan yetenekler (emergent abilities) adını verir.
Ancak ölçek tek başına yeterli değildir. Eğitim verilerinin kalitesi, komut ayarlaması (instruction tuning), insan geri bildiriminden pekiştirmeli öğrenme (RLHF) ve mimari iyileştirmeler, yalnızca yetenekli değil, aynı zamanda insan niyetleriyle uyumlu modeller üretmede kilit roller oynar.
Pratik Çıkarımlar
Bu temelleri anlamak doğrudan pratik değer taşır. Tokenizasyonun nasıl çalıştığını bilmek, daha etkili komut istemleri (prompt) oluşturmanıza ve API maliyetlerini tahmin etmenize yardımcı olur. Dikkat mekanizmalarını anlamak, modellerin neden çok uzun bağlamlarda talimatları bazen gözden kaçırdığını açıklar. LLM'lerin temel olarak bir sonraki token tahmin edicileri olduğunu kabul etmek, akıl yürütme yetenekleri hakkında gerçekçi beklentiler belirlemenize yardımcı olur.
Alan, uzmanlar karışımı (mixture-of-experts) mimarileri, durum-uzay modelleri ve daha uzun bağlam pencereleri gibi yeniliklerle gelişmeye devam ederken, transformer modern yapay zeka dil yeteneklerinin üzerine inşa edildiği temel olmaya devam ediyor. Mekaniklerine sağlam bir hakimiyet, yapay zeka ile ciddi şekilde çalışmak veya onu anlamak isteyen herkes için kesinlikle başlangıç noktasıdır.