Makine Öğrenimi %50 Daha Verimli Çalışacak

OpenAI’nin ChatGPT’sinin bazı inanılmaz yeteneklere sahip olduğu açık bir gerçek- örneğin, Shakespeare sonelerine benzeyen şiirler yazabilir veya bir bilgisayar programı için hata ayıklama kodu yazabilir. Bu yetenekler, ChatGPT’nin üzerine kurulu olduğu devasa makine öğrenimi modeliyle mümkün kılınmıştır. Araştırmacılar, bu tür modeller yeterince büyüdüğünde olağanüstü yeteneklerin ortaya çıktığını keşfetmişlerdir.  

Ancak daha büyük modelleri eğitmek için daha fazla zaman ve para gerekir. Eğitim süreci, bir modele yüz milyarlarca örnek göstermeyi içerir. Bu kadar çok veriyi toplamak başlı başına karmaşık bir süreçtir. Ardından, milyarlarca parametreye sahip olabilen bir modeli eğitmek için birçok güçlü bilgisayarı günlerce veya haftalarca çalıştırmanın parasal ve çevresel maliyetleri gelir.

“ChatGPT’nin çalıştırılacağı varsayılan ölçekteki eğitim modellerinin, yalnızca tek bir eğitim çalıştırması için milyonlarca dolar alabileceği tahmin ediliyor. İyi modelleri daha kısa sürede ve daha az parayla elde edebilmek için bu eğitim yöntemlerinin verimliliğini artırabilir miyiz? MIT’nin Elektrik Mühendisliği ve Bilgisayar Bilimleri Bölümü’nde yardımcı doçent ve Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı (CSAIL) üyesi Yoon Kim, “Daha önce eğitilmiş daha küçük dil modellerinden yararlanarak bunu yapmayı öneriyoruz” diyor.

Bir modelin önceki bir sürümünü atmak yerine, Kim ve iş arkadaşları onu yeni bir modelin yapı taşları olarak kullanıyor. Yöntemleri, makine öğrenimini kullanarak, daha küçük bir modelden daha büyük bir modeli “büyütmeyi”, daha küçük modelin hâlihazırda kazanmış olduğu bilgiyi kodlayacak şekilde öğrenir. Bu, daha büyük modelin daha hızlı eğitimini sağlar.

Teknikleri, yeni bir modeli sıfırdan eğiten yöntemlere kıyasla, büyük bir modeli eğitmek için gereken hesaplama maliyetinden yaklaşık yüzde 50 tasarruf sağlıyor. Ayrıca, MIT yöntemi kullanılarak eğitilen modeller, daha büyük modellerin daha hızlı eğitilmesine olanak sağlamak için daha küçük modeller kullanan diğer tekniklerle eğitilen modeller kadar iyi veya onlardan daha iyi performans gösterdi.

Devasa modelleri eğitmek için gereken süreyi azaltmak, araştırmacıların daha az masrafla daha hızlı ilerleme kaydetmesine yardımcı olurken aynı zamanda eğitim sürecinde oluşan karbon emisyonlarını azaltabilir. Aynı zamanda, daha küçük araştırma gruplarının bu büyük modellerle çalışmasına olanak tanıyarak potansiyel olarak birçok yeni ilerlemeye kapı açabilir.

Bu teknikle ilgili bir makalenin kıdemli yazarı olan Kim, “Bu tür teknolojileri demokratikleştirmeye çalışırken, eğitimi daha hızlı ve daha ucuz hale getirmek daha önemli hale gelecek” diyor.

 

Daha büyük daha iyi 

ChatGPT’nin merkezinde yer alan GPT-3 gibi büyük dil modelleri, transformer (dönüştürücü) adı verilen bir sinir ağı mimarisi kullanılarak oluşturulmuştur. Gevşek bir şekilde insan beynine dayanan bir sinir ağı, birbirine bağlı düğümler veya “nöronlar” katmanlarından oluşur. Her nöron, nöronun verileri işlemek için kullandığı eğitim sürecinde öğrenilen değişkenler olan parametreler içerir.

Transformer mimarileri benzersizdir çünkü bu tür sinir ağı modelleri büyüdükçe çok daha iyi sonuçlar elde ederler.

“Bu, çok büyük transformer mimarilerini daha büyük veri kümeleri üzerinde eğitmeye çalışan şirketler arasında bir dev rekabete yol açtı. Diğer mimarilerden daha çok, transformer ağlarının ölçeklendirme ile çok daha iyi hale geldiği görülüyor. Bunun neden böyle olduğundan tam olarak emin değiliz ”diyor Kim.

Bu modeller genellikle yüz milyonlarca veya milyarlarca öğrenilebilir parametreye sahiptir. Tüm bu parametreleri sıfırdan eğitmek pahalıdır, bu nedenle araştırmacılar süreci hızlandırmaya çalışırlar.

Etkili bir tekniklerden birisi de model büyütme. Araştırmacılar, model büyütme yöntemini kullanarak, nöronları veya hatta ağın önceki bir sürümünün tüm katmanlarını kopyalayarak ve ardından bunları üst üste istifleyerek bir transformerlerin boyutunu artırabilir. Bir katmana yeni nöronlar ekleyerek bir ağı genişletebilir veya ek nöron katmanları ekleyerek ağı derinleştirebilirler.

Kim, model büyütmeye yönelik önceki yaklaşımların aksine, genişletilmiş transformerdeki yeni nöronlarla ilişkili parametrelerin yalnızca daha küçük ağ parametrelerinin kopyaları olmadığını açıklıyor. Aksine, daha küçük modelin parametrelerinin öğrenilmiş kombinasyonlarıdır.

Bahsi geçen projenin çalışma mantığının diyagramı

 

Büyümeyi öğrenmek 

Kim ve ortak çalışanları, daha küçük modelin parametrelerinin doğrusal bir eşlemesini öğrenmek için makine öğrenimini kullanıyor. Bu doğrusal harita, bir girdi değerleri kümesini, bu durumda daha küçük modelin parametrelerini, bir çıktı değerleri kümesine, bu durumda daha büyük modelin parametrelerine dönüştüren matematiksel bir işlemdir.

Öğrenilmiş Doğrusal Büyüme Operatörü (LiGO) olarak adlandırdıkları yöntemleri, veri odaklı bir şekilde daha küçük bir ağın parametrelerinden daha büyük bir ağın genişliğini ve derinliğini genişletmeyi öğrenir.

Ancak daha küçük model aslında oldukça büyük olabilir – belki yüz milyon parametreye sahiptir – ve araştırmacılar bir milyar parametreye sahip bir model yapmak isteyebilir. Böylece LiGO tekniği, doğrusal haritayı bir makine öğrenimi algoritmasının işleyebileceği daha küçük parçalara böler.

LiGO aynı zamanda genişliği ve derinliği aynı anda genişletir, bu da onu diğer yöntemlerden daha verimli hale getirir. Bir kullanıcı, daha küçük modeli ve parametrelerini girdiğinde, daha büyük modelin ne kadar geniş ve derin olmasını istediğini ayarlayabilir, diye açıklıyor Kim.

Tekniklerini sıfırdan yeni bir model eğitme süreciyle ve model büyütme yöntemleriyle karşılaştırdıklarında, tüm temel çizgilerden daha hızlıydı. Yöntemleri, genellikle performansı artırırken, hem görüntü hem de dil modellerini eğitmek için gereken hesaplama maliyetlerinden yaklaşık yüzde 50 tasarruf sağlıyor.

Araştırmacılar ayrıca daha küçük, önceden eğitilmiş bir modele erişimleri olmadığında bile transformer eğitimini hızlandırmak için LiGO’yu kullanabileceklerini keşfettiler.

“Bizimki de dahil olmak üzere tüm yöntemlerin rastgele başlatma, sıfırdan eğitim temellerine kıyasla ne kadar iyi olduğuna şaşırdım.” Kim diyor.

Gelecekte, Kim ve işbirlikçileri LiGO’yu daha da büyük modellere uygulamayı dört gözle bekliyorlar.

 

CEVAP VER

Please enter your comment!
Please enter your name here