Farklı Bir Bakış: Robotlar için Metin Tabanlı Yaklaşım

MIT ve MIT-IBM Watson Yapay Zeka Laboratuvarı’ndan araştırmacılar, anlık görselleri metin haline dönüştüren görsel işleme ve robotun hareketlerine rehberlik etmek üzere büyük bir dil modeli (LLM) tarafından işlenen yapay zeka navigasyonu için yeni bir yöntem geliştirdi. Bu yöntem, birden fazla makine öğrenimi modeline ve hesaplama açısından yoğun ve çoğunlukla kıt olan çok miktarda görsel veriye dayanan geleneksel tekniklerin çok daha verimli çalışabilmesini sağlayacak. Yeni yaklaşım, görüntülerdeki görsel özellikleri kullanmak yerine robotun çevresini açıklayan metin başlıkları oluşturuyor. LLM, robotun sonraki adımlarını tahmin etmek için bu başlıkları kullanıcı talimatlarıyla birlikte değerlendiriyor.

Bu metin tabanlı yaklaşım, daha az hesaplama kaynağı gerektiriyor ve aynı zamanda sentetik eğitim verilerinin hızlı bir şekilde oluşturulmasına olanak sağlıyor. Metin açıklamaları görsel farklılıklardan daha az etkilenerek simüle edilmiş ve gerçek dünyadaki çok fazla detaydan dolayı oluşan farklılıkların algılanmasını çok daha kolaylaştırıyor. Ek olarak, metin çıktılarının insanlar tarafından çok daha anlaşılabilir. Bu da gezinme hatalarının teşhis edilmesini ve düzeltilmesini kolaylaştırır. Uygulamada, altyazı modeli, robotun görsel girdilerinden metin açıklamaları üretir; LLM daha sonra robotun eylemlerini belirlemek için işleyerek yörüngesini hedefine doğru adım adım günceller.

Bu yöntem tamamen görüntüye dayalı tekniklerden daha iyi performans göstermese de dile dayalı girdileri görsel verilerle birleştirmek navigasyon performansını artırır. Gelecekteki araştırmalar bu yöntemi geliştirmeyi, gezinme odaklı bir altyazı oluşturucuyu geliştirmeyi amaçlıyor. Bu yöntemin uygulamadaki bir örneği, çamaşırları bodrum katındaki bir çamaşır makinesine taşımak için talimatlar alan bir robotun, hareketini yönlendirmek için “solunuzda saksı bitkili bir kapı var” gibi başlıklar oluşturmasıdır.

MIT-IBM Watson Yapay Zeka Laboratuvarı’ndan araştırmacılar yapılacak sonraki çalışmalarda, yöntemlerinin performansını ve büyük dil modellerinin mekansal farkındalıklarını daha da arttırmayı hedefliyor.

 

CEVAP VER

Please enter your comment!
Please enter your name here