Büyük dil modelleri (LLM’ler) -örneğin OpenAI’nin ChatGPT’si- genellikle siyah bir kutu olarak adlandırılır ve bunun kesinlikle bir gerçeklik payı vardır. Veri bilimcileri için bile, bir modelin neden her zaman belli bir şekilde yanıt verdiğini, sanki tamamen uydurma gerçekler icat ediyor gibi, bilmek zordur.
LLM’lerin katmanlarını açığa çıkarmak için OpenAI, bir LLM’nin davranışlarından hangi bölümlerin sorumlu olduğunu otomatik olarak belirlemek için bir araç geliştirmektedir. Bunun henüz erken aşamalarda olduğunu belirten mühendisler, aracın kodunun bu sabah itibarıyla GitHub üzerinde açık kaynak olarak mevcut olduğunu vurgulamaktadır.
OpenAI’nin İnterpretability Ekibi Müdürü William Saunders, Tech’a telefonla yaptığı bir röportajda, “Bir AI sistemine ilişkin sorunları öngörmeye çalışıyoruz. Gerçekten modelin yaptığına ve ürettiği cevaba güvenebileceğimizi bilmek istiyoruz” dedi.
Bu amaçla, OpenAI’nin aracı, diğer, yapısal olarak daha basit LLM’lerin bileşenlerinin işlevlerini belirlemek için bir dil modeli (ironik olarak) kullanır – özellikle OpenAI’nin kendi GPT-2’si. Nasıl mı? Arka plan için kısaca LLM’lerin açıklanması. Beyin gibi, onlar da metindeki belirli bir deseni gözlemleyen “sinir hücreleri” tarafından oluşurlar ve bu desenler genel modelin “ne söyleyeceğini” etkiler. Örneğin, süper kahramanlar hakkında bir başlatıcıya (örneğin “En kullanışlı süper güçlere sahip hangi süper kahramanlar var?”) verildiğinde, “Marvel süper kahramanı sinir hücresi”, modelin Marvel filmlerinden belirli süper kahramanları adlandırma olasılığını artırabilir.
OpenAI’nin aracı, modelleri bileşenlerine ayırmak için bu yapıyı kullanır. İlk olarak, değerlendirilen model üzerinden metin dizilerini çalıştırır ve belirli bir sinir hücresinin sık sık “etkinleştiği” durumları bekler. Daha sonra, GPT-4’e, OpenAI’nin en son metin üreten AI modeline, bu çok aktif sinir hücrelerini “gösterir” ve GPT-4 açıklama üretir. Açıklamanın ne kadar doğru olduğunu belirlemek için araç, GPT-4’e metin dizilerini sağlar ve sinir hücresinin nasıl davranacağını tahmin etmesini, ya da sim
üleştirmesini, simülasyon yapmasını ister. Ardından, simüle edilen sinir hücresinin davranışını gerçek sinir hücresinin davranışıyla karşılaştırır.
“Bu yöntemi kullanarak, her bir sinir hücresi için ne yaptığını açıklamak için bir tür ön çalışma doğal dil açıklaması bulabiliriz ve aynı zamanda bu açıklamanın gerçek davranışla ne kadar iyi eşleştiğine dair bir skora sahip oluruz,” diyor OpenAI’deki ölçeklenebilir hizalama ekibinin lideri Jeff Wu. “GPT-4’ü bir sinir hücresinin neyi aradığı konusunda açıklama yapmak için sürecin bir parçası olarak kullanıyoruz ve sonra bu açıklamaların ne kadar iyi gerçek davranışla eşleştiğini puanlıyoruz.”
Araştırmacılar, GPT-2’deki 307,200 sinir hücresinin hepsine açıklamalar üretebildi ve bu açıklamaları araç kodunun yanında yayımlanan bir veri setinde derledi.
Araştırmacılar, bu gibi araçların ileride bir gün LLM’lerin performansını geliştirmek için kullanılabileceğini belirtiyorlar – örneğin, önyargıyı veya toksisiteyi azaltmak için. Ancak, gerçekten kullanışlı olması için uzun bir yol kat etmesi gerektiğini kabul ediyorlar. Araç, toplamın küçük bir kısmı olan yaklaşık 1,000 sinir hücresi için açıklamalarında güvendi.
Eleştirel biri, aracın aslında GPT-4 için bir reklam olduğunu iddia edebilir çünkü GPT-4’ün çalışması için GPT-4’e ihtiyaç duyar. DeepMind’in Tracr adlı derleyici gibi diğer LLM açıklanabilirlik araçları, ticari API’lara daha az bağımlıdır.
Wu, bunun doğru olmadığını – aracın GPT-4’ü kullanmasının sadece “tesadüfi” olduğunu – ve aksine, GPT-4’ün bu alandaki zayıflıklarını gösterdiğini söylüyor. Ayrıca, ticari uygulamalar gözetilmeden oluşturulmadığını ve teoride GPT-4 dışındaki LLM’leri kullanmak için uyarlanabileceğini belirtiyor. “Açıklamaların çoğu oldukça düşük puan alıyor veya gerçek sinir hücresinin davranışını açıklamıyor,” diyor Wu. “Bazı sinir hücreleri, örneğin, ne olduğunu söylemek çok zor olan bir şekilde etkinleşir – beş veya altı farklı şeyde etkinleşir, ancak belirgin bir des
en yoktur. Bazen belirgin bir desen vardır, ancak GPT-4 bunu bulamaz.”
Bu durum daha karmaşık, daha yeni ve daha büyük modeller veya bilgi aramak için web’i gezebilen modeller için geçerli değildir. Ancak ikinci noktada, Wu, web taramasının aracın temel mekanizmalarını çok fazla değiştirmeyeceğine inanıyor. Sadece sinir hücrelerinin neden belirli arama motoru sorguları yapmayı veya belirli web sitelerine erişmeyi tercih ettiğini anlamak için ayarlanabilir, diyor.
Wu, “Bu, başkalarının üzerine inşa yapabileceği ve katkıda bulunabileceği otomatik bir şekilde yorumlanabilirlikle ilgili umut verici bir yol açacağımızı umuyoruz” diyor. “Umut, gerçekten sinir hücrelerinin neye tepki verdiğini değil, bu modellerin genel davranışını – hangi devreleri hesapladıklarını ve belirli sinir hücrelerinin diğer sinir hücrelerini nasıl etkilediğini – gerçekten iyi açıklamalara sahip olacağımızdır.”
Hata!
Yorumunuz Çok Kısa, Yorum yapabilmek için en az En az 10 karakter gerekli