DarkBERT: Karanlık Web Verileriyle Eğitilen Güçlü Bir Dil Modeli

Platin

Hakan

ABONE OL

News

0 yorum

226 okunma

DarkBERT, Karanlık Web verileri kullanılarak eğitilen bir dil modelidir. Bu güçlü model, derin web içeriklerini analiz edebilme ve faydalı bilgiler çıkarabilme yetenekleriyle dikkat çekmektedir. Araştırmacılar, DarkBERT'in diğer büyük dil modellerinden daha iyi performans gösterdiğini göstermiş ve bu durumun güvenlik araştırmaları ve kolluk kuvvetlerinin derin web'i daha etkin bir şekilde araştırmasına olanak sağlayabileceğini belirtmiştir. DarkBERT'in ilerleyen süreçlerde daha da geliştirilebileceği ve nasıl kullanılacağına dair daha fazla bilgi edinilmesi gerektiği belirtilmektedir.

Okunuyor DarkBERT: Karanlık Web Verileriyle Eğitilen Güçlü Bir Dil Modeli

Büyük Dil Modelleri (BDM) gibi ChatGPT’nin yayınlanmasıyla başlatılan kar topu etkisinde henüz erken bir noktadayız. Diğer GPT (Generative Pre-Trained Transformer) modellerinin de kaynak kodlarının açık kaynak olarak paylaşılmasıyla birlikte, yapay zeka kullanan uygulamaların sayısı patlama yaşamaktadır. Ve bildiğimiz gibi, ChatGPT bile son derece gelişmiş kötü amaçlı yazılımlar oluşturmak için kullanılabilmektedir.

Zaman ilerledikçe, uygulamalı BDM’ler artacak ve her biri kendi alanında uzmanlaşacak, belirli bir amaç için dikkatle düzenlenmiş verilerle eğitilecektir. Ve tam da bu noktada, karanlık web verileri üzerinde eğitilmiş bir uygulama ortaya çıktı. Güney Koreli yaratıcıları tarafından DarkBERT olarak adlandırılan bu uygulama şimdi burada – bağlantıyı takip ederek, kendisi hakkında genel bir tanıtım sunan yayın makalesine ulaşabilirsiniz.

DarkBERT, 2019 yılında geliştirilen RoBERTa mimarisine dayanmaktadır. Araştırmacılar, onun aslında 2019’da çıkarılabileceğinden daha fazla performansa sahip olduğunu keşfederek yeniden doğuşunu yaşadı. Modelin, maksimum veriminden çok daha düşük bir şekilde yayınlandığı anlaşılmaktadır.

Modeli eğitmek için araştırmacılar, Tor ağındaki anonimleştirici güvenlik duvarı üzerinden Karanlık Web’i taramış ve ardından ham verileri (ayrıştırma, kategori dengeleme ve veri ön işleme gibi teknikler uygulayarak) filtrelemişlerdir. DarkBERT, bu veritabanının RoBERTa Büyük Dil Modeline beslenerek kullanılmasının sonucudur. Bu model, kendi lehçeleri ve yoğun bir şekilde kodlanmış mesajlarıyla yazılmış yeni bir Karanlık Web içeriğini analiz edebilen ve ondan yararlı bilgiler çıkarabilen bir modeldir.

İngilizcenin Karanlık Web’in iş dili olduğunu söylemek tamamen doğru olmasa da, araştırmacılar belirli bir BDM’nin bunun üzerine eğitilmesi gerektiğine inandıkları kadar spesifik bir karışım olduğunu düşünmektedir. Sonunda haklı çıktılar: Araştırmacılar, DarkBERT’in diğer büyük dil modellerinden daha iyi performans gösterdiğini gösterdiler, bu da güvenlik araştırmacılarının ve kolluk kuvvetlerinin web’in derinliklerine daha derinden nüfuz etmelerine izin vermelidir.DarkBERT gibi diğer BDM’lerde olduğu gibi, DarkBERT’in tamamlandığı anlamına gelmez ve daha fazla eğitim ve ayarlama ile sonuçları daha da geliştirilebilir. Nasıl kullanılacağı ve hangi bilgilerin elde edileceği ise henüz belirsizdir.