Dil Modeli Tabanlı Sinir Mimarisi ile İç İçe Adlandırılmış Varlık Tanıma

Uzman: Sefer Baday

NER’deki modellerin çoğu, bir metin yayılımını yalnızca bir sınıfla ilişkilendirebilen düz varlıklara odaklanır, bu da modellerin genelleştirilebilirliğini azaltır ve kapsamlı bilgilerin çıkarılmasını kısıtlar. İç içe varlıklar, dilin doğasının bir parçasıdır ve daha iyi bilgi soyutlamasına yardımcı olan iç içe varlıkları kullanır. Yuvalanmış varlıkların kullanılması, konumların organizasyonları adlandırmak için kullanılma eğiliminde olduğu gerçeğini ortaya çıkaracaktır. Bu tür durumlar yalnızca düz varlık tanıma için NER modelinin karmaşıklık düzeyini artıracaktır.

Firma, modellerini LitBank adlı yeni bir Nested-NER veri kümesi üzerinde gerçekleştirecektir. Litbank veri setinde kullanılan tüm kaynaklar, Project Gutenberg’deki kamuya açık metinlerden gelmektedir. Tüm metinler orijinal olarak 1923’ten önce yayınlanmıştır. Ayrıca, Artiwise ekibi, TÜBİTAK TEYDEB 1501 projesi kapsamında Türk haber makalelerinden (özellikle Ekonomi alanında) yeni bir veri seti oluşturuyor. Fiemanın bu proje süresi boyunca veri setlerini hazır hale getirme ve modeli bu veri setine uygulama planı bulunmaktadır.

Firma ile yürütülen vaka çalışması sonuç raporu için tıklayınız.

Başarı hikayesi için tıklayınız.