AI ve Dental Radyoloji

Giriş

Diş hekimliğinde radyolojik görüntü yorumlama, klinik karar sürecinin en kritik aşamalarından biridir. Ancak bu süreç her zaman tam tutarlılıkla işlemez. Aynı periapikal radyografı farklı hekimlerin farklı biçimde yorumlayabilmesi, literatürde ölçülmüş bir olgudur. Özellikle çürük, periapik lezyon ve periodontal kemik kaybı gibi bulgularda klinisyenler arası değişkenlik, tanı kalitesinin yalnızca görüntüye değil, deneyime, dikkat düzeyine ve yorum standardına da bağlı olduğunu göstermektedir.

Bu bağlamda yapay zekâ tabanlı görüntü analiz sistemleri, diş hekimliğinde giderek daha fazla ilgi görmektedir. Ancak burada asıl soru, bu sistemlerin "var olup olmadığı" değil, mevcut performans düzeylerinin gerçekten ne söylediğidir. Elde edilen veriler, yapay zekânın bazı alanlarda klinik açıdan anlamlı doğruluk düzeyine ulaştığını; buna karşılık güven, entegrasyon, yorumlanabilirlik ve iş akışı uyumu gibi başlıklarda hâlâ önemli sınırlarla karşılaştığını göstermektedir. Dolayısıyla konu, teknoloji heyecanından çok tanısal performans ve klinik uygulanabilirlik açısından değerlendirilmelidir.

1. Mevcut Performans: Yapay Zekâ Hangi Düzeye Ulaştı?

Son yıllarda yayımlanan sistematik derlemeler ve meta-analizler, yapay zekânın dental radyolojik görüntü analizinde artık deneysel sınırın ötesine geçtiğini göstermektedir. Çürük tespitine odaklanan ve 137 birincil çalışmayı kapsayan umbrella review, havuzlanmış sensitiviteyi 0,85, spesifisiteyi 0,90 ve AUC değerini 0,86 olarak bildirmiştir. Bu veriler, özellikle tarama ve ön değerlendirme düzeyinde anlamlı bir tanısal kapasiteye işaret eder.

Bitewing approximal çürük — sensitivite 0,94

Bitewing approximal çürük — spesifisite 0,91

Kaynak: Approximal caries meta-analizi, ScienceDirect 2024

Bitewing radyograflarda approximal çürük tespitine ilişkin 2024 tarihli meta-analiz ise daha da güçlü sonuçlar sunmaktadır: sensitivite 0,94, spesifisite 0,91 düzeyindedir. Bu, yapay zekânın sağlıklı yüzeyleri dışlamada ve olası çürük alanlarını işaretlemede yüksek bir performans sergileyebildiğini gösterir. Ancak pozitif prediktif değerin çalışmalar arasında geniş aralıkta değişmesi, saptanan bulguların hâlâ klinisyen doğrulaması gerektirdiğini düşündürmektedir.

Periapik lezyonlarda tablo daha heterojendir. Sistematik derleme verilerine göre CNN tabanlı modellerin doğruluğu %70 ile %99,65 arasında değişmektedir. Sensitivite ve spesifisite aralıklarının da oldukça geniş olması, bu alanda performansın veri seti kalitesi, etiketleme standardı ve model mimarisi gibi değişkenlere son derece duyarlı olduğunu göstermektedir. Periodontal kemik kaybında ise daha stabil bir performans görülmektedir: geniş ölçekli çalışmalarda AUC 0,884–0,913 aralığında, sensitivite ise %88,8–90,7 düzeyindedir. Buna rağmen spesifisitenin görece daha düşük olması, yanlış pozitif yükünün göz ardı edilmemesi gerektiğini gösterir.

2. Klinisyenler Arası Değişkenlik Neden Bu Kadar Önemli?

Yapay zekâ performansını anlamak için onu yalnızca teorik bir "ideal tanı" ile değil, gerçek klinik pratikle karşılaştırmak gerekir. Bu noktada klinisyenler arası değişkenlik temel referanslardan biridir. 14 diş hekiminin 150 radyografı değerlendirdiği güvenilirlik çalışmasında çürük için inter-rater Cohen kappa 0,659–0,704 aralığında bulunmuştur. Periapik lezyonlarda bu değer 0,611–0,643'e, periodontal kemik kaybında ise 0,454–0,482'ye düşmektedir.

Bu sonuçların anlamı açıktır: görüntü yorumlama, özellikle kemik kaybı ve periapik inflamasyon gibi alanlarda yüksek düzeyde mutlak uzlaşı üretmemektedir. Deneyimli hekimlerin daha tutarlı değerlendirme yaptığı da gösterilmiştir. Dolayısıyla yapay zekâ sistemleri yalnızca "doğru bulgu bulma" aracı olarak değil, klinisyenler arası değişkenliği azaltabilecek standardizasyon katmanı olarak da önem kazanmaktadır.

"Daha doğru soru, 'AI uzmanı geçiyor mu?' değil; 'AI klinik pratikteki varyasyonu azaltıyor mu?' olmalıdır."

Özellikle az deneyimli klinisyenler açısından bu katkı daha anlamlıdır. Literatür, yapay zekânın lezyon tespitinde deneyim boşluğunu kısmen kapatabildiğini ve bazı patolojilerde karar güvenliğini artırabildiğini göstermektedir. Bu nedenle performans tartışması yalnızca "AI uzmanı geçiyor mu?" sorusuna indirgenmemelidir. Daha doğru soru, "AI klinik pratikteki varyasyonu azaltıyor mu?" olmalıdır.

3. Tanısal Hata, Gecikme ve Raporlama Kalitesi

Radyolojik analizde tanısal hata yalnızca teorik bir performans sorunu değildir; klinik sonuçlara doğrudan etki eder. Erken dönem çürüklerin, periapik lezyonların veya periodontal kemik kaybının gözden kaçması, tedavi planlamasında gecikmeye, daha invaziv müdahalelere ve hasta deneyiminde bozulmaya yol açabilir. Bu nedenle tanı doğruluğu kadar raporlama kalitesi de önemlidir.

2025 tarihli bir klinik denetimde diş hekimliği öğrencilerinin intraoral periapikal radyoloji raporları incelendiğinde, vakaların yalnızca %60'ında çürük lokalizasyonunun kaydedildiği, restorasyon ayrıntılarının %42 doğrulukla belgelendiği ve tekrar çekim oranının %65'e ulaştığı gösterilmiştir. Bu bulgular, sorunun yalnızca görüntü tanıma değil; standartlaştırılmış raporlama ve süreç disiplini sorunu olduğunu ortaya koyar.

Yapay zekâ tam da bu noktada değer üretme potansiyeline sahiptir. Çünkü sistemler sadece bulgu işaretlemekle kalmayıp, rapor standardizasyonu, eksik alanların görünür hale getirilmesi ve iş akışında ikinci okuyucu işleviyle de katkı sağlayabilir. Bu, özellikle yoğun kliniklerde veya eğitim düzeyi heterojen ekiplerde daha kritik hale gelir.

4. Yapay Zekâ: Bağımsız Tanı Aracı mı, Karar Destek Sistemi mi?

Mevcut veriler, yapay zekânın en güçlü konumunun bağımsız karar verici olmak değil, tamamlayıcı karar destek sistemi olarak yer almak olduğunu göstermektedir. Sistematik derlemeler, özellikle çürük tespitinde yapay zekânın sağlıklı yüzeyleri dışlamada güçlü olduğunu; ancak pozitif bulguların uzman doğrulaması gerektirdiğini vurgulamaktadır. Bu çerçeve, klinik olarak daha gerçekçi bir kullanım modeline işaret eder.

Regülasyon tarafı da bu eğilimi desteklemektedir. 2011–2024 arasında FDA 510(k) veritabanında onaylanan dental AI/ML cihazlarının en büyük bölümünün oral radyolojide toplanmış olması, alanın olgunlaştığını gösterir. Ancak onaylı cihaz sayısının artması, klinikte geniş ölçekli benimsemenin aynı hızda gerçekleştiği anlamına gelmez. Çünkü teknik doğruluk ile günlük kullanım arasındaki mesafe, entegrasyon, eğitim ve güven gibi başlıklarda belirlenmektedir.

Bu nedenle yapay zekânın klinikte en güçlü rolü, hekimin yerine geçmekten çok, önceliklendirme, ikinci kontrol, görünmesi zor alanları işaretleme ve raporlama standardını destekleme şeklinde görünmektedir.

5. Asıl Sınırlar: Güven, Şeffaflık ve Entegrasyon

%3,8

Diş hekimlerinin tamamen otomatik yapay zekâ tanı kararlarına güven oranı. Kaynak: J. Medicine and Life / PMC, 2025

Teknolojinin benimsenmesini yavaşlatan temel sorun performans eksikliği kadar güven mimarisidir. Anket çalışmalarında diş hekimlerinin tamamen otomatik yapay zekâ tanı kararlarına güven oranı yalnızca %3,8 düzeyindedir. Katılımcıların büyük çoğunluğu nihai tanının insan klinisyen tarafından verilmesini tercih etmektedir. Bu veri, klinisyenlerin yapay zekâya tamamen kapalı olduğunu değil, onu kararın merkezine değil çevresine yerleştirdiğini göstermektedir.

Bu çekincenin birkaç nedeni vardır. İlki "kara kutu" problemidir: derin öğrenme modelleri çoğu zaman sonuca nasıl ulaştığını açık biçimde gösteremez. İkincisi entegrasyon sorunudur. Görüntüleme cihazları, PACS benzeri sistemler ve hasta yönetim yazılımları arasında standart uyumluluk eksikliği, teknik değerin iş akışına dönüşmesini zorlaştırır. Üçüncü başlık ise düzenleyici ve sorumluluk çerçevesidir. Yazılım medikal cihaz olarak değerlendirildiğinde, hata durumunda sınırların nasıl çizileceği konusunda belirsizlikler oluşur.

Dolayısıyla mevcut tablo, "yapay zekâ yeterince iyi değil" sonucundan çok, "yeterince iyi olsa bile nasıl güvenilir ve entegre biçimde kullanılacağı netleşmeli" sonucuna işaret etmektedir.

Sonuç

Diş hekimliğinde radyolojik görüntü analizine yönelik yapay zekâ sistemleri, özellikle çürük tespiti, periapik lezyon analizi ve periodontal kemik kaybı ölçümünde klinik açıdan anlamlı performans düzeylerine ulaşmıştır. Sensitivite, spesifisite ve AUC verileri birçok alt alanda güçlüdür. Bununla birlikte bu performans, tam otomatik ve bağımsız tanı için değil; insan klinisyeni destekleyen karar sistemleri için daha uygun bir çerçeve sunmaktadır.

Asıl değer, yapay zekânın görünmeyeni tek başına "çözmesinde" değil; klinisyenler arası değişkenliği azaltmasında, raporlama standardını güçlendirmesinde ve özellikle daha az deneyimli kullanıcılar için ikinci bir okuma katmanı oluşturmasında yatmaktadır. Önümüzdeki dönemde belirleyici mesele performans yarışından çok, bu sistemlerin güvenilir, açıklanabilir ve iş akışına entegre biçimde nasıl konumlandırılacağı olacaktır.