Tıbbi uygulamalarımıza ışık tutan, hastalarımıza vereceğimiz tedavileri karşılaştıran, ilaçları inceleyen, komplikasyonların önlenmesi için yaptığımız girişimleri değerlendiren çalışmaların makaleleri belki de mesleğimizin en önemli bilgi dağarcığını oluşturur. Makale okuma ile ilgili bu yazıda verilerine ve sonuçlarına güvenmemeniz gereken makaleleri nasıl tespit edebileceğinizden bahsedeceğiz.
Tedavi hakkındaki makalelerin değerlendirmesinde cevap verilmesi gereken üç ana sorudan bahsedebiliriz:
- Bias (yanlılık) riskinin değerlendirilmesi,
- Hangi sonuçlar elde edilmiş?
- Bu sonuçları hastalarıma nasıl uygulayabilirim?
Bu 3 ana unsuru daha ayrıntılı şekilde değerlendiren bir kontrol listesi Tablo 1’de verilmiştir. Bu listedeki kriterler; semptomatik bir hastalığın tedavisi, uzak komplikasyonların önlenmesi, tedavi edilebilir hastalıkların taranması ve uygun tanısal testin seçilmesi gibi tedavi ile bir şekilde ilişkili hemen her türlü çalışmanın değerlendirilmesinde faydalı olacaktır.
Tablo 1. Tedavi hakkındaki bir makale okuma ile ilgili kılavuz
Unsur | Bileşenler |
A. Bias (yanlılık) riskinin değerlendirilmesi | Girişim ve kontrol gruplarındaki hastalar başlangıçta aynı prognoza mı sahip? Hastalar randomize edilmiş mi? Randomizasyon gizli mi? Çalışma gruplarına atanan hastalar bilinen prognostik faktörler yönünden benzer mi? Çalışma devam ettiği sürece prognostik denge sağlanmaya devam edilebilmiş mi? Çalışmacılar ne derecede kör? Çalışma grupları prognostik açıdan çalışmanın sonunda da dengeli mi? Hastaların takibi tamamlanabilmiş mi? Hastalar randomize edildikleri grubun içinde de mi analiz edilmiş (Intention-to-treat analizi)? Çalışma planlanandan önce mi sonlandırılmış? |
B. Bulgularım ne anlama geliyor? | Tedavi etkisinin büyüklüğü ne kadar? Tahmini tedavi etkisi ne derece kesin? |
C. Vardığım sonucu hastalarıma nasıl uygulayabilirim? | Çalışmadaki hastalar benim hastama benzer mi? Hastam için önemli olan tüm sonlanımlar değerlendirilmiş mi? Tedaviden elde edilecek muhtemel fayda, olası zarar ve maliyetlerden daha fazla mı? |
A. Bias (yanlılık) riskinin değerlendirilmesi
1. Girişim ve kontrol gruplarındaki hastalar başlangıçta aynı prognoza mı sahip?
Eğer çalışma ve kontrol grupları, bir şekilde çalışmanın sonucunu etkileyecek noktalarda benzer değillerse çalışmanın sonucu toplumu yansıtmayabilir. Örneğin, acil serviste çalışan nöbet ekiplerinin illegal ilaç kullanımına bağlı komplikasyonları yönetme becerilerinin mesai saatleri içinde çalışan ekiple karşılaştırılmak istendiği bir çalışmayı ele alalım. Nöbet ekiplerinin daha fazla resüsitasyon ve entübasyon yaptığı, daha fazla hastayı kaybettiği tespit edilirse, bu gerçekten ekipler arasındaki beceri farkından mı kaynaklanmaktadır? Aslında nöbet saatlerine dair böyle bir veri elimize geçtiğinde hemen hepimiz gece şartlarında acil servise başvuran ilaç zehirlenmelerinin daha yüksek dozda ilaç alma, daha geç farkedilme, daha kararlı olma, beraberinde daha fazla alkol tüketme gibi özellikler yüzünden daha komplike olduklarını söyleyebiliriz. Böyle bariz bir fark varken, ekiplerin tedavi başarıları arasındaki farkın ekiplerin kendinden kaynaklandığını söylemek hiç de doğru olmayacaktır. Bu örnekteki gibi bir durumda hastaların başlangıçta aynı prognoza sahip olmadıkları rahatlıkla söylenebilir. İki farklı kateter markasının enfeksiyon oranları açısından faklı olup olmadığını değerlendiren bir çalışma düşünelim. Markalardan birinin bulunduğu ve kateterin takıldığı acil servis ile diğer markanın bulunduğu ve kateterin takıldığı nefroloji ünitesindeki hasta grupları alınsa ve bir ay içinde gelişen enfeksiyon oranlarına bakılsa, arada bulunacak fark kateterlerin kendisinden mi kaynaklanır yoksa hastalardan mı? Acil servisten kateter takılmasını gerektiren hastaların daha ağır olduğu, komorbiditelerinin daha yüksek olduğu, belki resüsitatif şartlarda ve hızlı girişim gerektirdikleri için enfeksiyon oranlarının daha yüksek olabileceği öngörülebilir1.
2. Hastalar randomize edilmişler mi? Çalışma gruplarına atanan hastalar, bilinen prognostik faktörler yönünden benzer mi?
Bir tedavinin inme, MI ya da ölüm gibi bir sonuç üzerindeki etkisinin/ilişkisinin araştırıldığı tedavi çalışmalarında, bu sonuçlara çalışmanın hedef sonlanımı adı verilir. Hastanın yaşı, cinsiyeti, altta yatan hastalıkları, hastalığının şiddeti gibi birçok bireysel etmen bu hedef sonlanımın ne sıklıkla görüleceğini değiştirir. Bu sebeple de bu bireysel etmenlere prognostik faktör adı verilir. Eğer bildiğimiz ya da bilmediğimiz bu prognostik faktörler tedavi ve kontrol gruplarında eşit oranda temsil edilmiyorsa, hedef sonlanımın sıklığı olması gereken değerden sapar. Yukarıdaki örneklerde gruplar arasında prognostik dengenin sağlanmadığını söylemek nispeten daha kolaydır. Ancak her zaman bunu belirlemek kolay olmayabilir. Hatta bu denge henüz keşfedilmemiş faktörlerin etkisinde olabilir.
2004 yılında yayınlanan ve 9 farklı gözlemsel kohort çalışmasında, 10 yıl boyunca takip edilen toplam 300 bine yakın hastanın verilerini bir araya getiren bir meta-analiz ile, günde 700 mg’dan fazla C vitamini kullanan erkeklerin kullanmayanlara göre koroner kalp hastalığı riskinin %25 daha az olduğu gösterildi (RR=0,75; %95 GA: 0,60-0,93)2. 2008 yılında yayınlanan ve 14641 erkek hekimi C vitamini ya da plasebo gruplarına randomize edip, 10 yıl koroner arter hastalığı riski yönünden takip eden randomize kontrollü bir çalışmada ise, C vitaminin hiçbir ek fayda sağlamadığı gösterildi (RR=0,99; %95 GA: 0,89-1,11)3. Meta-analizde yer alan gözlemsel çalışmalar randomize değildi, yani içlerinde bias (yanlılık) barındırmaktaydılar. Halihazırda günlük olarak C vitamini tüketmekte olan erkeklerin kendilerine daha iyi baktıkları, belki daha az sigara ve alkol tükettikleri, sosyoekonomik güçlerinin daha yüksek olduğu, daha sağlıklı beslendikleri gibi karıştırıcı faktörler hesaba katılmamıştı. Aynı çalışma gözlemsel olarak değil de, hastalar C vitamini ve plasebo gruplarına randomize edilerek yapıldığında bu tip karıştırıcı faktörlere sahip bireylerin her iki gruba da eşit oranda dağılması sağlanmış ve bias (yanlılık) engellenmiş oldu.
Bu konuya bir başka örnek hormon replasman tedavisinin (HRT) koroner arter hastalığı (KAH) hikayesi olan post-menapozal kadınlarda KAH riskini azalttığını gösteren gözlemsel çalışmalardır4. Aynı konuda yapılan randomize kontrollü çalışmalar HRT’nin KAH riskini azaltmadığını gösterdiğinde, hem hastalar hem de hekimler bu sonuçlara inanmamıştı5–6. Bu tip şaşırtıcı farklılıklar aslında tıpta hiç de nadir değildir. Hasta ya da hekimin alınan tedaviye karar verdiği gözlemsel çalışmaların sonuçları randomize kontrollü çalışmalarla karşılaştırıldığında, aslında atfedilen etkinin hiç de o kadar abartılı olmadığının görüldüğü birçok örnek vardır.
Gruplar arasındaki prognostik denge sağlanmadığında etkisi olmayan bir tedavinin etkisi varmış gibi görünmesini sağlayacak aşırı sonuçlar elde edilebilir. Tersine bu prognostik faktörler halihazırda etkisi olan bir tedavinin hiç etkisi yokmuş gibi de sonuçlar elde edilmesine yok açabilir. Yani yeterli prognostik denge sağlanmadığında yanlış pozitif ve yanlış negatif sonuçlar elde edilmesi gayet mümkündür. Gözlemsel çalışmalarda hekim tercihlerine müdahale edilmediğinden bu tip prognostik faktörlerden en bariz olanlarını fark eden hekimlerin tercihlerini bir yöne doğru yapmaları son derece sık karşılaşılan bir yanlılıktır. Bilinen prognostik faktörlerin etkilerini istatistiksel yöntemlerle gidermek mümkün olsa da, bilinmeyen faktörlerin etkilerini giderme imkanı yoktur. Hastaların tamamen rastlantısal bir şekilde tedavi ve kontrol gruplarına atanması bu yanlılığı gidermek için kullanılabilecek en etkili yöntemdir.
Randomizasyonun gücü, hem bilinen hem de bilinmeyen faktörleri gruplar arasında eşit dağıtabilmesinden gelir. Bunun başarılıp başarılmadığı çalışma gruplarının temel başlangıç özelliklerinin karşılaştırıldığı ve genellikle ilk tabloda verilen verilere bakarak tahmin edilebilir. En azından bildiğimiz faktörler açısından grupların birbirine benzer olduğunu demografik özellikleri karşılaştıran bu tablolar yardımıyla anlayabiliriz. Bilinmeyen faktörler açısından ise bu benzerliğin yeterli olduğunu kabul etmek dışında bir şansımız yoktur.
Yukarıda bahsettiğimiz gözlemsel C vitamini çalışmaları ve bu çalışmaları içeren meta-analiz aslında C vitamini kullanımının değil, yeterli randomizasyon yapılmadığından dolayı, C vitamini kullanan kişilerin prognostik faktörlerinin etkisini göstermektedir. Yani C vitamini aslında sebep değildir. Bu kişilerin daha iyi ve sağlıklı bir yaşam standardına sahip olduklarını gösteren, ama kendisi katkı sağlamayan bir belirteçtir. Aralarından sebep sonuç ilişkisi yoktur. Buna örnek olarak dondurma yeme ve boğulma arasındaki kuvvetli ilişkiyi gösterebiliriz. Aslında eşzamanlı bir arada bulunan iki bağımsız faktörün birbiriyle ilişkiliymiş gibi algılanması gözlemsel çalışmaların en önemli yanlılıklarından biridir.
3. Randomizasyon gizli mi (allocation concealment)?
Randomizasyon çok güçlü bir teknik olsa da, yanlılığı gidermeyi ve birbirine benzer gruplar oluşturmayı her zaman başaramaz. Bazen de gerçekten şans eseri bir şekilde bu dengenin bozulması mümkündür. Eğer hastaları gruplara atayan kişiler, hangi hastanın hangi gruba atandığını kontrol edemiyor ve bilmiyorsa randomizasyonun gizliliği sağlanmıştır (allocation concealment). Randomizasyonun gizli olmadığı hallerde hastaları gruplara atayan hekim daha hasta olduğunu düşündüğü hastaları daha faydalı olduğunu düşündüğü tedavi grubuna atayarak randomizasyonu bozabilir. Gerçekçi bir randomizasyon yapılabilmesi için uzaktan randomizasyon teknikleri (hasta bir gruba atanacağı zaman belirli bir yerin aranması, internet sitesinin açılması vs) tercih edilmelidir. Her bir zarfın içine hastanın hangi tedaviye atanacağının yazıldığı ve zarfların numaralandırıldığı tekniklerde gerçek randomizasyon başarısı sağlanması pek gerçekçi değildir. Başvuran yüzlerce hastayı muayene eden, dedektif gibi hastalıkların izini süren, bu esnada bir elinde telefon ile boş yatak ayarlamaya çalışıp, diğer eliyle başka bir hastanın epikrizini yazan, arada acile ve servislere geçip konsültasyonlarını yapan ve ardından da ameliyathanede son anda anesteziyi ikna ederek, açılan odaya evinden çağırdığı hastanın ameliyatına koşan bir hekimin tedavilerden birine daha fazla inandığı bir çalışmada fayda sağlayacağını düşündüğü bir hasta için, zarfların içinde ne yazdığına dair bir ipucu ya da hile bulmayacağını düşünmek pek de gerçekçi olmaz. İyi bir araştırmacının yapılabilecek hinlikleri hesaba katması ve bunlar için baştan önlem alması araştırmanın başarısının en önemli anahtarıdır. Bu açıdan bakıldığında, randomize edilmemiş bir çalışmanın verilerini günlük pratikte uygulamanın aşağıda bahsedilen birkaç istisnai durum dışında kabul edilemez olduğunu rahatlıkla söyleyebiliriz.
Okuduğunuz makalede randomizasyonun sağlanmadığını fark ettiğiniz an, o makalenin okumaya ne kadar değer olduğunu sorgulamaya başlamanız gereken andır. Bu tip randomize olmayan çalışmaların sonuçları ancak o konuda yapılmış randomize kontrollü çalışmalar yoksa birincil derecede önem arz eder. Böyle bir durumda randomizasyon olmamasından kaynaklanan yanlılığın çalışma sonuçlarını ne derecede etkilediğini ve randomize bir çalışma yapılmasının mümkün olup olmadığını sorgulamalısınız. Eğer tedavi etkisi şans eseri çıkamayacak kadar büyükse (tedavi ve kontrol gruplarının arasında aşırı bir fark varsa) böyle bir tedaviyi hastalara önermemiş olmak etik olmayacağından randomize kontrollü çalışma tasarlanması mümkün olmayabilir. Kardiyopulmoner resüsitasyonda (KPR) kullandığımız ilaçların hemen hemen hiçbirinin randomize kontrollü çalışması yoktur. Ancak, arrest hastalarda randomize şekilde adrenalin gibi bir ilacın uygulandığı ve uygulanmadığı hasta gruplarını içeren bir dizaynın etik kurul onayından geçmesi mümkün değildir. Randomize olmayan çalışmanın sonuçları eğer bir etki farkı olmadığını gösteriyorsa genelde bu sonucu kabul etmek güvenli bir seçenektir. Randomize olmayan çalışmaların yanlış pozitif bir sonuca ulaşma ihtimali yanlış negatif bir sonuca ulaşma ihtimaline göre çok daha düşüktür. Genelde hekimler deneysel tedavileri en kötü prognoza sahip hastalara vermeme eğilimindedir. İlacını plasebo olsa bile büyük bir dikkat ve güvenle alan hastalar da, daha iyi prognoza sahip olma eğilimindedir. Bu ikisi birleştirildiğinde, randomize olmayan ve tedavinin faydalı olmadığını gösteren bir çalışmanın sonucunu kabul etmenin iyi bir çıkarım olacağını söyleyebiliriz.
4. Çalışma devam ettiği sürece prognostik denge sağlanmaya devam edilebilmiş mi? Çalışma ne derecede kör?
Randomizasyon başarıyla yapıldığı takdirde tedavi ve kontrol gruplarının çalışmaya girdiklerinde aynı prognoza sahip olduklarını söyleyebiliriz. Bu iki grubun aynı prognostik dengede devam edip etmeyeceği ancak çalışmanın kör olmasıyla mümkündür. Körleme prognostik dengenin devamını sağlayan en önemli basamaktır. Klinik çalışmalarda ideal olarak hastaların deneysel tedaviyi mi yoksa kontrol tedavisini mi aldıkları bilgisine sahip olmaması, yani kör olması gereken 5 farklı ekip vardır:
- Hastalar: Plasebo etkisini bertaraf etmek için;
- Klinisyenler: Sonlanıma etki edecek farklı ek tedavi ve girişimler yapmamaları için (ek-girişim);
- Veri toplayıcılar: Veri toplarken yanlı davranmamaları için;
- Sonlanımın gerçekleşip gerçekleşmediğine karar verenler, hakemler: Hedef sonlanımın oluşup oluşmadığında yanlı davranmamaları için, ve
- Veri analizini yapanlar: Hangi testleri nasıl uygulayacakları konusunda tarafsız davranabilmeleri için.
Örneğin, multiple sklerozda bir tedavinin faydasını inceleyen çalışmada hakemlerin kör olmadığı durumda belirlenen faydanın hakemler kör hale getirildiğinde kaybolduğu gösterilmiştir7. Hedef sonlanım ne derece karmaşıksa, hakemlerin körlenmesi de o kadar önemlidir. Tersine, hedef sonlanımın ölüm ya da hastaneye yatma gibi kantitatif bir değişken olduğu durumlarda hakemlerin körlenmesi hatta var olmasına bile gerek yoktur. Körleme özellikle cerrahi girişimleri karşılaştıran ya da cerrahi ile medikal tedaviyi karşılaştıran çalışmalarda mümkün değildir. Uygulama yolu, dozu, formülünün kimyasal yapısı gibi içsel özellikleri çok farklı ajanların karşılaştırmalarında da körleme zorlayıcıdır. Böyle durumlarda kıdemli ve işinin ehli hekimlerden kurulu bir heyetin hastaların aldıkları tedaviye kör olacakları bir yöntemle sonuçlarını değerlendirmeleri yöntemi tercih edilir. Alternatif olarak yukarıda da belirtilen net ve kesin bir objektif sonlanım ölçütü de seçilebilir (ölüm, bir haftalık sağkalım gibi).
5. Çalışma grupları prognostik açıdan çalışmanın sonunda da dengeli mi? Hastaların takibi tamamlanabilmiş mi?
Düzgün randomizasyon ve körlemeye rağmen araştırmacıların çalışmanın sonunda grupların prognostik dengesini kaybetmeleri hala olasıdır. Araştırmacılar, özellikle de ölüm gibi kantitatif sonlanım noktalarına, hastaların ulaşıp ulaşmadığını eninde sonunda öğreneceklerdir. Özellikle takip gerektiren çalışmalarda, hastaların takipten düşmesi nedeniyle sonlanımın ne olduğunun bilinmediği hasta sayısı arttıkça çalışmanın prognostik dengesi de bozulur. Takibe gelmeyen ve sonlanımları keşfedilemeyen hastalar genelde takip altındakilerden farklı sonlanımlara sahiptir. Bu hastalar advers etkiler yüzünden ya da kendilerini çok daha iyi hissettiklerinden takipten çıkmış olabilirler. Bir sistematik derlemeye göre yüksek etki gücüne sahip dergilerde yayınlanan çalışmaların üçte birinde, takipten çıkan ve sonlanımı bilinmeyen hastaların gruplardan özellikle birine ait olmaları durumunda bu çalışmaların anlamlı olan sonuçlarının anlamsız hale geldiği gösterilmiştir8.
Takibin yeterince uzun ya da tam olmadığı durumda kayıp miktarı ne kadar olursa nispeten kabul edilebilir? Bunu anlamanın en güzel yolu, takipten çıkan ve sonucu bilinmeyen hastaların hepsi çalışmanın sonucunun tam tersi yönünde sonuca sahip olsaydı çalışmanın sonucunun değişip değişmeyeceğini hesaplamaktır. Tedavi verilen 100 hastadan 90’ının (%90) iyileştiği bir grup ile tedavi verilmeyen 50 hastadan 15’inin (%30) iyileştiği bir çalışmayı ele alalım. Burada tam 2 kat daha fazla sonucu iyileştiren bir tedavi söz konusu. Aradaki %60’lık fark istatistiksel olarak anlamlı olarak hesaplanmaktadır (fark=%60; %95GA: %46-%74).Tedavi grubundan 5, kontrol grubundan 10 hastanın takipten kaybolduğunu ve sonucunun bilinmediğini varsayalım. En iyi (ya da kötü) ihtimalle tedavi grubuna alınan 105 hastadan yine 90’ı iyileşirken (%85,7), tedavi verilmeyen 60 hastadan 25’i (%41,6) iyileşmiş olabilir. Aradaki %44’lük fark yine istatistiksel olarak anlamlıdır (%95 GA: %29,9-%58,2). Bu basit hesapla, takipten düşen ya da sonucu bilinmeyen hastaların tedavi sonucuna etki edecek kadar fazla olmadığını söyleyebiliriz. Teorik olarak %20’den fazla hastanın sonucuna bir şekilde ulaşamayan veya takipten kaybeden çalışmaların matematiksel olarak en kötü durum senaryosu karşısında şansı yoktur. Bu yüzden de Evidence-Based Medicine ve ACP Journal Club, %80’den daha az hastanın sonucuna ulaşabilen çalışmaların sonuçlarını yayınlamaz. Reddedilen çalışmalarınıza bir de bu gözle bakmanız hakemleri anlamanıza yardım edecektir.
Takip süresinin yeterince uzun olup olmadığı bir başka önemli noktadır. Statinlerin etkisini inceleyen bir çalışmanın, bir haftalık süredeki etkilere bakması anlamsızdır.
6. Çalışma planlanandan önce mi sonlandırılmış?
Çalışmanın erken sonlandırılıp sonlandırılmadığı bir başka yanlılık yaratıcı noktadır. Seçilen süreden önce bir çalışmanın sonlandırılması, başlangıçta bu nokta öngörülerek bir randomizasyon çizelgesi hazırlanmadıysa, randomizasyonu ve prognostik dengeyi bozar. Hesaplanan ve planlanan örneklem boyutuna ulaşmadan (örneklem boyutu hesaplanmadan bir çalışmanın yapılması, yemeğe kaç kişi geleceğini bilmeden yemek alışverişine çıkmaya benzer), tedavi kollarından birinde anlamlı üstünlükte bir fayda çıktığı için bir çalışmanın erken sonlandırılması tedavinin etkisini olduğundan çok daha büyük gösterme eğilimindedir9. Bir sebeple erken sonlandırılan çalışmalar, genellikle başta ortaya konulan hipotezi çürütmek anlamına gelir. Bunun sebepleri ayrıntılarıyla açıklanmalı ve hedeflenen çalışma gücünün ne kadarına ulaşılabildiği açıkça ifade edilmelidir.
7. Hastalar randomize edildikleri grubun içinde de mi analiz edilmiş (Intention-to-treat analizi yapılmış mı)?
Bu analiz, yanlılığı azaltmak için olmazsa olmazlardan biridir. Planlanmamış çaprazlama bölümünde bu olgudan bahsetmiştik. İlacını almayan, kazara veya isteyerek yanlış tedavi verilen, tedavisi yarım bırakılan, hatta randomize edildikten 3 saniye sonra onamını geri çeken hastalar bile randomize edildikleri grupta sanki tedavi almış gibi değerlendirilmelidir. Bir şekilde ilacını almayan/alamayan hastaların (plasebo grubunda olsalar bile), sonlanımlarının diğerlerinden tutarlı bir şekilde daha farklı olduğu defaaten gösterilmiştir. Bu tip durumlarda prognostik dengenin sağlanmaya devam edilebilmesi için randomize edildikleri grupta analiz edilmeleri yani Intention-to-treat analizi yapılması son derece önemlidir.
Son olarak, ek girişimlerin engellenmesi için gereken tüm çaba gösterilmelidir. Ancak bazen bunu tamamen engellemek mümkün olmaz. O zaman da bu ek girişimlerin dökümante edilmesi gerekir. Farklı etki süresi olan sedasyon ajanlarını acil servis prosedüral sedasyonunda karşılaştıran bir çalışmada yer alan hekimlerin daha kısa etkili ajanı aldığını bildikleri hastalara daha fazla ek doz verme eğiliminde olmaları gibi. Buna karıştırıcılardan kaynaklanan yanlılık (confounding bias) adı da verilir.
Bulgularım ne anlama geliyor?
Bu aşamada artık yanlılık taşımadığını düşündüğümüz bir çalışmanın gösterdiği fayda (ya da zararın) önemli düzeyde olup olmadığını değerlendireceğiz. Çalışmanın sonuçlarının etkileyici olup olmadığını söyleyebilmemiz için 2 aşamadan geçmemiz gerekiyor:
- Sonuçların büyüklüğünü klinik olarak en faydalı ve anlaşılır hale getirmek ve
- Bu sonuçları diğer çalışmalardaki farklı tedavilerle karşılaştırmak.
Bu noktada makalelerde sonuç bölümünde yazılması gerekenlerin nasıl ifade edilmesi gerektiğini anlatan yazıma da bir göz atabilirsiniz:
Makalelerde sonuç bölümü nasıl yazılır? Sayısal veri ve doğru bildirimi İstatistik ve metot ile ilgili yazı dizimize devam ederken özellikle sayısal verinin düzgün bildirimi ve genel bir tekrarı yönünde oldukça fazla talep gelmeye başladı. Her ne kadar istatistikden ziyade metodoloji ağırlıklı bir yazı dizisi şeklinde tasarlamış olsam da biraz “kenarda dursun” mantığıyla sayısal verilerin sunumu kısımlarını içeren temel istatistiğin girizgah …
1. Tedavi etkisinin büyüklüğü ne kadar?
Tablo 1’de verdiğimiz ikinci aşamaya ait ilk soru, tedavi etkisinin büyüklüğünün tespitiydi. Randomize kontrollü bir çalışmada genellikle “evet-hayır” şeklinde dikotom (iki seçenekli) sonlanım ölçütleri değerlendirilir (öldü-yaşıyor, hasta-değil, tanı var-yok). Makalede bu hedef sonlanımın geliştiği ve gelişmediği hastaların hem tedavi hem de kontrol gruplarındaki oranları karşılaştırılır. Bu tip bir sonlanımı bildirmenin olmazsa olmaz şekli 2 x 2 tablo kullanmaktır.
2 x 2 tablolar nasıl hazırlanır ve nasıl raporlanır ayrıntıları için aşağıdaki yazımı okuyabilirsiniz:
Kategorik değişkenler, Çok gözlü tablolar ve ki-kare hesabı Çok gözlü tablolar iki kalitatif verinin birbiriyle karşılaştırılmasında kullandığımız karşılaştırma metodudur. Kalitatif veriler sınıflandırma belirtir. Bu tip veriyi tutan değişkenlere kategorik/gruplu/nominal değişkenler adı verilir Bu veri Cinsiyet, meslek, kurum, Well’s risk grubu, HT varlığı/yokluğu vb gibi bir veridir. Verideki sayı bir grubu/kategoriyi temsil eder. Örneğin, Cinsiyet değişkeninin değeri olan 0 ya da 1 … Tedavi sonuçlarını bildiren makalelerde bildirilmesi beklenen Odds Oranı, Rölatif Risk, Atfedilen Risk gibi sayısal ölçeklerin nasıl hesaplandığı ve yorumlanması gerektiğini aşağıdaki yazımdan gözden geçirebilirsiniz.
Odds Oranı, Rölatif Risk, NNT ve NNH Randomize kontrollü bir çalışmada genellikle “evet-hayır” şeklinde dikotom (iki seçenekli) sonlanım ölçütleri değerlendirilir (öldü-yaşıyor, hasta-değil, tanı var-yok). Makalede bu hedef sonlanımın geliştiği ve gelişmediği hastaların hem tedavi hem de kontrol gruplarındaki oranları karşılaştırılır. Bu tip bir sonlanımı bildirmenin olmazsa olmaz şekli 2 x 2 Tablo kullanmaktır. Örneğin, tedavi grubunda hastaların %15’inin, …
2. Tahmini tedavi etkisi ne derece kesin?
Her güzel şey gibi yukarıdaki yazıda ayrıntılarıyla anlattığımız NNT ve NNH kullanımının da tanımlanmış bazı açmazları vardır. Bunlardan en önemlisi de genelde sabit bir sayı şeklinde verilmeleri ve güven aralıklarının (GA) bildirilmemesidir. Bazı yazarlar NNT ve NNH ile beraber %95 GA’larının da verilmesini savunmaktadırlar10. NNT ve NNH’yi güven aralıklarıyla beraber hesaplayabileceğiniz çevrimiçi hesap makinesi sayısı nispeten az olsa da, bölüm sonundaki Tablo 9’daki listede verilen Toronto Üniversitesi sitesi, ve MedCalc istatistik programı bu hesaplamaları yapmaktadır.
Yine bir örnek üstünden gidelim: 20 bin hastalık büyük bir çalışmada tedavi grubunda 5, kontrol grubunda ise 3 kişide rabdomiyoliz görülmüş olsun. Elle yapacağımız hesaplamalar şu şekilde:
Tedavi grubunda rabdomiyoliz riski | = 5 / 10000 | %0,05 |
Kontrol grubunda rabdomiyoliz riski | = 3 / 10000 | %0,03 |
Tedavi ile rabdomiyoliz Rölatif Riski | = %0,05 / %0,03 | 1,67 |
Net Risk Artışı (ARI) | = ½%0,03-%0,05½ | 0,02 |
NNH = 1 / ARI | = 1 / 0,02 | 5000 |
Tedavi ile rabdomiyoliz riski kontrol grubunun 1,67 katı olup, tedavi verilen her 5000 hasta için fazladan 1 kişide rabdomiyoliz görülmektedir. MedCalc programına bu verileri girdiğimizde (aşağıdaki resimler) bize RR ve NNT’nin yanı sıra bu değerlerin %95 güven aralıklarını da hesaplıyor (ki bunları elle hesaplamak son derece zor ve gereksiz).
Çıktılarda belirtilen Rölatif Risk değeri ile deneysel tedavinin %66,67 (1,6667) daha fazla rabdomiyoliz oluşturduğunu görüyoruz. NNT olarak belirtilse de aslında bir zarardan bahsettiğimiz için NNH değeri daha önce elle hesapladığımız gibi 5000. Hesaplanan RR ve NNH değeri sadece bizim 20 bin hastalık örneklemimiz için geçerli. Aslında biz bu çalışmayı başlangıçta yaparken bu 20 bin hastadaki değerin ne olduğuyla değil toplumdaki değerin ne olduğuyla ilgileniyorduk. Bu 20 bin hasta sadece bizim toplumdaki esas değeri bulmak için kullandığımız bir örnekti.
Öyleyse toplumdaki değer ne?
Bu bilgiyi %95 güven aralıkları bize veriyor. RR’nin %95 güven aralığı kabaca 0,4 ile 7,0 arasında hesaplanmış. Eğer biz bu çalışmayı 99 kez daha 20 bin kişilik çalışmalarla tekrarlamış olsaydık bu 100 çalışmanın 95 tanesinde bulduğumuz RR değeri 0,4 ile 7 arasında değişecekti. Dolayısıyla da bazı çalışmalar RR’nin 1 değerinden küçük olduğunu gösterirken, bazıları da tıpkı şu andaki çalışmada olduğu gibi 1’den büyük değerler aldığını gösterecekti. RR’nin 1’den küçük olduğu çalışmalarda tedavinin rabdomiyolizi azalttığı yorumunu yaparken 1’den büyük olduğu çalışmalarda arttırdığı yorumunu yapacaktık.
Peki, 100 çalışmanın 95’inde bu şekilde birbirine ters yorumlar yapabiliyorsak bu tedavinin gerçekten rabdomiyolizi arttırdığını söyleyebilir miyiz?
RR için hesaplanan %95 güven aralığı 1 değerini içerdiği ve hesaplanan p değeri genel kabul edilen %5’lik Tip 1 hata oranından yüksek olduğu sürece böyle bir yorum yapmamız mümkün değil. Bu p değeri bize aslında arada fark yokken yanlış olarak arada fark varmış gibi bulma ihtimalimizin %48,42 olduğunu gösteriyor. Bir çalışmanın arada fark olmadığı şeklindeki sıfır hipotezini yanlış bir şekilde reddetme (yanlış pozitiflik), yani arada fark varmış gibi bulma ihtimaline Tip 1 Hata diyoruz ve p değeriyle ifade ediyoruz. O zaman, tedavi ile rölatif rabdomiyoliz riski (RR) 1,67 olsa da %48 ihtimalle bu bulduğumuz fark yanlış pozitif ve aslında olmayan bir fark diyebiliriz. Bu ihtimal %5’in altında olsaydı (p<0,05) genel yaklaşım gereği RR’nin anlamlı bir şekilde yüksek olduğunu söyleyecektik (yani bulduğumuz 1,67’lik RR’nin yanlış pozitif olsa ihtimali %5’in altında olacaktı).
Genel olarak kabul edilmiş olan bu %5’lik ihtimal, yeterli güven sağlayacak kadar düşük mü?
Eğer bu çalışmada rabdomiyoliz yapan tedavi kanser tedavisinde kullanılan bir ilaçsa ve etkinliği çok yüksekse %5 değil belki %10 bile bizim için kabul edilebilir bir eşik olur. Ancak, aynı ilacın etkinliği çok düşükse ve yan etki profili benim ilaç seçimimde öncelikli karar verdirici olacaksa bu ilacın rabdomiyoliz yapıp yapmadığından emin olmak isterim. Bu durumda %1’lik bir Tip 1 Hata (yani p<0,01 veya %99 güven aralığı) ile arada fark olup olmadığını bilmek isterim.
NNH değeri olan 5000 de aslında oldukça geniş bir güven aralığına sahip. Sonuç dökümünde görüldüğü üzere fayda yönünde (NNT) 2822’den giderek büyüyüp sonsuza ulaşıp sonra ters yönde giderek küçülüp zarar yönünde (NNH) en düşük 1325 olacak bir aralıkta yer alıyor11. Aşağıdaki şekilde Altman’ın önerdiği NNT/NNH güven aralığı gösterim şeklini görüyoruz. Bu gösterim şekli bizim alışık olduğumuz güven aralığı gösterimlerine pek uymuyor. ARR sıfır olduğu zaman, yani deneysel tedavi ile kontrol arasında hiç fark olmadığında NNT/NNH sonsuz bir değer olur. NNT’nin formülü olan 1/ARR’den de bunu matematiksel olarak görebiliriz. Mantıksal açıdan da iki tedavi arasında fark yoksa fazladan bir kişide faydalı ya da zararlı sonuç alabilmek için sonsuz kişiye tedavi verilmesi gerekir gibi düşünebiliriz. MedCalc programı da bu yüzden NNT/NNH’nin %95 güven aralığının gösteriminde 2822 – sonsuz – 1325 şeklinde sonsuza gidip dönen bir ifade tercih ediyor. Sonuç olarak, biz bu çalışmayı 100 kere yapmış olsak 95 seferinde bulacağımız NNH değeri en az 2822 kişiye bu deneysel tedaviyi vererek fazladan 1 kişide rabdomiyolizi engelleyebileceğimizi, ya da tam tersine en az 1325 kişiye vererek fazladan 1 kişide rabdomiyoliz oluşmasına neden olabileceğimizi gösterecektir. Bu tedavi ile toplumda hem rabdomiyolizi azaltma hem de arttırma gibi birbiriyle çelişkili sonuçlar elde edebildiğimize göre anlamlı olmadığını söyleyebiliriz11.
NNT ve NNH daima bir zaman dilimine bağlıdır. Aynı çalışmada 1 yıl statin verilmesinin NNT ve NNH’si, 5 yıl verilmesi ile doğal olarak aynı olamaz. Bu sayıyı zamana göre düzeltmek için bir ön şartı kabul etmeliyiz. Bu şart, rölatif risk artışı/azalışının yıllar içinde sabit kaldığının kabul edilmesidir. Eğer bu ön şart çalışılan hastalığa uygunsa zamana göre NNT ve NNH düzeltmesi yapılabilir. Bu hesabı yaparken
NNThesaplanacak = NNTbilinen x (Zamanbilinen / Zamanhesaplanacak)
formülünü kullanıyoruz. Bu formül NNT ve NNH için aynıdır. Bu formül ile statin çalışmasında 1 yıllık NNH’yi hesaplarsak: NNH1 = 5000 x (5 / 1) = 25.000 sayısını elde ederiz. Tedavi verilen hastalarda fazladan 1 kişide daha rabdomiyoliz görülmesi için 25.000 hastaya 1 yıl boyunca statin verilmesi gereklidir.
Güven aralığının çalışmada yer alan hasta sayısı ile birebir ilişkili olduğuna dair genel bir yargı vardır ki kısmen de doğrudur. Tedavi sonuçlarını bildiren çalışmalarda dikotom (evet/hayır, var/yok) şeklinde sonlanımlarla tedavi alıp almamanın etkisini karşılaştırırken kullandığımız rölatif risk (RR) veya rölatif risk azalması (RRR) değerlerinin güven aralıkları ise çalışma örnekleminin sayısından ziyade olayların (öldü/yaşıyor, rabdomiyoliz var/yok) sayısıyla daha alakalıdır. Aşağıdaki tabloda her bir satırda farklı birer farazi çalışmanın verileri verilmiştir.
Farazi çalışma verileri
Kontrol Grubunda Mortalite | Kontrol Grubundaki Hasta Sayısı | Tedavi Grubunda Mortalite | Tedavi Grubundaki Hasta Sayısı | RRR (%95 GA) |
30 | 100 | 20 | 100 | %33 (-8, 59) |
3 | 1000 | 2 | 1000 | %33 (-233, 87) |
Her iki çalışmada da tedavi ile %33 rölatif mortalite riski mevcut. İlk çalışmada her iki gruba da 100’er hasta alınırken ikinci çalışmada 1000’er hasta alınmış. Hangi çalışma ile daha kesin sonuçlar elde edip daha net bir şekilde (ve daha dar bir güven aralığıyla) tedavinin yarattığı rölatif mortalite riskini hesaplanabilir? Elbette hepimiz 200 hastalık çalışmanın değil 2000 hastalık çalışmanın daha net sonuçlar vereceği yanıtını veririz. Ancak tablodan da gördüğünüz gibi, daha fazla olay sayısı (bu çalışmada mortalite) olan çalışmanın güven aralığı daha dardır. Randomize kontrollü çalışmalar, kohort çalışmalar ya da vaka-kontrol çalışmaları gibi sonlanım olarak bir olay sayısı bildiren ve karşılaştıran çalışmalarda örneklem boyutu değil olay sayısı güven aralığını, dolayısıyla da çalışmanın kesinliğini belirleyen ana parametredir.
Şekil 3A’da tedavi ile RR’nin 0,667’ye indiği 7 farklı çalışmanın verilerini karşılaştırmaktayız. Tüm çalışmalarda RR 0,667 ve kontrol grubuna göre tedavi grubunda mortalite %50 daha az görülüyor (ya da kontrol grubunun %667’si kadar görülüyor). 1. çalışmada mortalite görülen hasta sayısı örneklemin %10’u kadarken, 7. çalışmada %30’una yakın. Olay oranı sabit tutularak örneklem boyutu arttırıldığında, örneklem boyutundan bağımsız şekilde, olay sayısına göre güven aralığının daraldığını ve p değerinin anlamlılık oluşturacak şekilde giderek küçüldüğünü görebilirsiniz. Şekil 3B’de ise örneklem boyutunu tamamen sabit tuttuk ve olay oranı sabit kalacak şekilde olay sayısını arttırdık. Yine aynı şekilde güven aralıklarının giderek daraldığını görebilirsiniz. Bu örneklerden çıkaracağımız sonuç şudur: Çok az olay sayısı olan çalışmalar ne kadar büyük olurlarsa olsunlar, olay sayıları arasındaki fark çok büyük olmadığı sürece geniş bir güven aralığına sahiptirler ve araştırdığı farkı yüksek bir kesinlikte söylemeye muktedir olmayabilirler.
Şekil 3A. Örneklem büyüklüğü ve Güven Aralığının genişliği (olay oranı sabit)
Şekil 3B. Olay oranı ve güven aralığının genişliği (örneklem büyüklüğü sabit)
Bir önceki bölümde RR ve OR arasındaki hesap ilişkisinden bahsetmiştik. Benzer bir ilişki NNT/NNH ve OO arasında da kurulabilir. Çalışmada deney ve kontrol grupları arasındaki risk ilişkisi RR, ARR gibi değerler yerine OR ile ifade edilmişse Aşağıdaki tabloda yer alan dönüştürme tablosunu kullanarak OO’lardan NNT’yi hesaplayıp daha anlaşılır çıkarımlar yapabilirsiniz.
Odds oranlarını NNT ve NNH’ye çevirme tablosu12
Kontrol Olay Hızı (CER) veya Hastanın Beklenen Olay Hızı (PEER) | Odds Oranı | ||||||||||||||||||
0.5 | 0.55 | 0.6 | 0.65 | 0.7 | 0.75 | 0.8 | 0.85 | 0.9 | 1.5 | 2 | 2.5 | 3 | 3.5 | 4 | 4.5 | 5 | 10 | ||
NNT | NNH | ||||||||||||||||||
0.05 | 41 | 46 | 52 | 59 | 69 | 83 | 104 | 139 | 209 | 43 | 22 | 15 | 12 | 9 | 8 | 7 | 6 | 3 | |
0.1 | 21 | 24 | 27 | 31 | 36 | 43 | 54 | 73 | 110 | 23 | 12 | 9 | 7 | 6 | 5 | 4 | 4 | 2 | |
0.2 | 11 | 13 | 14 | 17 | 20 | 24 | 30 | 40 | 61 | 14 | 8 | 5 | 4 | 4 | 3 | 3 | 3 | 2 | |
0.3 | 8 | 9 | 10 | 12 | 14 | 18 | 22 | 30 | 46 | 11 | 6 | 5 | 4 | 3 | 3 | 3 | 3 | 2 | |
0.4 | 7 | 8 | 9 | 10 | 12 | 15 | 19 | 26 | 40 | 10 | 6 | 4 | 4 | 3 | 3 | 3 | 3 | 2 | |
0.5 | 6 | 7 | 8 | 9 | 11 | 14 | 18 | 25 | 38 | 10 | 6 | 5 | 4 | 4 | 3 | 3 | 3 | 2 | |
0.7 | 6 | 7 | 9 | 10 | 13 | 16 | 20 | 28 | 44 | 13 | 8 | 7 | 6 | 5 | 5 | 5 | 5 | 4 | |
0.9 | 12 | 15 | 18 | 22 | 27 | 34 | 46 | 64 | 101 | 32 | 21 | 17 | 16 | 14 | 14 | 13 | 13 | 11 |
Bu sonuçları hastalarıma nasıl uygulayabilirim?
Son aşama olan bu sonuçları hastalara uygulanabilirliği konusunun değerlendirilmesi bu kitabın kapsamı dışında kalıyor. Her hastanın farklı temel risklerle başladığı bir dünyada yaşıyoruz. Verdiğimiz tedavilerin sağlayacağı fayda da zarar da hastaların temel riskleri oranında daha yüksek ya da daha az olarak karşımıza çıkacaktır. Örneğin, CURE çalışmasına göre, küçük bir MI geçirmiş 40 yaşında bir erkek hastanın sadece aspirin ile tedavi edildiğinde, bir yıl içerisinde ölüm ya da majör kardiyak olay geçirme oranı %5,3, 70 yaşında geniş bir MI ya da kalp yetmezliği olan bir hastada bu oran %36’dır13. Aspirin tedavisine klopidogrel eklemenin ölüm ya da majör kardiyak olay sıklığını yılda %20 azalttığı biliniyor. Bu hastalardan hangisine klopidogrel verelim hangisine vermeyelim? Genç hastanın %5,3 olan riskini %20 (RRR) azaltacak olan klopidogrel aslında net olarak sadece %1,1’lik bir fayda sağlıyor (ARR: temel risk x RRR, %5,3 x %20 = %1,1). Hemen bu sayısı NNT’ye çevirdiğimizde 1 hastada ölüm ya da majör kardiyak olayı engellemek için 91 benzer hastaya aspirin tedavisine ek olarak klopidogrel de vermemiz gerektiğini buluyoruz. Klopidogrelin yan etki profili de göz önüne alındığında bu hastaya bu ilacı hiç eklememek gayet düşünülebilir bir seçenek. Öte yandan yaşlı hastanın %36 olan riski aspirin ile %20 azalsa bile hastanın halen %28,8’lik bir risk altında olduğunu hesaplıyoruz (Temel risk= %36, RRR=%20, ARR=%7,2, Beklenen risk=%28,8). NNT’yi hesapladığımızda ise bulduğumuz sayı 13,8. Çoğu hekim her 14 hasta için 1 hastayı ölümden kurtaracak düzeydeki bir tedaviyi yan etki profili müsaade ettiği sürece vermek isteyecektir. Bu tip yaklaşımla yapılan tedavilere Kanıta Dayalı Tıp uygulamaları diyoruz.
Kaynaklar
1. Guyatt G. Users’ Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice, 3E. McGraw-Hill Education / Medical; 2014. 2. Knekt P, Ritz J, Pereira M, et al. Antioxidant vitamins and coronary heart disease risk: a pooled analysis of 9 cohorts. Am J Clin Nutr. 2004;80(6):1508-1520. [PubMed] 3. Sesso H, Christen W, Bubes V, et al. Multivitamins in the prevention of cardiovascular disease in men: the Physicians’ Health Study II randomized controlled trial. JAMA. 2012;308(17):1751-1760. [PubMed] 4. Stampfer M, Colditz G. Estrogen replacement therapy and coronary heart disease: a quantitative assessment of the epidemiologic evidence. Prev Med. 1991;20(1):47-63. [PubMed] 5. Grady D, Hulley S. Hormones to prevent coronary disease in women: when are observational studies adequate evidence? Ann Intern Med. 2000;133(12):999-1001. [PubMed] 6. Hulley S, Grady D, Bush T, et al. Randomized trial of estrogen plus progestin for secondary prevention of coronary heart disease in postmenopausal women. Heart and Estrogen/progestin Replacement Study (HERS) Research Group. JAMA. 1998;280(7):605-613. [PubMed] 7. Noseworthy J, Ebers G, Vandervoort M, Farquhar R, Yetisir E, Roberts R. The impact of blinding on the results of a randomized, placebo-controlled multiple sclerosis clinical trial. Neurology. 1994;44(1):16-20. [PubMed] 8. Akl E, Briel M, You J, et al. Potential impact on estimated treatment effects of information lost to follow-up in randomised controlled trials (LOST-IT): systematic review. BMJ. 2012;344:e2809. [PubMed] 9. Montori V, Devereaux P, Adhikari N, et al. Randomized trials stopped early for benefit: a systematic review. JAMA. 2005;294(17):2203-2209. [PubMed] 10. Stang A, Poole C, Bender R. Common problems related to the use of number needed to treat. J Clin Epidemiol. 2010;63(8):820-825. [PubMed] 11. Altman D. Confidence intervals for the number needed to treat. BMJ. 1998;317(7168):1309-1312. [PubMed] 12. E. Straus S. Evidence-Based Medicine. Churchill Livingstone; 2011. 13. Mehta S, Yusuf S, Clopidogrel in. The Clopidogrel in Unstable angina to prevent Recurrent Events (CURE) trial programme; rationale, design and baseline characteristics including a meta-analysis of the effects of thienopyridines in vascular disease. Eur Heart J. 2000;21(24):2033-2041. [PubMed]