26 Temmuz 2014 Cumartesi

Bayes'in Eline Düşmüş Belirsizlikler: Hasat Zamanı


“...Keder ve umutsuzlukla geçen bir gecenin ardından, yorgun, bitap da olsan, çocuklar için yapılması gerekenleri yapıp yapmayacağını bilmek istiyorum.
Nerede, kiminle, ne okuduğun beni ilgilendirmiyor. Diğer her şey bittiğinde seni ayakta tutan şeyin ne olduğunu bilmek istiyorum.
Kendinle yalnız kalıp kalamadığını ve o boş anlarda sana arkadaşlık eden kendini gerçekten sevip sevmediğini bilmek istiyorum...”

Oriah Mountain Dreamer (Kanadalı bir Kızılderili)

Dreamer hislerimi almış sözcüklere dokundurmuş ki sizlere kendimi ifade edebileyim diye. Bir şeyi yapmanın en keyifli yanı nedir bilir misiniz; onu herşeye rağmen yapabilmektir. Temmuz'u da bitirdiğimiz şu günlerdeki eğitimimizde sevgili Ahmet Raşit Hocamızın bizim için (bir nevi çocuklar için) yapılması gereken herşeyi, herşeye rağmen yaptığını söyleyebilirim. Bize kendimizi sevdirdikçe kendisini sevdiğimizi fark ediyor mudur acaba?

Herşeye rağmen en önemlisi de yalnız kaldığımızda kendimizi boşluktaymışız gibi hissettiren o hisse yenilmeyerek, o hissi manipüle ederek, bir amaç edinerek ve o amaç doğrultusunda mutluluğun peşinden giderek yolu tamamlamak olduğunu düşünüyorum. Böylelikle yolda kalmayı sağlayan suda yürüdüğüne gerçekten inanmak istediğim insanın hayatıma kattığı değer ile değerleniyorum, iyi hissediyorum.


GenKök'te zaman çok hızlı geçiyor. Vedalar olarak adlandırılan şu zamanlar benim için Biyoinformatik'in hasat zamanını oluşturuyor. Gogh'un yukarıdaki “Hasat Zamanı” tablosuna bakarken, öğrenilenlerle yoğrulanlar şimdilerde elde ettiğimiz şeylerle anlam kazananlara dönüştü diyebiliyorum. Ahmet Raşit Hocamızın hasat zamanının başladığını söyleyebilirim. Kazanılanlar ne kadar kıymetli, ne kadar özel ve güzel... Diğer her şey bittiğinde ayakta tutan şey hasatın geldiğini bilmek olsa gerek.


Henüz hasat zamanı gelmeyenler için ise biraz Bayes istatistiğini ele alalım. 

Monty Hall Problemi'ni keyfime göre uyarlarsak; üç tane terminal düşünün. Bu üç terminale sırasıyla A, B, C isimlerini verelim. Hangi terminalde o çok istediğiniz miRNA kodları vardır? :) C dediğinizi duyar gibiyim. Peki ben A'da olmadığını göstererek A terminalinde olma olasılığını kaldırırsam ve sizin elinizde B ve C kalsa hala C demeye devam eder misiniz? Peki B veya C olma olasılığı sizce birbirine eşit midir? Şimdi de "Eşit ve ben C demeye devam ederim." dediğinizi duyar gibiyim :). Çünkü ilk bakışta iki terminal kalmasından dolayı olasılığın 1/2 olduğunu düşünmeniz oldukça normal. Ya ben size cevabın B olma olasılığının C olma olasılığından yüksek olduğunu ve bu olasılığında 2/3 olduğunu söylesem? Hadi gelin birlikte inceleyelim.

Ben A terminalinde miRNA kodunun olmadığını söylemeseydim her terminalde miRNA kodunun olma olasılığının 1/3 olduğunu biliyoruz. Fakat söyledikten sonra B ve C terminallerinde miRNA kodunun bulunma olasılığı 1/2 olmaktadır. Gerçekte miRNA kodu B terminalinde iken C terminalinde olma olasılığı ise 0, doğal olarak B terminalinde olma olasılığı 1 olacaktır.

Bayes istatistiği formülünü uygulayacak olursak,

P(miRNA kodunun B terminalinde bulunma olasığı/ A terminalini seçme olayı) =
P(A terminalini seçme olayı / miRNA kodunun B terminalinde bulunma olasığı).P( miRNA kodunun B terminalinde bulunma olasığı) / P( A terminalini seçme olayı) = (1 . 1/3) / (1/2) = 2/3

Frekansçılara göre Bayesçiler olasılık dağılımlarının tümünü ele alıp bütünün üzerinden bir olasılık ortaya koymaktadırlar. Frekansçı [Klasik] istatistikçilere göre hiç bir şeyin kesin olmadığını, bulunduğu konumunun tüm olasılıklarının ele alınması gereken bir değer olduğunu belirttiklerine olan inancımla bir de tam olarak kavrayamayışımın verdiği doğal insan davranışı olan “Anlayamadıysam eğer demekki burada kayda değer şeyler var” hissiyle Bayes'i çok sevdiğimi söyleyebilirim. Belirsizliklerin toplamının bir kesinlik olduğunu şimdi daha net görebiliyorum.

Biyoinformatiğin içine girdikçe ve istatistiğin beynini keşfettikçe şans oyunlarının şansını kendinin oluşturduğunu kavrıyorum ve kendi dünyamın merkezine daha bir sağlam yerleşiyorum. İstediğimiz herşeyi hesaplayacağımız fikri kontrolü ele alabileceğimizin en güzel kanıtı olsa gerek.


Bir diğer istatistiksel yaklaşımı yine örnek üzerinden verecek olursak, II. Dünya Savaşı'nda İngilizler Almanların kaç tane tankı olduğunu tespit etme eğilimine düştüler. Örneğin savaş sırasında Almanların birkaç tankının patladığını veya bozulduğunu düşünün. Böylelikle tankları inceleme şansı buldunuz. Bu tankların üzerinde ise 49 yazdığını varsayalım. Bu sayıdan yola çıkarak Almanların kaç adet tankı olduğu üzerine bir tahminde bulunabilir misiniz? Daha sonra diğer bir tank bulunduğunda ise üzerinde 7 yazdığını gördünüz. 7 rakamı hesapladığınız olasılıkta bir değişiklik oluşturur mu? Yine bunda da Frekansçı istatistiksel yaklaşımla baktığınızda küçük rakamın olasılık kuramında bir değişiklik oluşturmadığını düşünebilirsiniz. Bayes istatistiğinde ise Frekansçı yaklaşımından farklı olarak tümevarım vardır. Bu yüzden tümü oluşturan her sayının olasılık hesabında bir değeri vardır. Daha sonra diğer tanklarda da 26, 12, 83 sayılarının var olduğunu gördünüz. Tabi öncelikle bu sayıların neyi ifade ettiği üzerine yorum yapan İngilizler şu sonuca varmışlar. Üzerindeki sayılar seri numarasını temsil etmektedir. Gelin biz de istatistiksel olarak hesap yaparak tank sayısını bulmaya çalışalım. Örnek sayısının en büyüğüne A, seri numarasının en büyüğüne B diyecek olursak tank saysının hesaplamak için şu formülü kullanabiliriz;

(B-1) x (A+1) / A
(83-1) x (5+1) / 5 = 98.4

Bu formüle göre o sırada üretilen tank sayısı 98 olmalıdır. Savaş sonrasında tankların üretim sayısının elde edilen kayıtlar doğrultusunda 246 olduğu, istatistikçilerinde 245 tank sayısı hesapladığı ortaya çıkmıştır. Bu sonuçla da savaşın asıl kazananlarının istatistikçilerin olduğu söylenebilir. Bu gerçek hikayeden zekanın etkin kullanımı ile savaşın kaderinin değişebileceğinden dolayı fazlasıyla etkilendiğimi de söyleyebilirim.

Siz de bundan yola çıkarak vagonların üzerinde yazan yazılardan kaç adet vagon olduğunu hesaplama gibi bir alıştırma yapmayı deneyebilirsiniz.


Bu hafta GenKök'te yine çok şey öğrendik ama benim için haftaya imzasını attıran Bayes İstatistiği idi. 

Lindley’in şu sözleriyle bitirmek istiyorum;
“Etrafımız belirsizliklerle sarılmıştır ve bu belirsizlikler hayatımızda hakim bir rol oynamaktadır. Bayesyen paradigma olasılık sayesinde onları anlamaya, idare ve kontrol etmeye ... yarayan güçlü bir araç sağlar.”

Belirsizliklerin olasılıklarla anlamlandırıldığı ve böylece belirsizliklerin üzerimizdeki yadsınamaz korkularını uzaklaştırdığımız nice istatistiksel günler dilerim,

Yolda kalın!
Bihter

Hiç yorum yok:

Yorum Gönder