Öncelikle stratejik ortamın önemli unsurlarından, sonrasında modellemekten, sonrasında ise çözümünden bahsedelim. Stratejik bir ortamda bireyler başka bireylerin hangi kararları alacağını (hangi stratejileri seçeceğini) düşünmek zorundadır. A şirketi B şirketinin hangi fiyatı seçeceğini rasyonel olarak tahmin etmeye çalışırken, eğer B şirketi de rasyonel ise, A şirketi B şirketinin fiyat belirlerken A şirketinin vereceği fiyatı tahmin etmeye çalıştığını bilecektir. Daha ileri getirecek olursak şirketlerin rasyonelliği bilinen bir gerçek (ingilizce terim karşılığı common knowledge) ise, A şirketi B şirketin ne düşündüğünü; B şirketinin A şirketi hakkında ne düşündüğünü; B şirketin A şirketinin B şirketi hakkında ne düşündüğünü… (ve devam eder) düşünecektir.
Oyun teorisi bu gibi stratejik ortamları bir oyun olarak modeller. Oyunda temel öğeler: oyuncular, oyuncuların seçebileceği stratejiler, ve oyuncuların strateji profil kümesi (strateji kümelerinin kartezyen çarpımı; yani her bir elemanı her bir oyuncunun bir strateji seçimi olan vektör olan küme) üzerinde tanımlanmış oyuncuların tercihleridir (çoğu zaman bunları niceleştirmek için yarar fonksiyonları kullanılır) Yukardaki örneği formal olarak (Bertrand rekabeti) modelleyecek olursak, bu örnekte oyuncu kümesi: N={A,B}; strateji kümeleri S_A=S_B=R_+; strateji profil kümesi S=(R_+)^2 ; ve oyuncuların tercihleri belirten kar fonksiyonları u_A (s_A,s_B)=(s_A - c)(K - s_A + α x s_B), u_B (s_A,s_B)=(s_B - c)(K -s_B + α x s_B) olarak tanımlanabilir (A şirketi için s_A - c birim başına kar, K — s_A + α x s_B ise kendi stratejisine pozitif, diğer oyuncunun stratejisine negatif bağlı olan satabileceği ürün miktarını belirtir).
Tanımlanan bir oyunun rasyonel oyuncular arasında oynandığında nasıl bir sonuçun doğuracağı oyun kuramının sorduğu ve cevapladığı en önemli sorulardan birisidir. Öncelikle rasyonelliğin tanımını yapmamız lazım. Rasyonel oyuncu diğer oyuncuların stratejileri konusunda bir kanıyı göz önüne alarak stratejileri arasında en yüksek yararlılığa ulaştıranı seçer. Oyun kuramı jargonuna göre bir oyunun sonucunu tahmin etmeye oyunu çözmek denir, ve oyunu çözmek için değişik çözüm kavramları (ingilizce tanımı solution concept) kullanılır. Oyun kuramında en yaygın kullanılan çözüm kavramı Nash dengesidir.
Nash dengesinde oyuncular birbirlerinin denge stratejilerini doğru olarak tahmin ederler, ve rasyonel kararı verirler. Değişik bir ifadeyle Nash dengesinde hiç bir oyuncu diğer oyuncular stratejilerinde sabit kaldığı müddetçe stratejisini değiştirmekten fayda sağlayamaz. Yukarıdaki oyunun Nash dengesini c=0, K=10 ve α=1 için çözelim. (s_A,s_B)’nin denge olabilmesi için A şirketi s_B’yi doğru tahmin ettiğinde verdiği kararın karını maksimize etmesi gerekir. s x (10 - s +s_B)’nin maksimize edildiği nokta (10 + s_B) / 2 olduğu için, s_A =(10 + s_B) / 2’nin sağlanması gerekir. Benzer sekilde, B şirketi s_A’yi doğru tahmin ettiğinde verdiği karar karını maksimize etmesi gerekir. Dolayisiyla s_B =(10 + s_A) / 2’nin da sağlanması gerekir. Bu iki denklemi beraber çözersek, s_A=s_B=10’nin Nash dengesi olduğunu görmüş oluruz.
Nobel ödüllü oyun teorisyeni Roger Myerson’in kalemiyle oyun kuramı “zeki ve rasyonel bireyler arasındaki işbirliği ve ihtilafın matematiksel modeller kullanarak çalışılması” olarak tanımlanmıştır. İşbirliği ve ihtilafı daha detaylandırmak için önemli 2x2 oyunlardan bahsederek devam edelim. 2x2’lik oyunlarda iki oyuncu; her oyuncunun da iki stratejisi vardır. Bu oyunların en meşhuru ile başlayalım. Mahkumlar açmazı (Prisoner’s Dilemma) oyununda beraber bir suçu işlediklerine inanılan iki kişi iki ayrı odada suçu itiraf etme, veya inkar etme stratejilerinden birisini seçerler. Eğer ikisi birden itiraf ederse ikisi de onar ay hapiste kalacaklar.
Eğer ikisi birden inkar ederse sadece ikişer ay kalacaklar. Eğer birisi inkar edip, diğeri itiraf ederse inkar eden (yalan söylediği için ekstra ceza alarak) bir yıl hapiste kalacak, itiraf eden ise (polise yardım ettiği için) sadece bir ay hapiste kalacak. Birinci oyuncunun ne oynaması gerektiğini düşünelim. İkinci oyuncu inkar da etse, itiraf da etse, birinci oyuncu itiraf ederek daha karlı çıkar (bir yıl yerine on ay kalarak, veya iki ay yerine bir ay kalarak). Bu oyunda dolayısıyla itiraf etmek baskın stratejidir (ingilizce tanımı dominant strategy’dir ve formal olarak diğer oyuncuların stratejilerinden bağımsız olarak her zaman en iyi sonucu veren strateji demektir) ve iki oyuncunun da itirafı bu oyunun tek Nash dengesidir. Bu oyuna çıkmaz denmesinin sebebi ise bu tek dengede oyuncuların karlarının ikisinin de inkar ettiği durumdaki karlarından daha düşük olmasıdır, veya başka bir ifade ile başka bir strateji profilinin denge strateji profilini Pareto domine etmesidir.
İkinci 2x2 oyun olarak Kadın-Erkek çekişmesi (Battle of Sexes) oyununu göz önüne alalım. Bu oyunda evli bir çift, Ali ve Ayşe, hafta sonu için gidecekleri yeri birbirlerinden habersiz seçeceklerdir. İki seçenekten birisi sinema, diğeri ise tiyatrodur. Birbirlerini seven bu çift eğer değişik seçenekler seçerlerse (birisi sinema, diğeri tiyatroya giderse) bundan memnun olmazlar; bu durumdaki yarar fonksiyonlarını 0 olarak tanımlayalım. Ali ve Ayşe beraber aynı seçeneği seçerlerse pozitif yarar alacaklardır, ama aldıkları yarar kendi şahsi tercihlerine göre değişir. Daha özelleştirirsek, eğer tiyatroda buluşurlarsa Ayşe 2, Ali 1 yarar elde eder, eğer sinemada buluşurlarsa Ayşe 1, Ali 2 yarar elde eder. Bu oyunu incelediğimizde bu oyunun iki Nash dengesi olduğunu görürüz. Bunlarda (tiyatro, tiyatro) Ayşe’nin tercih ettigi, (sinema, sinema) ise Ali’nin tercih ettiği dengedir. Bu oyun bir çeşit koordinasyon oyunudur.
Üçüncü örneğimiz ise bir anti-koordinayon oyunu ve iki adı ve iki hikayesi var. Uluslararası ilişkiler bilim dalında çok kullanılan şekliyle şahin-güvercin oyununda (Hawk-Dove game) iki ülke birbirlerine karşı şahin (agresif) dışişleri politikası veya güvercin (pasif) dışişleri politikası kullanırlar. Bu iki ülke için en kötü sonuç iki ülkenin birden şahin politika kullanmasıdır (savaş çıkma ihtimali), bundaki yararı 0’a normalize edelim. Eğer iki ülke de güvercin politika kullanırsa ikisinin de yararı 2 olsun. Birinin güvercin, diğerinin şahin kullandığı durumda ise, güvercin politika kullanan ülkenin yararı 1, şahin politika kullanan ülkenin yararı ise 3 olsun (agresif ülke pasifin üzerinde etki sahibi olduğu için). Bu oyunu incelediğimizde iki dengesi olduğunu görürüz, birisi (şahin,güvercin), diğeri ise (güvercin,şahin).
Bu oyunun bir diğer versiyonun adı ise kim korkak oyunu (game of chicken). Bu versiyonda iki sürücü ancak bir arabanın geçebileceği bir köprüye doğru hızlıca birbirlerine doğru yaklaşmaktadır. Sürücüler ya hızlı sekilde devam edebilirler, veya direksiyonu kırabilirler. En kötü durum iki sürücünün de cesur olup devam ettiği durumdur (arabalar çarpışır). Oyunculardan birisi cesur olup devam eder, diğeri ise korkak tavuk olup direksiyonu kırarsa, cesur olan en yüksek kara ulaşacaktır. Bu oyun da şahin-güvercin oyunu ile aynı şekilde modellenebilir.
Son 2x2’lik oyunumuz ise Nash dengesinin olmadığı bir oyun. Bozuk para eşleştirme oyununda (matching pennies), iki oyuncu aynı anda ellerinde tuttukları bozuk paraların bir yüzünü (yazı veya tura) birbirlerine gösterirler. Eğer iki oyuncu da aynı yüzü gösterirlerse oyunu birinci oyuncu kazanır, değişik yüzler gösterirlerse ikinci oyuncu kazanır. Bu oyuna dikkatli baktığımızda 4 strateji profilinden ((yazı,yazı), (yazı,tura), (tura,yazı), (tura,tura)) hiç birisinin Nash dengesi olamayacağını görürüz. Çünkü her birisinde tam olarak bir oyuncu diğer oyuncunun stratejisini doğru tahmin ederse diğer stratejiye geçerek kazançlı çıkar. Bu ve bunun gibi (mesela meşhur taş-kağıt-makas oyunu) bizi karma stratejileri (mixed strategies) göz önüne almamız için motive eder. Karma stratejileri kullanırken oyuncular stratejilerini belirli olasılıklarla rastgele seçerler.
Mesela bozuk para eşleştirme oyununda bir oyuncu iki yüzü de aynı olasılıkla seçerse, diğer oyuncu her iki yüzle de aynı kara ulaşacağından her türlü rastgele seçim de bu stratejiye en iyi karşılıktır. Dolayısıyla iki oyuncunun da iki yüzü yüzde 50 olasılık ile seçmesi bir karma Nash dengesidir. Aslında bu dengeye (bu kavram John Nash’den çok önce Cournot gibi bilimadamları tarafından zaten bulunduğu halde), Nash dengesi denmesinin sebebi de John Nash’in 1950’de yazdığı bir makale ile sonlu her oyunun en az bir tane karma dengesi olduğunu göstermesi olmuştur.
Oyun kuramı sadece eşzamanlı oyunları (oyuncuların aynı zamanda bağımsız karar verdiği oyunlar) değil, benzer şekilde sıralı oyunları (oyuncuların belli bir sırayla karar verebildiği oyunlar) modellemek ve çözmek için de kullanılır. Yerimizin sonuna geldiğimiz için bir örnek ile bitirelim. Mesela satranç iki kişilik, sıralı bir oyundur. Bu oyunu yüzde yüz rasyonel ve zeki iki kişinin oynadığını düşünelim. Bu durumda oyunu daha oynamadan bırakacaklarını, çünkü oyunun sonunda kimin yeneceğini (veya berabere kalınacağını) ikisinin de bileceğini iddia edebiliriz. Yenmeye bir hamlesi olan satranç tahtası pozisyonlarını düşünelim.
Böyle bir pozisyonda oynama sırası olan her zeki ve rasyonel oyuncu oyunu kazanacaktır. Yaptığı her hamlenin sonunda karşısındaki oyuncuya böyle bir pozisyon bırakacak oyuncu oyunu kaybedecek; karşısındaki oyuncuya bırakacakları pozisyonlardan en iyisi beraberlik olan oyuncuyu beraberlik hamlesini tercih edecek; karşısındaki oyuncuya kaybedecek bir pozisyon bırakacak bir pozisyonda olan oyuncu ise o stratejiyi seçecektir. Bu şekilde argümanlarla (satranç sonlu bir oyun olduğu için), oyunun önceki hamlelerine doğru ilerleyebilir ve daha ilk hamlede kimin kazanacağını (veya berabere kalacağını) bilebiliriz. Bilgisayar mühendisleri ve yapay zeka ile uğraşanların çok büyük uğraşlarla bulmaya çalıştıkları en iyi satranç oynayan programlara oyun teorisyenleri teorik ilgisizlik ile bakarlar, çünkü bu oyunun değişmez bir sonuçu olduğunu zaten biliyorlardır.
-İsa Hafalır
Not: Bu yazı ilk defa 12 Aralık 2018'de İsa Hafalır'ın kişisel medium sayfasında (link) yayınlanmıştır.
0 Yorumlar