Strategi optimal
Beberapa tahun yang lalu, di World Series of Poker (WSOP) di Las Vegas, saya bertemu dengan Neil Channing. Dari waktu ke waktu Neil mendapat rap buruk karena, jika bukan orang tua yang pemarah, maka pengeluh, tetapi ada beberapa orang yang saya senang bertemu lebih banyak. Neil selalu baik untuk mengobrol dan bercerita, dan kali ini dia bercerita tentang pemain Inggris lainnya yang sedikit terburu-buru. Ini termasuk mengambil chip uang tunai, meletakkannya di belakang punggungnya, dan bertaruh bahwa tandanya tidak bisa menebak tangan kanannya. Setelah putih menerima taruhan, dia akan membawa kedua tangan ke depan agar mereka menebak kiri atau kanan. Perubahannya ada pada presentasi: dia akan mendorong satu tangan ke depan sehingga tangan yang tertutup itu benar-benar berada tepat di bawah hidung tanda itu, seolah menantangnya untuk mengangkatnya. Tangan lainnya disimpan dengan baik kembali.
Triknya adalah token itu selalu ada di tangan yang dipegang, bukan di tangan di bawah hidung tanda itu. Sembilan dari sepuluh orang salah menebak. Agaknya, proses pemikirannya pergi ke: “Tampaknya terlalu jelas bahwa dia akan berpura-pura chip tidak ada di tangan tepat di depan hidung saya, jadi dia harus meletakkannya di sana berpikir dia akan menebak tangan yang lain,” mungkin dengan sisi: “Jika di tangan tepat di bawah hidung saya dan saya memilih tangan yang lain, saya akan terlihat sangat bodoh.”
apa pun yang dilakukan lawan, mereka tidak bisa mengalahkan Anda dalam jangka panjang
Bagian paling menarik dari cerita ini (setidaknya bagi saya sebagai kutu buku matematika) adalah bahwa orang yang melakukannya dengan benar tidak melakukannya karena dia mengungguli lawannya, tetapi karena dia menggunakan teori permainan. Teori permainan terdengar seperti semacam teori permainan, tetapi sebenarnya itu adalah bidang matematika yang mencakup pengambilan keputusan strategis (nama tersebut berasal dari fakta bahwa permainan adalah sumber paling nyata dari contoh kehidupan nyata). dari keputusan strategis semacam itu) . Salah satu tujuan teori permainan adalah “menyelesaikan” permainan apa pun, dalam bentuk strategi optimal, yang berarti bahwa apa pun yang dilakukan lawan, mereka tidak dapat mengalahkan Anda dalam jangka panjang.
Solusi strategi optimal ini dikenal sebagai “keseimbangan Nash.” Bagian Nash berasal dari ahli matematika John Forbes Nash (dari A Beautiful Mind fame), yang pertama kali mengusulkan konsep tersebut. Bagian keseimbangan mengacu pada fakta bahwa ketika dua lawan telah berkumpul untuk bermain secara optimal melawan satu sama lain, mereka telah mencapai keseimbangan sehingga tidak ada yang bisa kalah dari yang lain kecuali pemain lain menyimpang dari strategi keseimbangan (Nash). Seperti dua kelereng di atas bukit, mereka akan tetap di sana sampai salah satunya bergerak ke kiri atau ke kanan dan meluncur menuruni bukit.
Langkah yang tidak bisa dieksploitasi
Mengikuti solusi ekuilibrium Nash dalam permainan disebut sebagai langkah yang tidak dapat dieksploitasi, karena tidak ada yang dapat dilakukan lawan untuk mengeksploitasi strateginya. Itu tidak memberikan jaminan untuk menang apapun yang terjadi; hanya jaminan bahwa Anda tidak akan kehilangan. Seperti tim sepak bola Italia, tujuannya di sini adalah untuk hasil imbang yang paling buruk.
Strategi tanpa kalah? Hebat, saya mendengar Anda berkata, di mana saya mendaftar? Tapi tunggu, ada tangkapan (sebenarnya, dua tangkapan). Konsep keseimbangan Nash bekerja paling baik untuk permainan sederhana seperti batu, kertas, gunting, atau “menebak tangan” daripada di game serumit poker.
Ekuilibrium Nash telah dipecahkan untuk sejumlah situasi yang sangat spesifik dan sangat sederhana.
Masalah pertama adalah meskipun keseimbangan Nash ada untuk permainan yang lebih kompleks, kita mungkin tidak akan pernah tahu. Dalam poker, ekuilibrium Nash telah dipecahkan untuk sejumlah situasi yang sangat spesifik dan sangat sederhana, seperti: jika saya memiliki tumpukan kecil sehingga satu-satunya pilihan saya adalah mendorong atau melipat sebelum gagal, tangan mana yang harus saya dorong? ? Nash equilibria juga dapat dihitung dengan relatif mudah untuk 20 situasi buta besar atau kurang untuk menentukan tangan yang tepat untuk melipat, menaikkan, melipat, menaikkan, memanggil, dan mendorong kembali. Tapi itu saja tentang No Limit Hold'Em.
Di arena batas, dibutuhkan tim ahli kecerdasan buatan di Alberta selama lebih dari satu dekade dan beberapa ratus komputer yang kuat bekerja sama untuk menghitung keseimbangan untuk Limit Hold'em head-up. Mereka telah mencatat dengan sengaja berpegang pada Heads-up Limit karena mereka percaya bahwa begitu jumlah pemain melebihi dua, menjadi tidak mungkin untuk menghitung keseimbangan Nash (bahkan mungkin tidak ada satu pun), dan sekali beralih dari Limit ke No Batasi dan harus mengizinkan beberapa ukuran taruhan, bahkan head-up menjadi terlalu sulit untuk diselesaikan.
Masalah kedua adalah bahwa meskipun kita dapat menemukan keseimbangan Nash, semuanya baik-baik saja dalam permainan zero-sum, tetapi poker jarang menjadi permainan zero-sum. Ada biaya penggaruk dan pendaftaran yang harus dibayar, dan mulut yang harus diberi makan. Jika kita semua berpegang pada keseimbangan Nash yang tidak dapat dieksploitasi, satu-satunya pemenang dalam jangka panjang adalah rumah (dalam bentuk kasino, penyelenggara turnamen langsung, dan situs online).
mengaplikasikan teori
Mari kita lihat contoh konkretnya: Pemain A dan Pemain B memukul sungai, ada 1.000 di pot, dan Pemain A melakukan all-in untuk 1.000. Pemain B harus memanggil 1.000 untuk memenangkan pot 2.000, jadi jika Anda dapat mengalahkan gertakan, Anda harus menelepon jika menurut Anda Pemain A menggertak lebih dari sepertiga waktu, tetapi Anda harus melipat jika Pemain A menggertak kurang dari sepertiga waktu. Katakanlah Anda tidak tahu seberapa sering Pemain A menggertak. Dalam hal ini, dia kembali ke teori permainan dan menelepon tepat sepertiga dari waktu ketika dia hanya bisa mengalahkan gertakan. Dengan asumsi bahwa Pemain A juga mematuhi ekuilibrium Nash, dia akan menggertak tepat sepertiga waktu.
Bagaimana jika salah satunya menyimpang dari ekuilibrium Nash? Katakanlah Pemain A memutuskan untuk tidak menggertak. Jika Anda memperhatikan bahwa Pemain A tidak pernah menggertak, maka Pemain B tidak pernah menelepon ketika yang dia menangkan hanyalah gertakan. Sekarang Pemain A tidak kehilangan atau memenangkan uang dari menggertak (karena dia tidak melakukannya), tetapi dia juga tidak memenangkan taruhan nilai ketika dia memiliki kartu terbaik karena Pemain B melipat setiap kali dia tertinggal. Dengan berpaling dari Nash, dia membiarkan lawannya hanyut ke dalam strategi eksploitasi, strategi yang mengeksploitasi fakta bahwa dia tidak pernah menggertak.
Sekarang mari kita pertimbangkan kapan pemain A mengamuk. Setelah ini disadari, Pemain B hanya menelepon setiap kali dia memenangkan gertakan. Sekarang setiap kali Pemain A menggertak, dia kalah. Ini sebagian diimbangi oleh fakta bahwa taruhan nilainya sekarang disebut juga, tetapi hanya sebagian, karena dia menggertak lebih sering dari yang seharusnya.
Strategi eksploitasi juga dapat dieksploitasi.
Dalam kedua kasus tersebut, Pemain A beralih dari ekuilibrium Nash ke strategi yang dapat dieksploitasi, dan Pemain B menyesuaikan dengan beralih dari Nash ke strategi eksploitatif untuk mengeksploitasinya. Keuntungan di sini tidak berasal dari berpegang teguh pada Nash (yang hanya menjamin bahwa Anda menang atau kalah dalam jumlah yang sama terlepas dari strategi lawan Anda). Tapi, dan ini besar tapi, saat Pemain B menjauh dari Nash untuk mengeksploitasi Pemain A, dia membuka diri untuk dieksploitasi. Strategi eksploitasi juga dapat dieksploitasi.
Bayangkan Pemain A entah bagaimana menipu Pemain B untuk berpikir bahwa dia selalu berbohong, tetapi kenyataannya dia tidak pernah melakukannya. Sekarang dia hanya menolak untuk menyombongkan diri. Anda sekarang tidak kehilangan uang karena gertakan, tetapi semua taruhan nilai Anda dipanggil. Potensi pengeksploitasi telah menjadi dieksploitasi.
menebak tangan
Tapi cukup poker, mari kita kembali ke yang jauh lebih menarik “menebak tangan” permainan. Dalam hal ini, orang yang melakukannya dengan benar mengetahui bahwa karena lawannya adalah orang yang cerdas, dia tidak akan menawarkan taruhan ini jika tidak ada semacam trik yang dirancang untuk mempengaruhi tebakannya. Daripada jatuh kembali untuk mencari tahu ini dengan cepat melawan lawan yang jauh lebih berpengalaman di tempat tertentu, dia hanya memutuskan untuk tetap berpegang pada keseimbangan Nash yang berarti bahwa apa pun triknya, dia tidak dapat membuatnya kalah. kerugian.
Dalam hal ini, solusi kesetimbangan Nash untuk “menebak tangan” Gim ini hanya memutuskan terlebih dahulu, secara acak, kiri atau kanan, dan berpegang teguh pada itu, terlepas dari apa yang mungkin dilakukan lawan Anda. Hal yang sama terjadi di poker saat Anda melawan pemain hebat yang tidak bisa Anda kalahkan. Ikuti teori permainan!
#Menerapkan #Teori #Ekuilibrium #Nash #Poker
Bisa juga membaca artikel serupa di domain Partner kami
personalizedplasticbracelets.xyz