Об альтруизме, или Честность - лучшая политика

теория игр, "задача о заключённых" и равновесия по Нэшу и Парето
 

Fakir

BlueSkyDreamer
★★★★☆

Дилемма заключённого — Википедия

Дилемма заключённого
Материал из Википедии — свободной энциклопедии
Перейти к: навигация,
поиск
Будут ли заключенные друг друга предавать, следуя своим эгоистическим интересам, или будут молчать, тем самым минимизируя общий срок?
Диле́мма заключённого (англ. Prisoner's dilemma, реже употребляется название «дилемма банди́та») — фундаментальная проблема в теории игр, согласно которой игроки не всегда будут сотрудничать друг с другом, даже если это в их интересах. Предполагается, что игрок («заключённый») максимизирует свой собственный выигрыш, не заботясь о выгоде других.

// Дальше — ru.wikipedia.org
 



________________________________________________________________________________________________

...

Уильям Паундстоун в книге о дилемме заключённого описывает ситуацию в Новой Зеландии, где газетные ящики оставляют открытыми. Газету можно взять, не заплатив за неё, но мало кто так делает, потому что большинство осознаёт вред, который был бы, если бы все воровали газеты. Поскольку ДЗ в чистом виде одновременна для всех игроков (никто не может повлиять на решения других), эта распространённая линия рассуждений называется «магическое мышление»

...

Повторяющаяся дилемма заключённого

В книге «Эволюция кооперации» (1984) Роберт Акселрод исследовал расширение сценария ДЗ, которое он назвал повторяющаяся дилемма заключённого (ПДЗ). В ней участники делают выбор снова раз за разом и помнят предыдущие результаты. Акселрод пригласил академических коллег со всего мира, чтобы разработать компьютерные стратегии, чтобы соревноваться в чемпионате по ПДЗ. Программы, вошедшие в него различались по алгоритмической сложности, начальной враждебности, способности к прощению и так далее.

Акселрод открыл, что если игра повторялась долго среди множества игроков, каждый с разными стратегиями, «жадные» стратегии давали плохие результаты в долгосрочном периоде, тогда как более «альтруистические» стратегии работали лучше, с точки зрения собственного интереса. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально чисто эгоистические, через естественный отбор.

Лучшей детерминистской стратегией оказалась «Око за око» (англ. Tit for Tat), которую разработал и выставил на чемпионат Анатолий Рапопорт. Она была простейшей из всех участвовавших программ, состояла всего из 4 строк кода на языке Бейсик. Стратегия проста: сотрудничать на первой итерации игры, после этого игрок делает то же самое, что делал оппонент на предыдущем шаге. Чуть лучше работает стратегия «Око за око с прощением». Когда оппонент предаёт, на следующем шаге игрок иногда в любом случае сотрудничает с небольшой вероятностью (1-5 %). Это позволяет случайным образом выйти из цикла взаимного предательства. Она лучше всего работает, когда в игру вводится недопонимание — когда решение одного игрока сообщается другому с ошибкой.

Анализируя стратегии, набравшие лучшие результаты, Акселрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:

Добрая
важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
Мстительная
успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример немстительной стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
Прощающая
другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
Не завистливая
последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент (что в принципе невозможно для «доброй» стратегии, то есть добрая стратегия никогда не может набрать больше очков, чем оппонент).

Таким образом, Акселрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми и прощающими и не завистливыми.

Рассмотрим снова модель гонки вооружений. Был дан вывод, что единственная рациональная стратегия — вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки[4] Интересно, что попытки продемонстрировать, что вывод ДЗ работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ), часто показывают, что такого поведения не происходит (например, греческие и турецкие военные расходы меняются не в соответствии со стратегией «око за око», а вероятнее всего следуют внутренней политике). Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.

Если в одноходовой игре в любом случае доминирует стратегия предать, то в многоходовой оптимальная стратегия зависит от поведения других участников. К примеру, если среди населения все друг друга обманывают, а один ведёт себя по принципу «око за око», он оказывается в небольшом проигрыше из-за потери на первом ходе. В такой популяции оптимальная стратегия — всегда предавать. Если же число исповедующих принцип «око за око» больше, то результат уже зависит от их доли в обществе.

Определить оптимальную стратегию можно двумя путями:
  • Равновесие Байеса-Нэша: если определено статистическое распределение встречаемого поведения (например, 33 % «око за око», 33 % всегда обманывают и 33 % всегда сотрудничают), то стратегию можно вычислить математически[5]. Этим детально занимается теория эволюционной динамики.
  • По методу Монте-Карло делались симуляции популяций, где индивиды с низкими результатами вымирали, а с высокими воспроизводились (использовался генетический алгоритм поиска оптимальной эволюционно стабильной стратегии). Структура поведения в конечной популяции зависит от структуры в начале.
  • Хотя стратегия «око за око» считалась самой удачной простой стратегией, команда Университета Саутгемптона из Англии (под руководством профессора Николаса Дженнингса [1]) представила новую стратегию на 20-ю годовщину Чемпионата по ПДЗ. Эта стратегия оказалась более успешной, чем «око за око». Она основывалась на взаимодействии между программами, чтобы получить максимальный счёт для одной из них. Университет выставил на чемпионат 60 программ, которые распознавали друг друга по ряду действий на первых 5-10 ходах. Узнав другую, одна программа всегда сотрудничала, а другая предавала, что давало максимум очков предателю. Если программа понимала, что оппонент — не саутгемптонский, она дальше всё время предавала его, чтобы минимизировать результат соперника. В результате [6] эта стратегия заняла первые три места в соревновании, как и несколько мест подряд ниже.

    Хотя эта эволюционно стабильная стратегия оказалась более эффективной в соревновании, это было достигнуто за счёт того, что в этом конкретном соревновании команда могла участвовать несколькими агентами. Если игрок может контролировать только одного агента, «око за око» оказывается лучшей. Она также соблюдает правило запрета на коммуникации между игроками. То, что саутгемптонские программы исполняли «ритуальный танец» в первые 10 ходов, чтобы узнать друг друга, только подтверждает, насколько важна коммуникация в сдвиге баланса игры.

    Если ПДЗ играется ровно N раз (некая известная константа N), есть ещё один интересный факт. Равновесие Нэша — всегда предавать. Доказываем по индукции: если оба сотрудничают, на последнем ходу выгодно предать, тогда у соперника не будет возможности отомстить. Поэтому оба предадут друг друга на последнем ходу. Раз соперник предаст на последнем ходу в любом случае, любой игрок захочет предать на предпоследнем ходу, и так далее. Чтобы сотрудничество оставалось выгодным, необходимо, чтобы будущее было неопределённым для обоих игроков. Одно из решений — делать число N случайным и подсчитывать результаты по среднему выигрышу за ход.

    Дилемма заключённого — фундаментальная для некоторых теорий о взаимодействии людей и доверии. Из предположения модели ДЗ, что транзакция между двумя людьми требует доверия, доверительное поведение в популяциях может быть смоделированно при помощи много-игроковой повторяющейся версии игры. Это годами вдохновляло многих учёных. В 1975 году Грофман и Пул оценивали число работ, посвящённых этой теме, около 2000.
     

    Fakir

    BlueSkyDreamer
    ★★★★☆
    "Дилемма арестантов" в применении к системе высшего образования (на примере США и "кодекса чести студента" - обсуждался здесь Honor System, или к вопросу о студенческой честности ):

    Honor System

    Однажды, когда я преподавал в Принстонском Университете, я получил электронное письмо от студента последнего года обучения C: Уважаемый kdv2005: мы получили… // kdv2005.livejournal.com
     

    ____________________________________________________________________________

    Я пока говорю лишь о практической стороне дела,
    оставляя морально-этическую сторону на потом. Существует ли вообще
    проблема списывания? Думаю, что да, и, практически повсеместно.
    Достаточно поспрашивать студентов и преподавателей. Проблема эта сложна

    тем, что в отсутствие каких-либо мер контроля и борьбы со списыванием,

    при прочих равных списывать всегда выгоднее, чем не списывать.
    И
    студенты, и преподаватели это быстро понимают, и, опять же, без
    контроля и борьбы, списывание быстро становится поголовным, что, в свою
    очередь, обесценивает полученные оценки, а вместе с ним и аттестаты об
    образовании. Получается конфликт интересов — для общества выгодно,
    чтобы образование было подлинным, и чтобы студенты не списывали, а
    каждому конкретному студенту лучше списать, чтобы оценка была повыше.
    Такой конфликт интересов называется "дилеммой узника", точнее

    "коллективной дилеммой узника" и составляет предмет изучения теории

    игр.
    Его парадоксальность заключается в том, что несмотря на наличие

    стратегии поведения, выгодной всем (то есть, выгодной, если все так

    себя будут вести), есть сооблазн не придерживаться этой стратегии, и

    попытаться выгадать себе дополнительные преимущества, основанные на

    предположении, что остальные будут следовать "коллективно выгодной

    стратегии" (назовем ее, условно, честной).
    Такое искушение, оставить

    коллективно-выгодную стратегию и перейти к индивидуально более выгодной

    стратегии (назовем ее, условно, нечестной), испытывает каждый игрок.

    Более того, каждый игрок осознает, что если он будет следовать честной

    стратегии, то он окажется в проигрыше перед игроком, следующим

    нечестной стратегии.
    Тем самым, помимо искушения есть прямое давление

    обстоятельств "не быть лохом и не упускать своего".
    Однако, если все
    игроки выберут нечестную стратегию, то проиграют все, причем гораздо
    больше, чем любой игрок, оставшийся верным честной стратегии. Важно,

    что этот парадокс (на самом деле, ничего парадоксального в этом нет, но

    по традиции этот неожиданный результат часто называется парадоксом)

    является системным свойством этой ситуации и не может быть разрешен в

    рамках этой системы.
    Для разрешения парадокса необходимо изменить саму
    систему. Социологи и математики, исследовавшие дилемму узника
    предлагали разные модификации такой системы, целью каждой из которых
    было повышение привлекательности честной стратегии. Один из наиболее
    простых и эффективных приемов хорошо известен истории под названием
    "метод кнута и пряника". Каждый игрок, оставшийся верным честной
    стратегии, поощряется, и каждый игрок, избравший нечестную стратегию,
    наказывается. Я не стану пояснять, почему такое сочетание кнутов и
    пряников оказывается эффективным и как именно устроить эту систему.

    Замечу лишь, что раздача одних лишь пряников или одних лишь кнутов

    неэффективна.
    Кнуты, конечно, условные, может быть лучше было бы
    говорить о штрафах. Я пока говорю лишь о чистой выгоде, не проводя
    никаких этических и моральных рассмотрений. Итак, с чисто утилитарной
    точки зрения, система кнута и пряника в дилемме узника увеличивает
    привлекательность честной стратегии.
    В Принстонском Университете
    Honor System и является такой системой кнута и пряника. Кнут --
    серьезное наказание за нарушение обещания не списывать. Пряник --
    причисление несписывающих к разряду благородных джентльменов, для
    которых честь выше всего. В этом смысле увязывание честного поведения
    на экзамене с честью очень остроумно, так как подобная интерпретация
    очень лестна. Видимо, настолько лестна, что система оказалась очень
    действенной. В самом деле, если до ее введения списывание и борьба с
    ним были очень серьезными проблемами, то после введения этой системы
    они фактически исчезли. Не назвать такую систему эффективной было бы
    несправедливо. А раз больше ничего не изменилось, то именно она
    проблему списываний и решила.

    ___________________________________________________________________________
     2.0.0.82.0.0.8

    U235

    старожил
    ★★★★★

    Iva> Кроме грубой силы нет других способов поддержания Парето, так как оно неустойчиво в принципе. А Неш - он устойчив.

    Необязательно. Как пример страны по Парето - Швейцария. Как в экономике: они даже зарабатывают на своей честности, привлекая деньги в банки со всего мира, так и в социуме вообще: своим доверяют даже армейское автоматическое оружие и при этом массовых расстрелов у них как-то не наблюдается. При этом достигается все это опять же без всяких видимы репрессий со стороны правительство. Просто там взаимная честность и порядочность - традиция и никто из членов социума не рискнет это нарушить, т.к. он тогда окажется вне общества. Его никто не поймет.

    Возможно туда же можно записать и еще ряд стран подобных, скорее всего каких-нибудь скандинавских, а уж минисоциумов, которые живут по подобным законам типа всяких мелких городков, сел, деревень и хуторов где все друг друга знают и связаны круговой порукой - и того больше.
    В человеке всё должно быть прекрасно: погоны, кокарда, исподнее. Иначе это не человек, а млекопитающее  3.0.33.0.3

    Fakir

    BlueSkyDreamer
    ★★★★☆
    Чтобы не штрафовать двух человек по уши за флуд и оффтоп - флуд вынесен:
    Флуд из топика об альтруизме, или Парето-равновесии

    Там резвитесь сколько угодно, велкам :)
     2.0.0.82.0.0.8
    Это сообщение редактировалось 12.10.2008 в 16:24

    в начало страницы | новое
     
    Поиск
    Настройки
    Твиттер сайта
    Статистика
    Рейтинг@Mail.ru