Применение математической теории игр для создания более реалистичной модели принятия решений человеком
Введение
1 сентября 2020 г. вступили в силу внесённые Президентом Российской Федерации и принятые Государственной Думой РФ поправки к Закону «Об образовании в РФ». В результате этих поправок в законе появилось определение воспитания как деятельности, направленной «на развитие личности, создание условий для самоопределения и социализации обучающихся на основе социокультурных, духовно-нравственных ценностей», а также «формирование у обучающихся чувства патриотизма и гражданственности, уважения к памяти защитников Отечества, … к закону и правопорядку, человеку труда и старшему поколению, взаимного уважения, бережного отношения к культурному наследию и традициям многонационального народа РФ, к природе…» [1].
Также Закон предписывает средним, средним профессиональным и высшим учебным заведениям скорректировать свои образовательные программы и включить в них рабочие программы воспитания и календарный план воспитательной работы.
Однако, какие именно ценности следует культивировать в подрастающем поколении?
Как эти ценности повлияют на развитие общества в целом, когда учащиеся, достигнув зрелого возраста, станут его полноценными представителями?
И, главное, как следует оценивать эффективность проводимой воспитательной работы?
Помочь ответить на эти и ряд других возникающих вопросов могут не только философия и психология, но и, как это не покажется удивительным, математика, в частности одно из её прикладных направлений – теория игр.
Общая постановка задачи и основные результаты математической теории игр
Теория игр – направление прикладной математики, призванное определять оптимальные стратегии поведения участников конфликтных задач. При этом под конфликтной задачей подразумевается задача \(N\) участников (двух и более), для каждого из которых определено множество допустимых стратегий поведений \(Q_i\), а также функция выигрыша (платёжные функции) \(J_i(q)\), заданная на произведении множеств допустимых стратегий всех участников \( G = Q_1 \times Q_2 \times . . . \times Q_N \).
При этом целью игровой (конфликтной) задачи для каждого из участников является определённой оптимальной стратегии \( q_i \in Q_i \), доставляющее наибольшее (или наименьшее в зависимости от постановки задачи) значение платёжной функции \( J_i(q) \).
Поскольку значение платёжной функции \( J_i(q) \) зависит от вектора стратегий \( q = (q_1, …, q_N) \) всех участников, то при выборе своей оптимальной стратегии \( q_i \) \( i \)-й участник вынужден учитывать возможные выборы стратегий остальных игроков [2].
Здесь возникает необходимость среди всего множества игровых ситуаций, определяемых комбинацией выборов всеми участниками своих стратегий из доступных им множеств, отобрать те ситуации, от которых ни один из участников по тем или иным соображениям не пожелал бы отклоняться.
Иначе говоря, задачей, решаемой теорией игр, является поиск конфликтных равновесий – игровых ситуаций, устойчивых к отклонениям участников.
Одна из первых наиболее естественных формулировок понятия конфликтного равновесия носит имя американского математика Джона Форбса Нэша (1928– 015 гг.).
Определение 1. Равновесной по Нэшу называется ситуация \( q^* = (q_1^*, …, q_N^*) \in G \), в которой ни один из участников не может улучшить значение своей платёжной функции при фиксированных стратегиях остальных участников [3]:
\( \max\limits_{q_i \in Q_i} J_i (q^*_1, …, q_i, …, q_N^*) = J(q^*)\) (1)
Однако данное понятие конфликтного равновесия имеет ряд существенных недостатков.
Во-первых, равновесие по Нэшу не всегда существует.
Например, в антагонистических играх двух лиц (то есть конфликтных задачах с двумя участниками), в которых платёжные функции обоих участников совпадают, однако один из участников стремится значение платёжной функции максимизировать, а второй минимизировать, платёжная функция должна иметь весьма специфический вид седла, что имеет место далеко не во всех задачах.
Данная проблема решается в классической теории игр переходом к так называемым смешанным стратегиям.
Смешанной стратегией называется функция распределения вероятности, заданная на множестве допустимых стратегий каждого из участников [4].
Именно в классе смешанных стратегий классическая теория игр гарантирует существование решения для весьма широкого класса конфликтных задач.
Однако, данное решение не всегда представляет ценность.
Например, в многократно повторяющихся играх участники могут позволить себе в каждой партии выбирать стратегию случайным образом, согласно некой известной им функцией распределения вероятности.
Однако в играх, которые играются лишь один раз, далеко не каждый участник решится доверить случаю выбор своей оптимальной стратегии.
Ещё одним существенным недостатком равновесия по Нэшу является то, что даже в случае своего существования, равновесной может оказаться далеко не самая выгодная для всех участников ситуация.
В качестве примера можно привести хорошо известную задачу Дилемма заключённого.
Рассмотрим игровую задачу двух участников, в качестве платёжной функции игроков в которой выступает следующая матрица \( J \):
\[ J = \begin{bmatrix} (5, 5) & (10, 1) \\ (1, 10) & (9, 9) \end{bmatrix} \]Пусть первый игрок выбирает одну из двух строк матрицы \( J \), а второй – один из двух столбцов. При этом ячейки таблицы содержат значения платёжных функций каждого из участников.
В классической интерпретации задачи числа отражают тюремный срок, который получит каждый из участников, поэтому задачей для каждого из них является выбор стратегии, обеспечивающей наименьшее значение платёжной матрицы.
Нетрудно заметить, что равновесной по Нэшу будет ситуация \( J_{22} \), в которой оба участника получают наибольший суммарный срок – 18, то есть наихудшая ситуация в игре.
Перечисленные недостатки равновесия по Нэшу заставили математиков искать иные подходы к решению конфликтных задач.
В частности, свой оригинальный подход предложил Э.Р. Смольяков, разработавший целую систему постепенно усиливающихся понятий конфликтных равновесий [5], самое слабое из которых существует во всех конфликтных задачах весьма широкого класса, что решает проблему существования решения в чистых (не смешанных) стратегиях.
По мере усиления множество решений сужается, и в нём остаются лишь самые выгодные для участников ситуации, от которых они не пожелают отклониться.
Весьма удачная постановка теории игр сделала данный инструмент применимым для весьма широкого круга прикладных областей.
Традиционно теория игр применяется в экономике [6] и военной сфере [7].
Однако с помощью теории игр могут быть получены весьма интересные социологические результаты.
Применение теории игр для построения различных моделей принятия решений индивидом
Один из принципов экономической теории, заложенный ещё одним из её основоположников – шотландским экономистом и философом-этиком Адамом Смитом (1723-1790 гг.), заключается в том, что индивидом движет прежде всего мотив максимизации личного благосостояния.
Позже этот принцип был формализован создателями философского учения утилитаризма – британскими философом Джереми Бентамом (1748-1832 гг.) и его учеником Джоном Стюартом Миллем (1806-1873 гг.).
Согласно этой философской концепции, нравственным критерием того или иного поступка является его полезность.
Именно с именем Джона С. Милля связывают понятие homo economicus («человек рациональный» или «человек эгоистичный») – модель рационального поведения, предполагающая, что каждый индивид стремится максимизировать собственную пользу полезность, используя для этого все имеющиеся в его распоряжения средства.
Если добавить к этому предположение, что нам каким-либо образом удалось формализовать полезность как математическую функцию, заданную на множестве возможных для взаимодействующих индивидов действий (стратегий), и мы стремимся понять, какую из допустимых стратегий каждый индивид выберет, то мы получаем формулировку задачи теории игр как одного из наиболее эффективных разделов прикладной математики, исследующих процесс принятия решений в конфликтных ситуациях.
Однако так ли реалистична модель homo economicus?
Некоторые из появившихся за последние несколько десятков лет экспериментальных и теоретических исследований заставляют в этом усомниться.
К числу таких исследований относятся, в частности, игровой эксперимент «Ультиматум», предложенный впервые в работе В. Гута, Р. Шмиттбергера и Б. Шварца [8], а также игровая модель «Диктатор», появившаяся чуть позже в работе Р. Форсайта и соавторов [9].
В каждом из данных экспериментов исследуется взаимодействие двух участников. В игре «Ультиматум» первый из участников получает от экспериментатора определённую сумму денег, при этом часть этой суммы он должен отдать второму участнику. Если второй участник соглашается с предложенной ему первым суммой, то раздел считается осуществлённым, если же второй участник отказывается от предложения, то все денежные средства возвращаются экспериментатору, и оба игрока остаются ни с чем.
В эксперименте «Диктатор», первый участник также получает определённую сумму, часть которой он может передать второму, а второй отказаться от предложенной суммы не может. Цель эксперимента – получить статистическую информацию, проводя многократное повторение эксперимента с разными участниками, о том какую долю своих полученных средств первый участник отдаёт второму.
В обоих экспериментах предполагается, что участники не знакомы ни с экспериментатором, ни друг с другом, однако второй участник обладает полной информацией о том, какую сумму первый участник получил от экспериментатора, и, соответственно, какой долей от этой суммы он пожелал поделиться.
Если в эксперименте «Ультиматум» рациональное поведение первого участника выглядит несколько более сложным, поскольку он должен учитывать, что в случае, если передаст второму слишком малую сумму, тот может отказаться, и они оба останутся ни с чем, то во втором эксперименте всё предельно ясно. Рациональным (с точки зрения описанной выше поведенческой модели homo economicus – максимизации собственной прибыли) поведением первого участника является передать второму как можно меньшую сумму.
Однако проведённые рядом исследователей на различных категориях испытуемых экспериментальные исследования показали, что в реальности люди ведут себя отличным от предписываемым им моделью homo economicus образом.
Например, результаты экспериментов, представленных в работе [10], показывают, что доля, которую отдаёт первый участник второму в игре «Диктатор», в среднем не ниже 20%.
Эти данные заставляют усомниться в реалистичности модели homo economicus, а поскольку, как было показано выше, на этой модели, фактически, зиждется вся экономическая теория, то крайне важно разработать модель, которая бы лучше описывала процесс принятия решения человеком.
В этой связи кажется весьма актуальным появление в XX веке такой дисциплины, как поведенческая экономика (bahavioral economics), изучающая, какое влияние оказывают на принятие решений индивидами психологические, морально-этические, когнитивные и культурные факторы.
Например, довольно интересные идеи, помогающие в том числе и объяснить отклонения от чисто прагматической модели homo economicus, наблюдаемые в упомянутых выше экспериментальных исследованиях, приводятся в работе [11].
Авторы данной работы вводят понятие «моральный ориентир» как одну из допустимых стратегий поведения, к которой стремится приблизиться каждый из участников при прочих равных факторах.
Например, применительно к эксперименту «Диктатор», можно сделать предположение, что первый из участников испытывает моральный дискомфорт, когда оставляет себе сумму, бо́льшую половины от той, что ему передал экспериментатор. Соответственно, чем сильнее он отклоняется от некого справедливого, по его мнению, распределения доверенной суммы, тем бо́льшие угрызения совести испытывает. Именно точку, соответствующую справедливому дележу средств, можно принять за «моральный ориентир» как элемент множества допустимых стратегий, к которому стремятся участники.
Данную идея авторам работы [11] удалось весьма удачно формализовать в терминах теории рационального выбора, благодаря чему построенная теоретическая модель дала куда лучший прогноз полученных позднее экспериментальных наблюдений, нежели модель, основанная на принципе принятия решений homo economicus.
Поскольку не менее эффективным инструментом для исследования выбора является математическая теория игр, то и в этой области сделано немало для более реалистического моделирования процесса принятия решения, учитывающего все аспекты человеческой психологии.
Одной из первых попыток смоделировать морально-этические нормы поведения, влияющие на процесс принятия решений с помощью теоретико-игровых подходов, была предпринята в 1955 году профессором Р. Брайсвайтом в прочитанной им в Кембридже лекции [12] и с тех пор регулярно появляется в работах разных исследователей, занимающихся теорией игр.
Например, нобелевский лауреат Дж. Харсаньи в своей работе «Модели теории игр и принятия решений в этике» [13] утверждает, что этическое (или моральное) поведение основано на понятии коллективной рациональности, которая выходит за рамки традиционной для теории игр концепции максимизации каждым участником сугубо индивидуального или кооперативного дохода: «Теорию рационального поведения в социальной среде можно разделить на теорию игр и этику. Теория игр имеет дело с двумя или более индивидами, часто имеющими очень разные интересы, которые пытаются максимизировать свои собственные (эгоистичные или бескорыстные) интересы рациональным образом против всех других индивидов, которые также пытаются максимизировать свои собственные интересы (эгоистичные или бескорыстные)» [13].
Дж. Харсаньи вводит функцию социальной полезности, значение которой для каждого участника в каждой точке (каждой стратегии поведения), определяется средним значением полезностей всех участников: \( W_i(s) = \sum\limits_{i=1}^{N}U_i(s) \) [14].
В 2017 году в специализирующемся на теории игр журнале «Games» (г. Базель, Швейцария) вышел специальный выпуск под заголовком «Этика, Мораль и Теория Игр» [15], в котором были собраны статьи разных современных авторов, объединённые общей тематикой моделирования морально-этических норм и их влияния на принятие решений участниками игровой задачи.
Особенно хочется отметить работу И. Алджер и Й.В. Вайбулл «Стратегии поведения моралистов и альтруистов» [16], в которой помимо уже отмечавшихся нами типов поведения, основанных на индивидуализме и коллективизме, вводится также третий тип участников, которые руководствуются при выборе своей стратегии поведения категорическим императивом Канта: «Всегда поступай согласно той ма́ксиме, которая будучи возведённой во всеобщий закон, приведёт к наибольшему благу». Сам императив Канта близок по смыслу к золотому правилу нравственности: «Поступай с другими так, как желаешь, чтобы другие поступали с тобой».
По аналогии с термином homo economicus – человек рациональный, которым именуется первый тип участников-индивидуалистов, руководствующихся исключительно интересом максимизировать свой личный доход, игроки третьего класса именуются авторами homo moralis – человек нравственный..
В данной модели предполагается, что каждый из участников, прежде чем выбрать стратегию поведения, с некоторой вероятностью допускает, что другие выберут ту же стратегию, что и он. Вероятности, отводимые каждым из участников данному событию, вообще говоря, могут у разных участников разниться. Этот тип поведения может быть весьма успешно использован для моделирования некоторых социальных, экономических и других процессов, поскольку он в ряде случаев более реалистично описывает процесс принятия решения человеком, нежели классическая модель максимизации (минимизации) собственной платёжной функции.
Заключение
Модель просоциального поведения, предполагающая учёт каждым индивидом некого сообщества коллективной общественной полезности, помимо исключительно личной, была также развита в работах [17–19]. В этих работах доказывается ряд утверждений, из которых следует, что при определённых параметрах данной модели (степени учёта индивидами общественных интересов) игровая ситуация, в которой достигается максимум кооперативного дохода, становится сильнейшим игровым равновесием.
Таким образом в сообществах, в которых преобладает такой данный (т.к повтор слова «такой») способ принятия решения, будут реализовываться наиболее благоприятные для всех индивидов ситуации.
Тогда как в индивидуалистически настроенных сообществах, как это следует из дилеммы заключённого, могут реализовываться наиболее невыгодные для всех ситуации.
Эти результаты дают основание утверждать, что сообщества, в которых подобный тип рациональности (просоциальной или альтруистической) будет культивироваться на общественном уровне, получат существенные преимущества перед теми сообществами, в которых данная работа не производится.
Список литературы ▼
- Климов А.А. и др. Законопроект № 1057895-7 О внесении изменений в Федеральный закон “Об образовании в Российской Федерации” (в части введения просветительской деятельности). 2021.
- Васин А.А., Морозов В.В. Теория игр и модели математической экономики. М.: Макс Пресс, 2005. 272 с.
- Смольяков Э.Р. Tеория поиска конфликтных равновесий. М.: Эдиториал УРСС, 2005. 301 с.
- Смольяков Э.Р. Обобщённое оптимальное управление и динамические конфликтные задачи: Учеб. пособие. М.: МАКС Пресс, 2010. 231 с.
- Смольяков Э.Р. Методы решения конфликтных задач: Учеб. пособие. М.: МАКС Пресс, 2010. 240 с.
- Красников К.Е. Анализ влияния кооперации на решение дифференциальной игры, моделирующей отношения между странами // Сб. тр. Нац. науч.-практ. конф. МИРЭА – Российский Технологический Университет, 2022. С. 161–165.
- Красников К.Е. Численные методы поиска решения конфликтных задач // Управление развитием крупномасштабных систем (MLSD’2023): Труды Шестнадцатой междунар. конф. (26-28 сентября 2023 г., г. Москва) / Под общ. ред. С.Н. Васильева, А.Д. Цвиркуна: Ин-т проблем упр. им. В.А. Трапезникова Рос. акад. наук. М.: ИПУ РАН, 2023. С. 587–593.
- Güth W., Schmittberger R., Schwarze B. An experimental analysis of ultimatum bargaining // J. Econ. Behav. Organ. 1982. Vol. 13. P. 367–388.
- Forsythe R. Fairness in simple bargaining experiments // Game Econ. Behav. 1994. Vol. 16. P. 347–369.
- Korenok O., Millner E. Impure altruism in dictators’ giving // Public Economics. 2013. Vol. 97. Р. 1–8.
- Cox J.C. Moral costs and rational choice: Theory and experimental evidence. 2019.
- Braithwaite R.B. Theory of Games as a Tool for the Moral Philosopher. An Inaugural Lecture Delivered in Cambridge on 2 December 1954. Cambridge University Press, 1955.
- Harsanyi J.C. Chapter 19 Game and decision theoretic models in ethics // Handbook of Game Theory with Economic Applications. Elsevier, 1992. Vol. 1. Р. 669–707.
- Harsanyi J.C. Rule utilitarianism and decision theory // Erkenntnis. 1977. Vol.. 11. Р. 25–53.
- Alfano M., Rusch H., Uhl M. Ethics, Morality, and Game Theory // Games. 2017.
- Alger I., Weibull J.W. Strategic Behavior of Moralists and Altruists // Games. 2017.
№Ethics, Morality, and Game Theory. - Красников К.Е. Моделирование социально-этических принципов в терминах игровых задач // Экономика вчера, сегодня, завтра. 2020. С. 221–237.
- Красников К.Е. Математическое моделирование некоторых социальных процессов с помощью теоретико-игровых подходов и принятие на их основе управленческих решений // Российский Технологический Журнал. 2021. Т. 9, № 5. С. 67–83.
- Красников К.Е. Математическое моделирование некоторых социально-этических норм поведения с помощью теоретико-игровых подходов // Проблемы управления. 2022. Т. 1. С. 33–53.