Для игры с природой заданной матрицей

Критерии оптимальности в играх с природой

В некоторых играх имеется неопределенность, вызванная отсутствием информации об условиях, в которых осуществляется действие (погода, покупательский спрос и т.д.). Эти условия зависят не от сознательных действий другого игрока, а от объективной действительности. Такие игры называются играми с «природой». Человек в играх с «природой» старается действовать осмотрительно, второй игрок (природа, покупательский спрос) действуют случайно.

Условия игры задаются матрицей .

Пусть игрок А имеет стратегии А1, А2, ¼, Аm, а природа состояния В1, В2, ¼, Вn. Наиболее простой является ситуация, когда известна вероятность рj каждого состояния природы Вj. При этом, если учтены все возможные состояния, то .

Если игрок А выбирает чистую стратегию Аi, то математическое ожидание выигрыша составит p1ai1 + p2ai2 + ¼ + pnain. Наиболее выгодной будет та стратегия, при которой достигается

Если информация о состояниях природы мала, то можно применить принцип недостаточного основания Лапласа, согласно которому можно считать, что все состояния природы равновероятны

т.е. стратегию, для которой среднее арифметическое элементов соответствующей строки максимальное.

Имеется ряд критериев, которые используются при выборе оптимальной стратегии.

1. Критерий Вальде. Рекомендуется применять максиминную стратегию. Она достигается из условия

и совпадает с нижней ценой игры. Критерий является пессимистическим, считается, что природа будет действовать наихудшим для человека способом.

2. Критерий максимума. Он выбирается из условия

Критерий является оптимистический, считается, что природа будет наиболее благоприятна для человека.

3. Критерий Гурвица. Критерий рекомендует стратегию, определяемую по формуле

где a — степень оптимизма и изменяется в диапазоне [0, 1].

Критерий придерживается некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилучшего поведения природы. При a = 1 критерий превращается в критерий Вальде, при a = 0 – в критерий максимума. На a оказывает влияние степень ответственности лица, принимающего решение по выбору стратегии. Чем больше последствия ошибочных решений, больше желания застраховаться, тем a ближе к единице.

4. Критерий Сэвиджа. Суть критерия состоит в выборе такой стратегии, чтобы не допустить чрезмерно высоких потерь, к которым она может привести. Находится матрица рисков, элементы которой показывают, какой убыток понесет человек (фирма), если для каждого состояния природы он не выберет наилучшей стратегии. Элемент матрицы рисков находится по формуле

где max aij – максимальный элемент в столбце исходной матрицы.

Оптимальная стратегия находится из выражения:

При принятии решений в условиях неопределенности следует оценивать различные варианты с точки зрения нескольких критериев. Если рекомендации совпадают, можно с большей уверенностью выбрать наилучшее решение, если рекомендации противоречат друг другу, окончательное решение надо принимать с учетом его сильных и слабых сторон.

Пример игры с природой

Фирма «Фармацевт» – производитель медикаментов и биомедицинских изделий в регионе. Известно, что пик спроса на препараты сердечно-сосудистой группы и анальгетики приходится на летний период, а на антиинфекционные и противокашлевые – на осенний и весенний периоды.

Затраты на 1 усл. ед. продукции за сентябрь – октябрь составили: по первой группе – 20 ден. ед., по второй группе – 15 ден. ед.

По данным наблюдений за несколько последних лет установлено, что фирма может реализовать в течение двух месяцев в условиях теплой погоды – 3050 усл. ед. продукции первой группы и 1100 усл. ед. продукции второй группы, а в условиях плохой погоды – 1525 усл. ед. продукции первой группы и 3690 усл. ед. второй группы.

В связи с возможными изменениями погоды ставится задача определить стратегию фирмы в выпуске продукции, обеспечивающую максимальный доход от реализации при цене 1 усл. ед. продукции первой группы 40 ден. ед. и второй группы – 30 ден. ед.

Решение. Фирма располагает двумя стратегиями:

А1 – в этом году будет теплая погода; А2 – погода будет холодная.

Если фирма примет стратегию А1 и в действительности будет теплая погода (стратегия природы В1), то выпущенная продукция (3050 усл. ед. препаратов первой группы и 1100 усл. ед. второй группы) будет полностью реализована и доход составит:

3050 (40 – 20) +1100(30 – 15) = 77500 ден. ед.

В условиях прохладной погоды (стратегия природы В2) препараты второй группы будут проданы полностью, а первой группы только в количестве 1525 усл. ед., и часть препаратов останется нереализованной. Фирма получит доход:

1525 (40 – 20) +1100 (30 – 15) – 20(3050 – 1525) = 16500 ден. ед.

Аналогично, если фирма примет стратегию А2 и в действительности будет холодная погода, то ее доход будет:

1525(40 – 20) + 3690(30 – 15) = 85850 ден. ед.

При теплой погоде доход составит:

1525(40 – 20) + 1100(30 – 15) – 15(3690 – 1100) = 8150 ден. ед.

Рассматривая фирму и погоду (покупательский спрос) в качестве двух игроков, получим платежную матрицу

Источник



Матричные игры с природой (теория статистических решений)

Тео́рия игр –это математическаятеория конфликтных ситуаций, т.е. таких ситуаций, в которых сталкиваются интересы двух или более сторон, преследующих различные цели.

Конфликтные ситуации –это ситуации, в которых эффективность решения, принимаемого одной стороной (выигрыш), зависит от действий другой стороны.

Играпредставляет собой математическую модель реальной конфликтной ситуации. От реальной конфликтной ситуации она отличается тем, что ведется по определенным правилам, в которых должны быть указаны:

— порядок чередования действий (ходов) участников;

— правила выполнения каждого хода;

— количественный результат игры (выигрыш, проигрыш), к которому приводит данная совокупность ходов.

Игра, в которой участвуют два игрока Аи В,называется парной,если игроков больше двух, то это игра – множественная. Игра, в которой выигрыш одного из игроков равен проигрышу другого, называется игрой с нулевой суммой (антагонистической игрой).

Игра называется конечной, если число стратегий игроков конечно, бесконечной, если хотя быу одного из игроков число стратегий является бесконечным.

В игре с полной информациейперед каждым ходом каждый игрок знает все предшествующие ходы и выигрыши. Просчеты в теории игр не рассматриваются.

Игроки – это стороны, участвующие в игре (конфликте).Иногда под одним из игроков понимается природа, формирующая условия, в которых необходимо принимать решения.

Ходомназывается выбор одной из предусмотренных правилами игры стратегий и ее осуществление. В простых (одноходовых) играх понятия хода и стратегии совпадают. Ходы игроков бывают личные(сознательный выбор) и случайные (случайный выбор).

Стратегией игроканазывается совокупность правил, определяющих выбор варианта действий при каждом личном ходе игрока в зависимости от ситуации, сложившейся в процессе игры.

Стратегия выбираемая игроком сознательно исходя из анализа сложившейся обстановки называется личной (или чистой).

Стратегия игрока называется оптимальной, еслиона обеспечивает данному игроку (обычно игроку А) при многократном повторении игры максимально возможный средний выигрыш или минимально возможный средний проигрыш независимо от поведения противника (могут быть использованы и другие показатели оптимальности).

Оптимальные стратегии характеризуются устойчивостью, то есть ни одному из игроков не выгодно отклоняться от своей оптимальной стратегии.

Партия игры– это однократная возможная реализация правил игры (стратегий) игроками.

Матричной игрой называется парная игра, осуществляемая по следующим

1. В игре участвуют два игрока — Аи В;

2. Каждый из игроков обладает конечным набором стратегий (для игрока А — это стратегии А1, А2, …..Аm, а для игрока В — это стратегии В12,…….Вn);

3. Игра заключается в том, что каждый из игроков, не имея информации о действиях противника, делает один ход (выбирает одну из своих стратегий). Результатом выбора игроками стратегий является выигрыш и проигрыш в игре.

4. И выигрыш, и проигрыш выражаются числами аij,которые являютсяэлементами, так называемой платежной матрицы. В частности, выигрыш для игрока А при выборе стратегии Аi , и игроком В – стратегии Вj равен аij, а для игрока В –он равен вij =-аij, то есть является проигрышем.

Платежная матрица (или матрица игры) –является одним из способов задания матричной игры, который называется нормальным. Второй способ задания игры – позиционный способ связан развернутой формой задания игры и сводится к построению графа последовательных шагов игры (дереву игры).

Если условие вij =-аijне выполняется, то есть каждый из игроков имеет свою платежную матрице, тогдаэтапарная игра является игрой с ненулевой суммой и называется биматричной игрой.

Решить матричную (антагонистическую) игру– значит найти для игроков А и В их оптимальные стратегии.

Решение игры связано с матрицей ij)и следующими понятиями:

Нижняя цена игры α=maxmin аij (сначала находится минимум в каждой строке, а

I j

потом из полученных минимумов находится максимум). Это гарантированный выигрыш игрока Апри любой стратегии игрока В.

Верхняя цена игры β=minmax аij(сначала находится максимум в каждом столбце,

J i

а потом из полученных максимумов находится минимум). Это гарантированный проигрыш игрока Впри любой стратегии игрока А.

Очевидно α<= β.В случае α=βговорят о цене игры ν=α=β.Соответствующие цене игры стратегии являются оптимальными, а сама игра есть игра с седловой точкой.

В случае, когда α<β седловой точки не существует.В этом случаерешение игры ищестся в смешанных стратегиях. Доказано (Дж. Фон Нейман), что конечная матричная игра имеет, по крайней мере, одно оптимальное решение, возможно в смешанных стратегиях.

Смешанная стратегия состоит в том, что при повторении игры происходит случайный выбор стратегии из множества смешиваемых стратегий и для каждой смешиваемой стратегии указывается вероятность (частота) ее выбора. В таком случае для каждого игрока указывается вектор частот, с которым следует применить ту или иную стратегию.

Для игрока А это Р=(р1,….рm), а для игрока В – это Q=(q1,…….,qn), при этом

Σ pi=1 и Σ qj=1,средний выигрыш игрока А равен НА(Р,Q)=Σ Σ аij pi qj

Если вероятность применения стратегии отлична от нуля, то такая стратегия называется активной.

Оптимальными смешанными стратегиями Р 0 и Q 0 называются стратегии, если выполняется неравенство:

В этом случае НА(Р 0 ,Q 0 )называется ценой игрыи обозначаетсяα=<ν=< β

Первое из неравенств означает, что отклонение игрока Аот своей оптимальной смешанной стратегии при условии, что игрок В придерживается своей оптимальной смешанной стратеги, приводит к уменьшению среднего выигрыша игрока А.Второе из неравенств по смыслу аналогично первому с той лишь разницей что касается игрока В.

Решение всякой парной конечной игры с нулевой суммой может быть получено методами линейного программирования.

Сведение матричной игры к задаче линейного программирования

Из свойств оптимальных смешанных стратегий игроков вытекает, что при любой стратегии игрока Вдля игрока Аимеет место неравенство:

i

исходное неравенство можно переписать следующим образом

i i

Поскольку игрок А стремиться максимально увеличить свой гарантированный выигрыш, то задача отыскания решения матричной игры сводится к следующей задаче линейного программирования:

Σ хimin

i

i

Рассуждая аналогичным образом со стороны игрока В –он стремиться сделать свой гарантированный проигрыш минимальным. И вводя обозначения:

и учитывая, что Σ аij yi<=1получаем двойственную по отношению к

i

рассмотренной следующую задачу линейного программирования:

Σ yimax

i

i

Матричные игры с природой (теория статистических решений)

В рассматриваемой (см. выше) теории матричных игр исследуются игры, в которых противник «разумный и злонамеренный» (неопределенность в этих играх состоит в том, что выбор действий противника неизвестен), так и игры, в которых действия противника («природы») неосознанны, пассивны (другой в отличие от первого вид неопределенности). «Природа» действует случайным образом, точнее считается, что ее состояния реализуются случайным образом.

В качестве второго игрока (В), действительно может выступать природа, например: нефтегазовый пласт, природные условия (суша, море, климат и др.), геолого-технологические условия (пористость, проницаемость, высота кровли пласта и т.д.) и др., которые активных действий не предпринимают, а неопределенность состоит в том, с какой вероятностью или шансами реализуются те или иные природные условия.

Матричные игры с учетом последнего типа неопределенности называются играми с природой (или теорией статистических решений).

В игре с природой – пассивный игрок (природа) обычно обозначается как – П.

Суть такой игры состоит в том, что игроку (активному) А требуется выбрать такую чистую или смешанную стратегию, которая является более выгодной, чем остальные.

Предположим, что в платежной матрице мы имеем некоторые аij и akl такие что, аij>akl. При этом, выигрыш ij) может быть больше второго (akl) не за счёт нашего выбора более удачной стратегии, а за счёт того, что состояние природы Пj выгоднее для нас, чем Пl, в этом смысл удачности стратегии. Поэтому для разрешения этого вопроса необходимо ввести дополнительные показатели, который описывали бы «удачность» или «неудачность» принятия данной стратегии в данной ситуации с учётом общей благоприятности ситуации. С этой целью вводится понятие риска:

1. Платежная матрица задается матрицей выигрышей игрока А.

Риском игрокаА при использовании стратегии Аi в условиях Пj называется разность между выигрышем, который он получил бы, если бы знал Пj, и выигрышем, который он получает в тех же условиях, применяя стратегию Аi. Очевидно, если бы игрок знал заранее состояние природы Пj, он выбрал бы ту стратегию, которой соответствует максимальный выигрыш в данном столбце (максимум столбца j) – это βj. Тогда риск rij есть:

2. Платежная матрица задается матрицей проигрышей (потерь, убытков) игрока А.

Риском игрока Риском игрокаА при использовании стратегии Аi в условиях Пj называется разность между проигрышем, который он получил бы, если бы знал Пj, и проигрышем, который он получает в тех же условиях, применяя стратегию Аi. Очевидно, если бы игрок знал заранее состояние природы Пj, он выбрал бы ту стратегию, которой соответствует минимальный проигрыш в данном столбце (минимум столбца j) – это βj. Тогда риск rij есть:

Источник

Для игры с природой заданной матрицей

Для того чтобы можно сделать вывод о том какую именно стратегию выбирать игроку, необходимо использовать критерии Вальда, Гурвица, Сэвиджа, Лапласа, Байеса.

1. Критерий Вальда. Рекомендуется применять максиминную стратегию. Она достигается из условия max min αijи совпадает с нижней ценой игры.

Критерий является пессимистическим, считается, что природа будет действовать наихудшим для человека образом, агрессивно, делать все, чтобы помешать нам достигнуть успеха.

Ежедневный спрос на булочки в продовольственном магазине может принимать следующие значения

Если булочка не продана днем, то она м.б. реализована за 15 центов к концу дня. Свежие булочки продаются по 49 центов за штуку. Затраты магазина на одну булочку 25 центов.

Используя игровой подход, определить, какое число булочек надо заказывать ежедневно.

Составим платежную матрицу. Сначала вычислим прибыль (49-25=24) и убыток (15-25=-10).

100*24 100*24 100*24 100*24 100*24
100*24-50*10 150*24 150*24 150*24 150*24
100*24-100*10 150*24-50*10 200*24 200*24 200*24
100*24-150*10 150*24-100*10 200*24-50*10 250*24 250*24
100*24-200*10 150*24-150*10 200*24-100*10 250*24-50*10 300*24

Платежная матрица примет вид

Вычислим критерий Вальда — максиминный. Он отражает принцип гарантированного результата:

Олицетворяет позицию крайнего пессимизма: надо ориентироваться всегда на худшие условия, зная наверняка, что хуже этого не будет. Этот перестраховочный подход для того, кто очень боится проиграть.

Оптимальной считается стратегия, при которой гарантируется выигрыш в любом случае, не меньший, чем нижняя цена игры с природой:

Н = max minαij

Подсчитать min по строкам и выбрать ту стратегию, при которой минимум строки максимален.

А1
А2
А3
А4
А5

Критерий Вальда рекомендует выбирать стратегию А1.

2. Критерий Гурвица (оптимизма — пессимизма).Критерий рекомендует при выборе решения не руководствоваться ни крайним пессимизмом (всегда рассчитывай на худшее), ни крайним легкомысленным оптимизмом (авось кривая выведет). Критерий рекомендует стратегию, определяемую по формуле

где γ — степень оптимизма — изменяется в диапазоне [0, 1].

Критерий придерживается некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилучшего поведения природы. При γ = 1 критерий превращается в критерий Вальда, при γ = 0 — в критерий максимума. На γ оказывает влияние степень ответственности лица, принимающего решение по выбору стратегии. Чем хуже последствия ошибочных решений, больше желания застраховаться, тем γ ближе к единице.

Рассмотрим платежную матрицу.

Параметр Гурвица возьмем равным 0,6.

min max γmin aij + (1- γ)max aij
А1 2400*0.6+0.4*2400=2400
А2 1900*0.6+3600*0.4=2580
А3 1400*0.6+4800*0.4=2760
А4 900*0.6+6000*0.4=2940
А5 400*0.6+7200*0.4=3120

Критерий Гурвица рекомендует стратегию А5.

3. Критерий Сэвиджа.Суть критерия состоит в выборе такой стратегии, чтобы не допустить чрезмерно высоких потерь, к которым она может привести. Находится матрица рисков, элементы которой показывают, какой убыток понесет человек (фирма), если для каждого состояния природы он не выберет наилучшей стратегии.

Элементы матрицы рисков находится по формуле (rij):

где maxaij — максимальный элемент в столбце исходной матрицы.

Оптимальная стратегия находится из выражения

Составим матрицу риска, (max aij — aij).

Выберем максимальный элемент в столбце и вычитаем из него остальные элементы столбца, получим max(max aij — aij).

Мax
А1
А2
А3
А4
А5

Из максимальных значений последнего столбца выбираем минимальную величину, получим Min ij — aij)>.

Критерий Сэвиджа рекомендует стратегию А4.

4. Критерий Лапласа.Этот критерий основывается на принципе недостаточного обоснования. Поскольку вероятности состояния не известны, необходимая информация для вывода, что эти вероятности различны, отсутствует. Поэтому можно предположить, что они равны. Выбор стратегии осуществляется по формуле

где 1/n вероятность реализации одного из состояний р = 1/n.

А1 (2400+2400+2400+2400+2400)/5=2400
А2 (1900+3600+3600+3600+3600)/5=3260
А3 (1400+3100+4800+4800+4800)/5=3780
А4 (900+2600+4300+6000+6000)/5=3960
А5 (400+2100+3800+5500+7200)/5=3800

Критерий Лапласа рекомендует нам стратегию А4.

Таким образом, рассмотрев одну платежную матрицу, мы получили, что критерии Лапласа и Сэвиджа рекомендует стратегию А4.То есть необходимый заказ булочек составит 250 единиц ежедневно.

5. Критерий Байеса. Принятие решения в условиях риска.

Если в рассмотренных выше критериях, необходимая информация о вероятностях какого-либо состояния отсутствовала, то критерий Байеса действует в условиях не полной информации, т.е. в условиях риска (имеется информация о вероятностях применения стратегий второй стороной). Эти вероятности называются априорными вероятностями.

Выбор стратегии осуществляется по формуле

Ежедневный спрос на булочки в продовольственном магазине задается следующим распределением вероятностей

0,2 0,25 0,3 0,15 0,1

Поставив значение aij и pi в формулу, получим:

А1 2400*0,2+2400*0,25+2400*0,3+2400*0,15+2400*0,1=2400
А2 1900*0,2+3600*0,25+3600*0,3+3600*0,15+3600*0,1=3260
А3 1400*0,2+3100*0,25+4800*0,3+4800*0,15+4800*0,1=3695
А4 900*0,2+2600*0,25+4300*0,3+6000*0,15+6000*0,1=3620
А5 400*0,2+2100*0,25+3800*0,3+5500*0,15+7200*0,1=3290

Критерий Байеса рекомендует стратегию А3

В условиях полной неопределенности теория не дает однозначных принципов выбора того или иного критерия.

Оптимальные стратегии, выбранные по различным критериям, различны.

Таким образом, окончательный вывод зависит от предпочтений человека, который принимает решение.

Найти оптимальные стратегии 1-го игрока, исходя из различных критериев, в игре с полной неопределенностью относительно второго игрока, заданной платежной матрицей:

1. Максиминный критерий Вальда. max min аij

Вычислим минимальные значения по строкам min аij, а далее из них выберем максимальное.

Таким образом, получаем Н = max min аij = 15 при применении стратегии А4. i j

Ответ: оптимальной стратегией 1-го игрока А является

2. Критерий Гурвица.

Параметр Гурвица возьмем равным γ=0,6: γ= min аij+(1-γ) max аij

5 10 18 255 25 5*0,6+0,4*25=13

А = 8 7 8 23 7 23 7*0,6+0,4*23=13,4

21 18 12 21 12 18 12*0,6+0,4*18=14,4

20 22 19 1515 22 15*0,6+0,4*22=17,8

Получаем H = max[0.6 min аij+(1-0.6) max аij]=17.8

Ответ: оптимальной стратегией первого игрока является

3. Критерий Сэвиджа (критерий минимаксного риска).

Необходимо построить матрицу рисков.

1) вычислить максимальные значения по столбцам

2) вычислить матрицу рисков: rij= max аij— аij

21-5 22-10 19-18 25-25 16 12 1 0

rij= 21-8 22-7 19-8 25-23 = 13 15 11 2

21-21 22-18 19-12 25-21 0 4 7 4

21-20 22-22 19-19 25-15 1 0 0 10

3) вычислить максимальные значения по строкам и из них выберем строку с минимальным значением:

rij= 0 4 7 4 7

Получаем H = min max rij = 7 при применении стратегии А3.

Ответ: оптимальной стратегией первого игрока является стратегия А3.

4. Критерий Лапласа. n

Вычислить средние арифметические по строкам [1/n ∑ аij]

5 10 18 25 0.25 (5+10+18+25)=14.5 j =1

A = 8 7 8 23 0.25 (8+7+8+23)=11.5

21 18 12 21 0.25 (21+18+12+21)=18

20 22 19 15 0.25 (20+22+19+15)=19

Получаем H = max [1/n ∑ аij] =19 при применении стратегии А4.

Ответ: оптимальной стратегией первого игрока является стратегия А4.

Выбор стратегии в условиях риска (при наличии вероятностной информации).

А2 8 7 8 23 i j =1

Вероятности стратегий второго игрока.

В1 В2 В3 В4
0.2 0.15 0.35 0.3

Получаем Н = 18,45 при применении стратегии А4.

Ответ: оптимальной стратегией первого игрока является стратегия А4.

Предприятие имеет возможность самостоятельно планировать объемы выпуска сезонной продукции А1, А2, А3. Не проданная в течении сезона продукция позже реализуется по сниженной цене. Данные о себестоимости продукции, отпускных ценах и объемах реализации в зависимости от уровня спроса приведены в таблице:

Вид продукции Себесто-имость Цена единицы Продукции Объем реализации При уровне спроса
В течение сезона После уценки Повы-шенном среднем Пони- женном
А1 d1 р1 q1 a1 b1 c1
А2 d2 р2 q2 a2 b2 c2
А3 d3 р3 q3 а3 b3 c3

1) придать описанной ситуации игровую схему, указать допустимые стратегии сторон, составить платежную матрицу

2) дать рекомендации об объемах выпуска продукции по видам, обеспечивающих предприятию наивысшую прибыль.

Указание. Для уменьшения размерности платежной матрицы считать, что одновременно на все три вида продукции уровень спроса одинаков: повышенный, средний или пониженный.

Вид продукции Себесто-имость Цена единицы Продукции Объем реализации При уровне спроса
В течение сезона После уценки Повы-шенном среднем Пони- женном
А1 2,6 3,4 2,8
А2 3,7 4,2 3,2
А3 1,5 2,8 1,7

В игре участвуют 2 игрока: А — производитель, В — потребитель.

Игрок А стремится реализовать свою продукцию так, чтобы получить максимальную прибыль. Стратегиями игрока А являются:

А1 — продавать продукцию при повышенном состоянии спроса

А2 — продавать продукцию при среднем состоянии спроса

А3 — продавать продукцию при пониженном состоянии спроса

Игрок В стремится приобрести продукцию с минимальными затратами. Стратегиями игрока В являются:

В1 — покупать продукцию при повышенном состоянии спроса

В2 — покупать продукцию при среднем состоянии спроса

В3 — покупать продукцию при пониженном состоянии спроса

Интересы игроков А и В — противоположны. Определим цену продукции в течение сезона и после уценки:

Вид продукции себестоимость Цена в течение сезона Цена после уценки
А1 2,6 3,4-2,6=0,2 2,8-2,6=0,2
А2 3,7 4,2-3,7=0,5 3,2-3,7= -5
А3 1,5 2,8-1,5=1,3 1,7-1,5=0,2

Рассчитаем элементы платежной матрицы

Предложение Спрос
стратегии Повышенный спрос 14+38+24 Средний спрос 8+22+13 Пониженный спрос 5+9+7
Повышенный спрос 14+38+24 14*0,8+38*0,5+ 24*1,3=61,4 8*0,8+(14-8) *0,2+ 22*0,5+(38-22)*(-5) +13*1,3+(24-13)*0,2 =29,7 5*0,8+(14-5)*0,2+ 9*0,5+(38-9)*(-5)+ 7*1,3+(24-7)=8,3
Средний спрос 8+22+13 8*0,8+22*0,5+ 13*1,3=34,3 8*0,8+22*0,5+ 13*1,3=34,3 5*0,8+(8-5)*0,2+ 9*0,5+(22-9)*(-5)+ 7*1,3+(13-7)*0,2 =12,9
Пониженный спрос 5+9+7 5*0,8+9*0,5+7*1,3 =17,6 5*0,8+9*0,5+ 7*1,3=17,6 5*0,8+9*0,5+ 7*1,3=17,6

Платежная матрица примет вид

Стратегии В1 В2 В3 αi=min аij j
А1 61.4 29.7 8.3 8.3
А2 34.3 34.3 12.9 12.9
А3 17.6 17.6 17.6 17.6
βj=max аij i 61.4 34.3 17.6

Так как α = β = ν = 17,6, то найдена седловая точка. Значит оптимальное решение: А3; В3

Производитель (игрок А) получит гарантированную прибыль в размере 17,6 ден.ед., если будет реализовывать свою продукцию при пониженном уровне спроса в объеме 5,9 и 7 ед. соответственно продукции А1, А2 и А3

Контрольные вопросы:

1.Дайте определение конфликтной ситуации.

2.Как называется математическая модель конфликтной ситуации?

3.Как называются заинтересованные стороны в теории игр?

4.Какая игра называется антагонистической? Приведите пример.

5.Дайте определение понятию «стратегия».

6.Что понимается под исходом конфликта?

7.Дайте определение понятию «выигрыш».

8.На какие классы делятся игры в зависимости от числа игроков?

9.В чем состоит цель игрока А при выборе стратегии ?

10. В чем состоит суть максиминного принципа оптимальности и как называется выигрыш, полученный в соответствии в этим принципом?

11.Почему максимин α называют нижней ценой игры?

12.В чем состоит цель игрока В при выборе стратегии?

13.Почему минимакс βназывают верхней ценой игры?

14.Почему справедливо неравенство α < β ?

15.Дайте определение цены игры в чистых стратегиях.

16.Какая игра называется игрой в смешанных стратегиях?

17.Как найти оптимальную смешанную стратегию игрока А и цену игры 2 х n геометрически?

18.Что в теории игр понимается под термином «природа»?

19.Приведите примеры в которых решение принимается в условиях неопределенности, связанной с неосознанным принятием различных факторов.

20.Чем отличается выбор оптимальных стратегий игроков в играх с природой от антагонистических игр?

21.Что понимается под риском игрока в игре с природой, и каким образом формируется матрица рисков,

22.Дайте определение критерия Вальда и как по нему определяется выигрыш?

23. Дайте определение критерия Севиджа и как по нему определяется выигрыш?

24. Дайте определение критерия Лапласа и как по нему определяется выигрыш?

25. Дайте определение критерия Байеса и как по нему определяется выигрыш?

26. Какой принцип выбора оптимальной стратегии лежит в основе критерия пессимизма –оптимизма Гурвица относительно выигрышей?

Источник

Игры с « природой»

Для того чтобы можно сделать вывод о том какую именно стратегию выбирать игроку, необходимо использовать критерии Вальда, Гурвица, Сэвиджа, Лапласа, Байеса.

1. Критерий Вальда. Рекомендуется применять максиминную стратегию. Она достигается из условия max min αijи совпадает с нижней ценой игры.

Критерий является пессимистическим, считается, что природа будет действовать наихудшим для человека образом, агрессивно, делать все, чтобы помешать нам достигнуть успеха.

Ежедневный спрос на булочки в продовольственном магазине может принимать следующие значения

Если булочка не продана днем, то она м.б. реализована за 15 центов к концу дня. Свежие булочки продаются по 49 центов за штуку. Затраты магазина на одну булочку 25 центов.

Используя игровой подход, определить, какое число булочек надо заказывать ежедневно.

Составим платежную матрицу. Сначала вычислим прибыль (49-25=24) и убыток (15-25=-10).

100*24 100*24 100*24 100*24 100*24
100*24-50*10 150*24 150*24 150*24 150*24
100*24-100*10 150*24-50*10 200*24 200*24 200*24
100*24-150*10 150*24-100*10 200*24-50*10 250*24 250*24
100*24-200*10 150*24-150*10 200*24-100*10 250*24-50*10 300*24

Платежная матрица примет вид

Вычислим критерий Вальда — максиминный. Он отражает принцип гарантированного результата:

Олицетворяет позицию крайнего пессимизма: надо ориентироваться всегда на худшие условия, зная наверняка, что хуже этого не будет. Этот перестраховочный подход для того, кто очень боится проиграть.

Оптимальной считается стратегия, при которой гарантируется выигрыш в любом случае, не меньший, чем нижняя цена игры с природой:

Н = max minαij

Подсчитать min по строкам и выбрать ту стратегию, при которой минимум строки максимален.

А1
А2
А3
А4
А5

Критерий Вальда рекомендует выбирать стратегию А1.

2. Критерий Гурвица (оптимизма — пессимизма).Критерий рекомендует при выборе решения не руководствоваться ни крайним пессимизмом (всегда рассчитывай на худшее), ни крайним легкомысленным оптимизмом (авось кривая выведет). Критерий рекомендует стратегию, определяемую по формуле

где γ — степень оптимизма — изменяется в диапазоне [0, 1].

Критерий придерживается некоторой промежуточной позиции, учитывающей возможность как наихудшего, так и наилучшего поведения природы. При γ = 1 критерий превращается в критерий Вальда, при γ = 0 — в критерий максимума. На γ оказывает влияние степень ответственности лица, принимающего решение по выбору стратегии. Чем хуже последствия ошибочных решений, больше желания застраховаться, тем γ ближе к единице.

Рассмотрим платежную матрицу.

Параметр Гурвица возьмем равным 0,6.

min max γmin aij + (1- γ)max aij
А1 2400*0.6+0.4*2400=2400
А2 1900*0.6+3600*0.4=2580
А3 1400*0.6+4800*0.4=2760
А4 900*0.6+6000*0.4=2940
А5 400*0.6+7200*0.4=3120

Критерий Гурвица рекомендует стратегию А5.

3. Критерий Сэвиджа.Суть критерия состоит в выборе такой стратегии, чтобы не допустить чрезмерно высоких потерь, к которым она может привести. Находится матрица рисков, элементы которой показывают, какой убыток понесет человек (фирма), если для каждого состояния природы он не выберет наилучшей стратегии.

Элементы матрицы рисков находится по формуле (rij):

где maxaij — максимальный элемент в столбце исходной матрицы.

Оптимальная стратегия находится из выражения

Составим матрицу риска, (max aij — aij).

Выберем максимальный элемент в столбце и вычитаем из него остальные элементы столбца, получим max(max aij — aij).

Мax
А1
А2
А3
А4
А5

Из максимальных значений последнего столбца выбираем минимальную величину, получим Min ij — aij)>.

Критерий Сэвиджа рекомендует стратегию А4.

4. Критерий Лапласа.Этот критерий основывается на принципе недостаточного обоснования. Поскольку вероятности состояния не известны, необходимая информация для вывода, что эти вероятности различны, отсутствует. Поэтому можно предположить, что они равны. Выбор стратегии осуществляется по формуле

где 1/n вероятность реализации одного из состояний р = 1/n.

А1 (2400+2400+2400+2400+2400)/5=2400
А2 (1900+3600+3600+3600+3600)/5=3260
А3 (1400+3100+4800+4800+4800)/5=3780
А4 (900+2600+4300+6000+6000)/5=3960
А5 (400+2100+3800+5500+7200)/5=3800

Критерий Лапласа рекомендует нам стратегию А4.

Таким образом, рассмотрев одну платежную матрицу, мы получили, что критерии Лапласа и Сэвиджа рекомендует стратегию А4.То есть необходимый заказ булочек составит 250 единиц ежедневно.

5. Критерий Байеса. Принятие решения в условиях риска.

Если в рассмотренных выше критериях, необходимая информация о вероятностях какого-либо состояния отсутствовала, то критерий Байеса действует в условиях не полной информации, т.е. в условиях риска (имеется информация о вероятностях применения стратегий второй стороной). Эти вероятности называются априорными вероятностями.

Выбор стратегии осуществляется по формуле

Ежедневный спрос на булочки в продовольственном магазине задается следующим распределением вероятностей

0,2 0,25 0,3 0,15 0,1

Поставив значение aij и pi в формулу, получим:

А1 2400*0,2+2400*0,25+2400*0,3+2400*0,15+2400*0,1=2400
А2 1900*0,2+3600*0,25+3600*0,3+3600*0,15+3600*0,1=3260
А3 1400*0,2+3100*0,25+4800*0,3+4800*0,15+4800*0,1=3695
А4 900*0,2+2600*0,25+4300*0,3+6000*0,15+6000*0,1=3620
А5 400*0,2+2100*0,25+3800*0,3+5500*0,15+7200*0,1=3290

Критерий Байеса рекомендует стратегию А3

В условиях полной неопределенности теория не дает однозначных принципов выбора того или иного критерия.

Оптимальные стратегии, выбранные по различным критериям, различны.

Таким образом, окончательный вывод зависит от предпочтений человека, который принимает решение.

Найти оптимальные стратегии 1-го игрока, исходя из различных критериев, в игре с полной неопределенностью относительно второго игрока, заданной платежной матрицей:

1. Максиминный критерий Вальда. max min аij

Вычислим минимальные значения по строкам min аij, а далее из них выберем максимальное.

Таким образом, получаем Н = max min аij = 15 при применении стратегии А4. i j

Ответ: оптимальной стратегией 1-го игрока А является

2. Критерий Гурвица.

Параметр Гурвица возьмем равным γ=0,6: γ= min аij+(1-γ) max аij

5 10 18 255 25 5*0,6+0,4*25=13

А = 8 7 8 23 7 23 7*0,6+0,4*23=13,4

21 18 12 21 12 18 12*0,6+0,4*18=14,4

20 22 19 1515 22 15*0,6+0,4*22=17,8

Получаем H = max[0.6 min аij+(1-0.6) max аij]=17.8

Ответ: оптимальной стратегией первого игрока является

3. Критерий Сэвиджа (критерий минимаксного риска).

Необходимо построить матрицу рисков.

1) вычислить максимальные значения по столбцам

2) вычислить матрицу рисков: rij= max аij— аij

21-5 22-10 19-18 25-25 16 12 1 0

rij= 21-8 22-7 19-8 25-23 = 13 15 11 2

21-21 22-18 19-12 25-21 0 4 7 4

21-20 22-22 19-19 25-15 1 0 0 10

3) вычислить максимальные значения по строкам и из них выберем строку с минимальным значением:

rij= 0 4 7 4 7

Получаем H = min max rij = 7 при применении стратегии А3.

Ответ: оптимальной стратегией первого игрока является стратегия А3.

4. Критерий Лапласа. n

Вычислить средние арифметические по строкам [1/n ∑ аij]

5 10 18 25 0.25 (5+10+18+25)=14.5 j =1

A = 8 7 8 23 0.25 (8+7+8+23)=11.5

21 18 12 21 0.25 (21+18+12+21)=18

20 22 19 15 0.25 (20+22+19+15)=19

Получаем H = max [1/n ∑ аij] =19 при применении стратегии А4.

Ответ: оптимальной стратегией первого игрока является стратегия А4.

Выбор стратегии в условиях риска (при наличии вероятностной информации).

А2 8 7 8 23 i j =1

Вероятности стратегий второго игрока.

В1 В2 В3 В4
0.2 0.15 0.35 0.3

Получаем Н = 18,45 при применении стратегии А4.

Ответ: оптимальной стратегией первого игрока является стратегия А4.

Предприятие имеет возможность самостоятельно планировать объемы выпуска сезонной продукции А1, А2, А3. Не проданная в течении сезона продукция позже реализуется по сниженной цене. Данные о себестоимости продукции, отпускных ценах и объемах реализации в зависимости от уровня спроса приведены в таблице:

Вид продукции Себесто-имость Цена единицы Продукции Объем реализации При уровне спроса
В течение сезона После уценки Повы-шенном среднем Пони- женном
А1 d1 р1 q1 a1 b1 c1
А2 d2 р2 q2 a2 b2 c2
А3 d3 р3 q3 а3 b3 c3

1) придать описанной ситуации игровую схему, указать допустимые стратегии сторон, составить платежную матрицу

2) дать рекомендации об объемах выпуска продукции по видам, обеспечивающих предприятию наивысшую прибыль.

Указание. Для уменьшения размерности платежной матрицы считать, что одновременно на все три вида продукции уровень спроса одинаков: повышенный, средний или пониженный.

Вид продукции Себесто-имость Цена единицы Продукции Объем реализации При уровне спроса
В течение сезона После уценки Повы-шенном среднем Пони- женном
А1 2,6 3,4 2,8
А2 3,7 4,2 3,2
А3 1,5 2,8 1,7

В игре участвуют 2 игрока: А — производитель, В — потребитель.

Игрок А стремится реализовать свою продукцию так, чтобы получить максимальную прибыль. Стратегиями игрока А являются:

А1 — продавать продукцию при повышенном состоянии спроса

А2 — продавать продукцию при среднем состоянии спроса

А3 — продавать продукцию при пониженном состоянии спроса

Игрок В стремится приобрести продукцию с минимальными затратами. Стратегиями игрока В являются:

В1 — покупать продукцию при повышенном состоянии спроса

В2 — покупать продукцию при среднем состоянии спроса

В3 — покупать продукцию при пониженном состоянии спроса

Интересы игроков А и В — противоположны. Определим цену продукции в течение сезона и после уценки:

Вид продукции себестоимость Цена в течение сезона Цена после уценки
А1 2,6 3,4-2,6=0,2 2,8-2,6=0,2
А2 3,7 4,2-3,7=0,5 3,2-3,7= -5
А3 1,5 2,8-1,5=1,3 1,7-1,5=0,2

Рассчитаем элементы платежной матрицы

Предложение Спрос
стратегии Повышенный спрос 14+38+24 Средний спрос 8+22+13 Пониженный спрос 5+9+7
Повышенный спрос 14+38+24 14*0,8+38*0,5+ 24*1,3=61,4 8*0,8+(14-8) *0,2+ 22*0,5+(38-22)*(-5) +13*1,3+(24-13)*0,2 =29,7 5*0,8+(14-5)*0,2+ 9*0,5+(38-9)*(-5)+ 7*1,3+(24-7)=8,3
Средний спрос 8+22+13 8*0,8+22*0,5+ 13*1,3=34,3 8*0,8+22*0,5+ 13*1,3=34,3 5*0,8+(8-5)*0,2+ 9*0,5+(22-9)*(-5)+ 7*1,3+(13-7)*0,2 =12,9
Пониженный спрос 5+9+7 5*0,8+9*0,5+7*1,3 =17,6 5*0,8+9*0,5+ 7*1,3=17,6 5*0,8+9*0,5+ 7*1,3=17,6

Платежная матрица примет вид

Стратегии В1 В2 В3 αi=min аij j
А1 61.4 29.7 8.3 8.3
А2 34.3 34.3 12.9 12.9
А3 17.6 17.6 17.6 17.6
βj=max аij i 61.4 34.3 17.6

Так как α = β = ν = 17,6, то найдена седловая точка. Значит оптимальное решение: А3; В3

Производитель (игрок А) получит гарантированную прибыль в размере 17,6 ден.ед., если будет реализовывать свою продукцию при пониженном уровне спроса в объеме 5,9 и 7 ед. соответственно продукции А1, А2 и А3

Контрольные вопросы:

1.Дайте определение конфликтной ситуации.

2.Как называется математическая модель конфликтной ситуации?

3.Как называются заинтересованные стороны в теории игр?

4.Какая игра называется антагонистической? Приведите пример.

5.Дайте определение понятию «стратегия».

6.Что понимается под исходом конфликта?

7.Дайте определение понятию «выигрыш».

8.На какие классы делятся игры в зависимости от числа игроков?

9.В чем состоит цель игрока А при выборе стратегии ?

10. В чем состоит суть максиминного принципа оптимальности и как называется выигрыш, полученный в соответствии в этим принципом?

11.Почему максимин α называют нижней ценой игры?

12.В чем состоит цель игрока В при выборе стратегии?

13.Почему минимакс βназывают верхней ценой игры?

14.Почему справедливо неравенство α < β ?

15.Дайте определение цены игры в чистых стратегиях.

16.Какая игра называется игрой в смешанных стратегиях?

17.Как найти оптимальную смешанную стратегию игрока А и цену игры 2 х n геометрически?

18.Что в теории игр понимается под термином «природа»?

19.Приведите примеры в которых решение принимается в условиях неопределенности, связанной с неосознанным принятием различных факторов.

20.Чем отличается выбор оптимальных стратегий игроков в играх с природой от антагонистических игр?

21.Что понимается под риском игрока в игре с природой, и каким образом формируется матрица рисков,

22.Дайте определение критерия Вальда и как по нему определяется выигрыш?

23. Дайте определение критерия Севиджа и как по нему определяется выигрыш?

24. Дайте определение критерия Лапласа и как по нему определяется выигрыш?

25. Дайте определение критерия Байеса и как по нему определяется выигрыш?

26. Какой принцип выбора оптимальной стратегии лежит в основе критерия пессимизма –оптимизма Гурвица относительно выигрышей?

Источник

Adblock
detector