Предсказательный гадалкослоп: прогнозируем Путина!

Источник smart-lab Сегодня 10:25
88
Нейтральная окраска записи

Скотт Александр написал пост о том, что AI-суперпредсказатели (современные LLM со специальной обвязкой, заточенной под эту задачу) дескать уже сейчас соревнуются в корректной оценке вероятностей разных событий плюс-минус на равных с топовыми человечьими суперфоркастерами.

Он там приводит в пример FutureSearch – один из таких специализированных ИИ-инструментов, который находится в более-менее открытом доступе. Естественно, я не мог упустить возможность потестировать его!

Смотрите, я на той неделе писал о возможности сделать на Полимаркете ставку на то, что Путин останется у власти как минимум до конца текущего года, по «цене» 86% (что эквивалентно «доходности к погашению» в размере 37,5% годовых в долларах). Сейчас уже вероятность поднялась до 89% (прибыль 3,5% за неделю, noice!), но всё равно остается на глаз довольно низкой.

Так вот, я попросил этот самый FutureSearch оценить вероятность ухода Путина с поста президента до конца года по любым причинам – результат можно наблюдать на приложенном скриншоте.

Три «нейроисследователя» прошерстили 146 источников и пришли к выводу, что вероятность составляет около 5%: 1,5% по базовым медицинским причинам и 3,5% на прочие силовые методы. С первым компонентом всё понятно, а вот как конкретно эти ребята вышли на 3,5% – я, к сожалению, так и не понял. Но концептуально это не сильно далеко от моей собственной «прикидочной» оценки.

Для сравнения, что ответили другие современные модели (без какой-либо специальной обвязки, просто ответы на тот же самый вопрос):

🐌 Claude Fable 5 – самая мощная на текущий момент базовая модель (на этой неделе платные юзеры Клода как раз еще имеют к ней доступ без доплаты): 3–5%, короче около 4%. По сути, почти тот же результат, что у FutureSearch выше.

🐌 Claude Opus 4.8: 4–8% – тут уже вероятность заметно выше. Вся вариация здесь и ниже идет в основном за счет того, как разные модели оценивают вероятность переворота в том или ином виде.

🐌 ChatGPT 5.5: 9% – этот сразу первым делом полез на Polymarket проверять вероятности и, видимо, заякорился на них. Написал, что «текущие 11% на Полимаркете могут быть завышены действиями не самых умных китов, но…»

🐌 Gemini 3.1 Pro: этот, по сути, вообще отказался оценивать вероятность самостоятельно. Сразу написал «бро, там на Полимаркете дают около 12% – я хз, чем тут тебе еще помочь можно».

🐌 Grok Expert: 11–13%. Этот тоже, кажется, на Полимаркет заякорился.

Вывод: кажется, проверять вероятности на Fable / FutureSearch выглядит не самой глупой идеей.

[Дежурная оговорка про рынки предсказаний]

Еще по теме: