Проект FutureX представил рейтинг искусственного интеллекта (ИИ), оценивая модели по их способности прогнозировать будущее в сферах политики, экономики, культуры, спорта и других областях. Лидером среди 25 участников оказался Grok-4 от компании xAI Илона Маска. Об этом сообщают Dengi.ua со ссылкой на Emergent Mind.
Отмечается, что разработчики описывают FutureX как «бенчмарк для прогнозирования будущего, специально разработанный для агентов LLM, поддерживающий ежедневные обновления в режиме реального времени и исключающий искажение данных благодаря автоматизированному конвейеру для сбора вопросов и ответов».
Сообщается, что сейчас в рамках FutureX анализируется 25 моделей LLM/агентов. В их число входят системы с возможностями рассуждения, поисковой интеграции и использованием внешних инструментов. По словам авторов проекта, «эта комплексная оценка оценивает адаптивное мышление и производительность агентов в динамических средах, углубленный анализ видов сбоев агентов и проблем производительности при выполнении задач, ориентированных на будущее, включая уязвимость к фейковым веб-страницам и временную валидность».
В проекте рассматриваются 25 моделей, разделённых на четыре группы по уровню сложности прогнозирования:
- Базовый — простые вопросы с минимальной неоднозначностью.
- Широкий поиск — задачи, требующие расширенного поиска информации.
- Глубокий поиск — прогнозы с умеренной волатильностью, основанные на последовательных рассуждениях и интеграции различных источников.
- Суперагент — высокая неопределённость и волатильность, требующие сложных многошаговых рассуждений и надёжного анализа исходных данных.
Основные выводы:
- Стратификация сложности: наблюдается явное монотонное снижение производительности модели от базового уровня к уровню «Суперагент», что подтверждает правильность дизайна бенчмарка. Большинство моделей хорошо справляются с простыми задачами с одним или несколькими вариантами ответа, но резко теряют в сложных, высоковолатильных событиях.
- Поиск и использование инструментов: модели с интегрированными возможностями поиска и рассуждений значительно превосходят базовые LLM-программы при решении сложных задач. Grok-4 и GPT-o4-mini (Think+Search) достигают наивысших результатов в самых сложных ситуациях, обеспечивая баланс между точностью и скоростью вывода.
- Базовые LLM: DouBao-Seed1.6-Thinking демонстрирует высокие результаты при выполнении задач по извлечению знаний, превосходя некоторые агентные модели на более низких уровнях.
- Вариативность домена: Производительность варьируется в зависимости от домена; например, модели GPT превосходны в криптографии и технологиях, в то время как DouBao-Seed1.6-Thinking лидирует в финансах и бизнесе.
- Сравнение с людьми: Эксперты-люди постоянно превосходят агентов LLM на большинстве уровней, за исключением некоторых задач с несколькими вариантами выбора, где исчерпывающее сравнение вариантов дает преимущество моделям.
- Факторный анализ: линейная регрессия подтверждает, что уровень сложности и домен являются наиболее значимыми предикторами эффективности модели, при этом лучшие модели совпадают с общей таблицей лидеров.
Лучшие ИИ-агенты по категориям
- Прогнозирование прошлого и будущего
Контролируемый эксперимент, сравнивающий прогнозы прошлого (после разрешения события) и прогнозы будущего (до разрешения события), показывает, что модели с дополненной поисковой обработкой, такие как Grok-4, отлично справляются с извлечением решенных результатов, но разрыв между прогнозами прошлого и будущего подчеркивает сложность истинного прогнозирования.
- Планирование агента и поведение поиска
Анализ памяти планирования SmolAgent показывает, что полнота плана, надёжность источников и наличие выполнимых шагов сильно коррелируют с точностью прогнозирования. Модели, которые чаще используют инструменты и ссылаются на авторитетные источники, работают лучше, в то время как избыточная история диалогов вносит шум.
- Финансовое прогнозирование
Агенты LLM приближаются к профессиональным аналитикам Уолл-стрит по показателям прибыли и выручки индекса S&P 500, но не превосходят их, при этом лучшие модели достигают уровня выигрышных сделок в 33–37%.
- Уязвимость поддельных веб-сайтов
Большинство агентов глубоких исследований уязвимы к вредоносным поддельным веб-сайтам, за исключением Gemini-2.5-Pro Deep Research, который, по-видимому, использует сигналы доверия к домену, чтобы избежать цитирования.
- Поиск в реальном времени
В задачах, чувствительных ко времени (например, результаты спортивных состязаний в реальном времени), GPT-o3 Deep Research демонстрирует самый сильный поиск в реальном времени, но даже специализированные агенты не всегда превосходят универсальные LLM с дополненным поиском.
Напомним, Dengi.ua сообщали о том, отчет исследовательской инициативы NANDA Массачусетского технологического института показал, что, несмотря на растущий интерес компаний к генеративному искусственному интеллекту, лишь около 5% пилотных проектов обеспечивают быстрый рост выручки.
Также Dengi.ua писали, что интеграция искусственного интеллекта в поиск Google меняет правила работы в Интернете и ставит под угрозу привычные модели медиабизнеса.


