Команда исследователей Apple выпустила статью, в которой тщательно изучаются возможности математических рассуждений больших языковых моделей (LLM), предполагая, что, хотя эти модели могут демонстрировать абстрактные модели рассуждения, они не справляются с точными логическими рассуждениями. Исследователи заметили, что LLM, подобные тем, которые сегодня используются в инструментах искусственного интеллекта, демонстрируют значительную вариативность в своих ответах на схожие вопросы с небольшими вариациями в формулировках, что указывает на отсутствие настоящих формальных способностей к рассуждению.
Их результаты указывают на фундаментальное ограничение в том, как LLM обрабатывает и интерпретирует математические проблемы. Согласно исследованию под названием «GSM-Symbolic: понимание ограничений математического рассуждения в моделях большого языка», LLM полагаются на вероятностное сопоставление с образцом, которое отличается от формального логического рассуждения. Такая зависимость от распознавания образов делает модели чувствительными к незначительным изменениям входных данных, обнаруживая сильную предвзятость токенов, влияющую на точность. Например, небольшие изменения в формулировках могут привести к совершенно разным реакциям, подчеркивая хрупкость и чувствительность этих моделей.
В документе далее объясняется, что задачи, связанные с выбором нескольких токенов (важный аспект в сложном решении проблем), теряют точность экспоненциально по мере увеличения количества необходимых токенов или шагов. Эта характеристика делает LLM менее надежными в сценариях, требующих детальных многоэтапных рассуждений, которые являются основным аспектом решения математических задач.
В исследовании также рассматривается тест GSM8K, обычно используемый для оценки математических рассуждений в моделях искусственного интеллекта. Несмотря на значительные улучшения производительности LLM по этому тесту в последние годы, команда Apple задается вопросом, действительно ли способности этих моделей к математическому рассуждению улучшились, или же улучшенные результаты просто отражают улучшенное сопоставление с образцом, а не более глубокое понимание.
Исследование Apple в конечном итоге привлекает внимание к ограничениям программ LLM в точном решении сложных логических задач, особенно в математике, где надежная логика имеет важное значение. Это исследование выдвигает на первый план проблемы, с которыми сталкиваются разработчики, работающие над совершенствованием этих моделей и улучшением их способности к последовательному и надежному рассуждению в сложных задачах.