По мнению специалистов, если 2024 год был отмечен появлением многочисленных аналогов Chat-ботов, то 2025 год, вероятно, станет периодом доминирования рассуждающих моделей искусственного интеллекта. При этом лидирующие позиции в данной области, по всей видимости, займут китайские исследовательские лаборатории. Недавно компания Moonshot AI представила свою мультимодальную модель Kimi k1.5, которая продемонстрировала превосходство над OpenAI o1 в тестовых испытаниях, обладая при этом значительно меньшей стоимостью.

Эксперты полагают, что Kimi k1.5 представляет собой не просто очередную модель ИИ, а существенный прорыв в области мультимодального рассуждения и обучения с подкреплением. Kimi k1.5 от Moonshot AI интегрирует обработку текста, кода и визуальных данных для решения сложных задач, демонстрируя в некоторых случаях более высокую производительность по сравнению с признанными лидерами, такими как -4o и Claude Sonnet 3.5.
Объём контекстного окна Kimi k1.5 в 128 тысяч токенов позволяет модели обрабатывать за один проход массив информации, сопоставимый по объему с полноценным романом. В процессе решения математических задач, модель способна планировать, анализировать и корректировать свои действия на протяжении сотен токенов, имитируя человеческий процесс решения проблемы. Вместо повторной генерации полных ответов, Kimi применяет фрагменты ранее использованных решений, что повышает эффективность и снижает затраты на обучение.
Традиционный подход к обучению с подкреплением основывается на использовании алгоритмов поиска по дереву Монте-Карло или сетей ценности. Разработчики из Moonshot AI отказались от этого и создали более простую структуру, основанную на обучении с подкреплением, с применением штрафа за длину и баланса между исследованием и эксплуатацией. В результате была создана модель, которая обучается быстрее и избегает «излишнего обдумывания» — распространённой ошибки, когда ИИ расходует вычислительные мощности на лишние этапы.
Kimi k1.5 обладает способностью анализировать графические изображения, решать геометрические задачи и проводить отладку кода. В рамках теста MathVista модель продемонстрировала точность 74,9%, объединяя текстовые инструкции с графическими данными.
Как сообщалось ранее — Вот, что мешает мирным переговорам России и Украины