Комментарии 11

А у меня дома у папы АГИ есть!

Нет, не вынесу и не покажу, вдруг он сбежит и всех убьет!

психологи для ЛЛМ - явно недооцененное направление.

а смесь "архитектора" (мысль обширно) + "психолога" (лечить сдвиги нейросетей) + "программиста" (декмпозировать на подзадачи и строить алгоритмы) = это самая устойчивая смесь "профессии будущего"

Ох уж эти датасеты. Видимо достали из загашников самые перчёные данные.

Интересно?

Нет, не особо. Выглядит как пересказ чуть менее, но всё-таки обсосаных моментов, причем с оттенком слопа. Для примера - буквально днем увидел этот анализ на реддите, там покрывается куда больше моментов.

💡GraphWalks – тест на работу с огромными структурами данных (256K–1M токенов). Я буквально недавно писал об этих ограничениях. Здесь Mythos обгоняет GPT-5.4 почти вчетверо. Для задач типа «разберись в большой кодовой базе» или «пройдись по базе знаний» – это прямо релевантно.

На этом бенчмарке в одной и той же категории: Mythos - 80%, Sonnet 4.6 - 73.8%. Скачок резко сдувается с "+41.3%" до "+6.2%" (только Mythos ещё в разы тяжелее, чем Sonnet 4.6). Просто вот немного забыли Anthropic прикрепить этот момент. Случайно, наверное.

SWE-bench Multimodal

Ну да, Opus 4.6 набирает 27.1%. А вот публичный лидерборд, где GPT-4o набирает 30.37%. Забавная картина. Ещё забавнее, что Anthropic пытаются объяснить эту ситуацию тем, что они использовали "внутреннюю реализацию" данного бенчмарка, а не ту, которую использует публичный лидерборд. Правда вот в системной карте, которую они прикрепили, нет никаких таких упоминаний; исходя из неё, они тестировали обе модели на самом обычном варианте SWE-bench Multimodal, только с небольшими техническими правками, которые на итоговой результат особо и не влияют. Более того, они знатно так намутили воды вокруг того, какой harness использовался при тестировании Opus 4.6 (видимо, очень и очень плохо работающий).

Чего не сделаешь ради раздувания результатов.

Решение не выпускать Mythos в паблик – не требование RSP. Это добровольное решение конкретно из-за кибер-возможностей.

Или же альтернативный вариант. Anthropic подфейлили с релизами Sonnet 4.6/Opus 4.6 (это хорошие модели, но публика ожидала явно больших улучшений), потому решили сделать крупную ставку и обучили Mythos. В итоге получили что-то типа GPT-4.5 - унылая, тяжелая модель с минимальными приростами (не считая, может, совсем отдельных задач). Но чтобы не оказаться совсем в заднице после этого, они решили её знатно от-benchmaxx-ить и выкатить под видом "Слишком дорогая и опасная модель, чтобы давать её публике". Учитывая все эти мутности с отчетами, звучит правдоподобно.

Ты не прав. Ты ни как не исключил их официальное объяснение, а просто нашёл альтернативное, ни как не доказав что объяснение перевешивает по вероятности их официальное. Плюс ты 20 раз нарушил бритву окама)

Ты ни как не исключил их официальное объяснение

Объяснение касательно чего? SWE-bench Multimodal? Ну уж простите, когда вы в анонсе говорите, что использовали "internal implementation" (подразумевая, что был использован совсем другой датасет, нежели тот, что использовался для лидерборда, и эти различия сильно влияют на итоговый результат), в то время как системная карта не только не дает никаких разъяснений касательно того, что же это за "реализация" такая, но и вдобавок дает такие описания, из которых можно сделать вывод, что различия между "вариантом теста, использованном в лидерборде" и "вариантом теста, использованном Anthropic" больше технические и почти не влияют на итоговый результат...

Уж простите, чувствуется знатный запах обмана.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации