Xronofag11 апр в 04:35

Anthropic выпустила System Card Claude Mythos: что важного осталось за кадром

Простой

8 мин

7.2K

Подготовка технической документации *

Обзор

Комментарии 11

BobovorTheCommentBeast 11 апр в 06:45

А у меня дома у папы АГИ есть!

Нет, не вынесу и не покажу, вдруг он сбежит и всех убьет!

Real_Egor 11 апр в 08:07

вроде так попугая в Алладине звали =)

Real_Egor 11 апр в 08:16

психологи для ЛЛМ - явно недооцененное направление.

а смесь "архитектора" (мысль обширно) + "психолога" (лечить сдвиги нейросетей) + "программиста" (декмпозировать на подзадачи и строить алгоритмы) = это самая устойчивая смесь "профессии будущего"

Prokop1977 11 апр в 08:51

Извините, я темный. А IPO у них уже было?

Xronofag 11 апр в 09:08

https://habr.com/ru/companies/bothub/news/1017572/ октябрь 2026, если по плану

Triton5 11 апр в 10:17

Не напугаешь - не продашь:)

FixicusMaximus 12 апр в 00:30

Ох уж эти датасеты. Видимо достали из загашников самые перчёные данные.

ArZr 12 апр в 16:10

Интересно?

Нет, не особо. Выглядит как пересказ чуть менее, но всё-таки обсосаных моментов, причем с оттенком слопа. Для примера - буквально днем увидел этот анализ на реддите, там покрывается куда больше моментов.

💡GraphWalks – тест на работу с огромными структурами данных (256K–1M токенов). Я буквально недавно писал об этих ограничениях. Здесь Mythos обгоняет GPT-5.4 почти вчетверо. Для задач типа «разберись в большой кодовой базе» или «пройдись по базе знаний» – это прямо релевантно.

На этом бенчмарке в одной и той же категории: Mythos - 80%, Sonnet 4.6 - 73.8%. Скачок резко сдувается с "+41.3%" до "+6.2%" (только Mythos ещё в разы тяжелее, чем Sonnet 4.6). Просто вот немного забыли Anthropic прикрепить этот момент. Случайно, наверное.

SWE-bench Multimodal

Ну да, Opus 4.6 набирает 27.1%. А вот публичный лидерборд, где GPT-4o набирает 30.37%. Забавная картина. Ещё забавнее, что Anthropic пытаются объяснить эту ситуацию тем, что они использовали "внутреннюю реализацию" данного бенчмарка, а не ту, которую использует публичный лидерборд. Правда вот в системной карте, которую они прикрепили, нет никаких таких упоминаний; исходя из неё, они тестировали обе модели на самом обычном варианте SWE-bench Multimodal, только с небольшими техническими правками, которые на итоговой результат особо и не влияют. Более того, они знатно так намутили воды вокруг того, какой harness использовался при тестировании Opus 4.6 (видимо, очень и очень плохо работающий).

Чего не сделаешь ради раздувания результатов.

Решение не выпускать Mythos в паблик – не требование RSP. Это добровольное решение конкретно из-за кибер-возможностей.

Или же альтернативный вариант. Anthropic подфейлили с релизами Sonnet 4.6/Opus 4.6 (это хорошие модели, но публика ожидала явно больших улучшений), потому решили сделать крупную ставку и обучили Mythos. В итоге получили что-то типа GPT-4.5 - унылая, тяжелая модель с минимальными приростами (не считая, может, совсем отдельных задач). Но чтобы не оказаться совсем в заднице после этого, они решили её знатно от-benchmaxx-ить и выкатить под видом "Слишком дорогая и опасная модель, чтобы давать её публике". Учитывая все эти мутности с отчетами, звучит правдоподобно.

Xronofag 20 часов назад

Большое спасибо за подробный и предметный комментарий!

MaxmaxmaximusFree 12 часов назад

Ты не прав. Ты ни как не исключил их официальное объяснение, а просто нашёл альтернативное, ни как не доказав что объяснение перевешивает по вероятности их официальное. Плюс ты 20 раз нарушил бритву окама)

ArZr 11 часов назад

Ты ни как не исключил их официальное объяснение

Объяснение касательно чего? SWE-bench Multimodal? Ну уж простите, когда вы в анонсе говорите, что использовали "internal implementation" (подразумевая, что был использован совсем другой датасет, нежели тот, что использовался для лидерборда, и эти различия сильно влияют на итоговый результат), в то время как системная карта не только не дает никаких разъяснений касательно того, что же это за "реализация" такая, но и вдобавок дает такие описания, из которых можно сделать вывод, что различия между "вариантом теста, использованном в лидерборде" и "вариантом теста, использованном Anthropic" больше технические и почти не влияют на итоговый результат...

Уж простите, чувствуется знатный запах обмана.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий