06.02.2026
🧠 сравнение

Claude Opus 4.5 vs Opus 4.6
Одна задача — два мира

Дал обеим моделям реальную задачу. 66 сервисов, 21 агент.
66сервисов
21агентов
1задача
4.5
Opus 4.5
Не проверилПредложил Kimi K2.5 API, не заметив что сервер — это Claude
Нереалистичные срокиОркестратор за 3 часа (нужны недели)
Красивая пустышка4-6 часов впустую на план который не работает
4.6
Opus 4.6
Полез в системуПроверил что реально работает на сервере
Нашёл ошибкиРаскритиковал каждый пункт плана 4.5
Реалистичный план5 часов, измеримые результаты
4.5
/ 10
Opus 4.5
7.5
/ 10
Opus 4.6
ключевая разница

4.6 не просто генерирует текст — он проверяет свои предположения. Лезет в систему, смотрит код, находит несоответствия. 4.5 красиво пишет, но не сомневается в себе.

💡
Разница между сотрудником, который уверенно несёт чушь и сотрудником, который сначала разберётся, а потом скажет.

🚀Нет, это не AGI. Но разрыв между уверенно неправильным и скептично правильным — это именно тот скачок, который меняет всё в реальной работе.

V360 · SWARM INTELLIGENCE@visaginas360