Claude Opus 4.5 vs Opus 4.6
Одна задача — два мира

Дал обеим моделям реальную задачу. 66 сервисов, 21 агент.

66сервисов

21агентов

1задача

4.5

Opus 4.5

✕ Не проверилПредложил Kimi K2.5 API, не заметив что сервер — это Claude

✕ Нереалистичные срокиОркестратор за 3 часа (нужны недели)

✕ Красивая пустышка4-6 часов впустую на план который не работает

4.6

Opus 4.6

✓ Полез в системуПроверил что реально работает на сервере

✓ Нашёл ошибкиРаскритиковал каждый пункт плана 4.5

✓ Реалистичный план5 часов, измеримые результаты

4.5

/ 10

Opus 4.5

7.5

/ 10

Opus 4.6

ключевая разница

4.6 не просто генерирует текст — он проверяет свои предположения. Лезет в систему, смотрит код, находит несоответствия. 4.5 красиво пишет, но не сомневается в себе.

💡

Разница между сотрудником, который уверенно несёт чушь и сотрудником, который сначала разберётся, а потом скажет.

🚀Нет, это не AGI. Но разрыв между уверенно неправильным и скептично правильным — это именно тот скачок, который меняет всё в реальной работе.

V360 · SWARM INTELLIGENCE@visaginas360

Claude Opus 4.5 vs Opus 4.6Одна задача — два мира

Claude Opus 4.5 vs Opus 4.6
Одна задача — два мира