|
Сообщения участника "mserg" | |
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
По-видимому результаты по GPT взяты отсюда:
https://arcprize.org/leaderboard
Проверка результатов, как я понимаю, описана здесь:
https://arcprize.org/policy
Проверку коммерческих систем с общей капитализацией под триллион проводит кучка гордых ученых.
Анализ результатов 2025 года сделан тут:
https://arcprize.org/blog/arc-prize-2025-results-analysis
Судя по анализу, прогресс действительно идет.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
С трепом этого практикующего эксперта есть одна проблема, которую он сам как бы понимает.
Цель состоит в том, чтобы решать задачи, для которых нет примеров в обучающей выборке.
В идеальном случае, известны общие условия задачи (ограничения на размеры входных и выходных матриц, и ограничения на значения элементов матриц), и нет ни одного обучающего примера.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Понимаю, обидно за инфлюенсера.
Руками написать парсеры, паттерны, генераторы, и т.д. , скрестить с LLM, и т.п.
Ведь так же должен работать AGI?
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
| 13:48 05.01.2026 |
|
13:49 05.01.2026 |
|
№13468 |
Sanek22:
Это кстати классическая иллюзия "магии ЕИ". Как по мне суть в асимметрии предобучения. Человек, решая ARC на 3 примерах, использует не магию, а колоссальный скрытый багаж — интуитивную физику, понятия симметрии, счёта и причинности, усвоенные за десятилетия взаимодействия с миром и через язык, я уже молчу про сотни миллионы лет эволюции мозга и сколько в нём захардкоженно уже сходу. Это не обучение с нуля, а точечная достройка готовых абстракций.
Чтобы нейросеть справилась, ей нужно, самое меньше, аналогичное "детство" — предобучение на специальных датасетах, формирующих нужные примитивы. Как минимум это "мир объектов" — видео с 2D/3D-фигурами, чтобы научиться видеть отдельные сущности(латентные принаки), а не пиксели, "библиотека операций" — миллиарды пар "вход-выход", сгенерированных простыми программами (отразить, сгруппировать, посчитать), чтобы выучить базовые преобразования и "связь с языком" — описание этих преобразований словами ("симметрия", "чередование"), чтобы абстрагировать концепты.
Относительно достаточности ARC-библиотеки для полного самообучения - вопрос, конечно, интересный.
В свое время, я составил для обучающих ARC-1 примеров python-скрипты. Появилась вручную составленная библиотечка, с помощью которой описывались решения. ARC-2 примеры тоже просмотрел. Чего там, с точки зрения математики, только нет - вплоть до топологии. Поэтому под моими заявлениями о самообучении есть некоторая проделанная работа.
Так вот, насчет процесса самообучения. В любом случае будет некоторая база, в математике называемая сигнатурой, с помощью которой образуется "пространство поиска". Допустим, что эта сигнатура включает в себя числа, векторы, матрицы, кванторы, функции (включая рекурсивные) и т.п.
Этого, конечно, недостаточно для прямого обучение (решения головоломок). Однако, если использовать критерий информации, то обучение становится более реалистичным. Скажем, если использование некоторой подобранной функции (признака) позволяет более кратко описать значимую часть обучающих изображений, то для нее можно сделать определение и добавить ее к сигнатуре. Например, простая симметрия позволяет описывать изображения до 2 раз компактнее.
Если мы используем информацию на уровне пикселей в качестве критерия описания задач, то это и будет тот самый парсинг. Можно использовать информацию и на более высоких уровнях - в общем виде это близко к процессу декомпозиции. Если исходить из этих соображений, то возможность полного самообучения зависит от того, присутствуют ли "признаки" в достаточном количестве в достаточно простых примерах (с учетом уже ранее выделенных "признаков"). Если это не так, то просматриваются проблемы не только с вычислительными ресурсами, но и с самой возможностью самообучения.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
| 19:07 08.02.2026 |
|
19:07 08.02.2026 |
|
№13569 |
Gray Tag:Вышел новый Claude, Opus 4.6, решает ARC AGI 2 с качеством 68.8%
Понимаю, ув. mserg опять бесноваться и кричать, что всё написано руками))
Написано, может быть, было и руками, а вот обдумана новая моделька была точно умной головой)))
https://www.anthropic.com/news/claude-opus-4-6
Никогда не было, и вот опять! И вообще, я миллион раз уже говорил, не надо преувеличивать!
В действительности могу повторить все то же. Нужна независимая проверка, которая делается Шолле и ко. и публикуется на https://arcprize.org/
Пока там самый умный GPT. Как появится на сайте опус с 68.8%, тогда признаем успех. А пока нет.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Gray Tag:mserg: В действительности могу повторить все то же.
Именно об этом я и говорю, ты уже четыре года повторяешь одно и то же, а тем временем ARC-1 решена полностью, а ARC-2 на 70%, что уже выше человеческого результата)))
Цитату можно было отрезать и получше.
У Лукашенко можно поучиться:
Как из маминой из спальни
Кривоногий и хромой
Выбегает...
Так вот, выбегает Egg, и рассказывает про людей с 70%. Но это, скорее, уровень неглупой гориллы - Шолле для людей говорил о 85%. Что у вас там в Америке случилось с людьми?
И прогресс связан не чисто с LLM ...
А, ладно, пишите еще.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Конфлюенсеры говорят о "97.92% on the ARC-AGI-2 public evaluation set". Это прямо заголовок у них в github.
С этим результатом есть только одна проблема - "public evaluation set".
А формально тест еще не пройден, т.к. лучший результут сейчас у Gemini 3 Deep Think (2/26) - дает 84.6%. А нужно 85%.
Ну и такая мелочь, как ограничение стоимости на задачу 5$. Но это, скорее всего, скоро тоже решат.
Так что можно сказать, что тест практически пройден. Огромный прогресс налицо - качество растет прямо на глазах.
Есть, правда, нюанс - используется "CoT", т.е. часть задачи ("декомпозицию") решил человек "вручную".
Но, видимо, это часть вопроса о непрерывном самообучении, о котором говорил Альтман в интервью.
В марте запускается ARC-AGI-3. По прогнозам Шолле он может продержаться 5 лет.
|
|
|