| |
Решатель ARC-задач Франсуа Шолле | |
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
| 18:25 23.11.2025 |
|
22:39 23.11.2025 |
|
№13218 |
ваня: китайцы красавчики, наступает эра китайцев
Ну они уже не китайцы)), а китайские американцы... по типу Рахманинова, меня, Брина, Зворыгина, Сикорского, Суцкевера, не гениальный русский, а гениальный русский американец...
Люди приезжают к нам из китаев и рашек именно за этим -- быть свободными, независимыми и реализовывать свои мечты. Бежать из китаев, иранов, рашек, северныхкорей к нам -- это и есть тренд, это и есть хайп. Умные понимают смыслы и пользу, поэтому учатся и работают здесь, а не в пекинах и москвах))) А ты, ваня, тупой)))
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Egg:ваня: китайцы красавчики, наступает эра китайцев
Ну они уже не китайцы)), а китайские американцы... по типу Рахманинова, меня, Брина, Зворыгина, Сикорского, Суцкевера, не гениальный русский, а гениальный русский американец...
Люди приезжают к нам из китаев и рашек именно за этим -- быть свободными, независимыми и реализовывать свои мечты. Бежать из китаев, иранов, рашек, северныхкорей к нам -- это и есть тренд, это и есть хайп. Умные понимают смыслы и пользу, поэтому учатся и работают здесь, а не в пекинах и москвах))) А ты, ваня, тупой))) Китаец это китаец, русский это русский, а предатель это предатель, куда бы они не эмигрировали, за банкой варенья и печенья. Исход будет как у вас, печальный, в чужой стране они будут чужими, может только внуки слегка ассимилируются.
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
ваня: Китаец это китаец, русский это русский
Ты, вань, тупой и не понимаешь, что все люди мира произошли из нескольких особей на западе Африки. А национальности и патриотизмы придумали политики, что обворовывать таких как ты и держать в подчинении.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
И кстати не так долго осталось чтобы талантливые китайцы, со слабыми морально волевыми качествами(то есть потенциальные предатели), были мотивированны эмигрировать в США. Ещё 10 лет и Китай будет как Япония, только на порядок больше, скорей из США будут ехать в Китай за более высокой зп. чем наоборот.
Объективно Китай во всём догнал и даже превосходит США, но китайцы работают совсем по другому(в 2-3 раза эффективнее), в Китае нет бессмысленных затрат на продавливание всех решений через "общественное мнение", я бы сравнил эффективность Китая и США, по отношению количеству почивших от ковида, на миллион.
Трамп сейчас бессмысленно бьётся в конвульсиях, по "реиндустриализации", но поезд ушел, а точнее говоря, США попросту не в состоянии в нынешней социокультурной модели, пройти "ломку" потери гегемонии, падения уровня жизни в 3-5 раз, чтобы все хором пошли работать за тысячу долларов в месяц 6\10, как в остальном мире. Будет гражданская война южан с северянами, а половина населения подсядет на фентанил.
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
| 11:44 24.11.2025 |
|
11:54 24.11.2025 |
|
№13229 |
ваня: Ещё 10 лет и
Через десять лет и приходи, тогда и поговорим. Я говорю О ФАКТАХ, о той реальности, которая есть сейчас, которая ооочень далека от твоих пропагандистских фантазий))
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Egg:ваня: Ещё 10 лет и
Через десять лет и приходи, тогда и поговорим. Я говорю О ФАКТАХ, о той реальности, которая есть сейчас, которая ооочень далека от твоих пропагандистских фантазий)) Через десять лет вы вероятно будите в Китае работать и проклинать США, хором петь, вы — предатели быстро переобуваетесь, как ваш президент, который если надо то и соснуть может, как выяснилось.
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
| 10:12 26.11.2025 |
|
10:13 26.11.2025 |
|
№13245 |
Egg:ваня: Через десять лет
иди нахуй Всё верно, это ваш уровень, так держать!
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
ваня: Через десять лет
вань, тебе не надоело здесь бегать и вонять?
иди, пожалуйста, нахуй и приходи через десять лет))
😂
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
qwerty:Prosolver: кого отпугивает питон] пайтон теперь все знают, это как азбука
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
Вот и завершилось очередное соревнование
https://www.kaggle.com/competitions/arc-prize-2025/leaderboard?
Лучшая точность 24.03% из целевых 85%.
Результаты можно охарактеризовать как очередной обсёр.
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
| 19:12 11.12.2025 |
|
19:15 11.12.2025 |
|
№13382 |
mserg: Результаты можно охарактеризовать как очередной обсёр.
Это вполне предсказуемо, соревнование на kaggle публичное, а уже никто не будет показывать код, даже Meta отказалась от такой практики, хотя декларировала таковые намерения.
При этом, новая GPT-5.2 версия Pro преодолела порог 90%, набрав 90.5% на ARC-AGI-1.
На ARC-AGI-2 у неё 52.9%
Мне кажется, что это уже вполне человеческий результат... ))
|
| |
|
write
|
| Решатель ARC-задач Франсуа Шолле |
По-видимому результаты по GPT взяты отсюда:
https://arcprize.org/leaderboard
Проверка результатов, как я понимаю, описана здесь:
https://arcprize.org/policy
Проверку коммерческих систем с общей капитализацией под триллион проводит кучка гордых ученых.
Анализ результатов 2025 года сделан тут:
https://arcprize.org/blog/arc-prize-2025-results-analysis
Судя по анализу, прогресс действительно идет.
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
mserg: По-видимому результаты по GPT взяты отсюда:
Попробуйте научиться делать ссылки ссылками, а не текстом для копирования)))
|
| |
|
create
|
| Решатель ARC-задач Франсуа Шолле |
| 11:15 29.12.2025 |
|
11:43 29.12.2025 |
|
№13434 |
Игорь Котенков, успешно практикующий дейтасаентист, инфлюэнсер пишет про АРК:
"Про ARC-AGI и свою критику этого бенчмарка и мнений его автора, François Chollet (автор Keras), я писал много раз. Бенчмарк состоит из нескольких сотен визуальных головоломок с квадратиками разного цвета на сетке. Для каждой задачи дано 2-3 примера некоторого преобразования было -> стало, и предоставлен новый пример, для которого модели или системе нужно предсказать, каким должен быть результат.
Для людей задачки достаточно простые — средний человек почти сходу решает 80%, а вот алгоритмы 3-4 летней давности едва ли брали двузначные процентов. С появлением рассуждающих моделей ARC-AGI 1 пал — o3-preview, представленная на декабрьском стриме, решала задачи лучше среднего человека.
OpenAI пояснили, что модели учились на публично доступной части бенчмарка (что не запрещено — он для этого и дан), а организаторы добавили, что на решение затратили, по их подсчётам, миллион долларов в API-кредитах за LLM, потому что для каждой задачи o3-preview генерировала 1024 решения, а затем отсекала неправильные (не работающие для 2-3 данных примеров) и выбирала 2 самых частых ответа.
Вот несколько цитат из оригинальной статьи 2019-го года, чтобы вспомнить контекст:
— Мы утверждаем, что ARC может быть использован для измерения человекоподобной формы общего подвижного интеллекта и что он позволяет проводить честные сравнения общего интеллекта между ИИ и людьми
— Мы постулируем, что существование программы, решающей ARC на уровне человека означало бы способность создавать ИИ на основе демонстраций (требуя лишь горстку примеров для спецификации сложной задачи) для решения широкого круга понятных человеку проблем (тут сложно не согласиться)
— Насколько нам известно, к ARC невозможно подступиться с помощью какой-либо существующей техники машинного обучения (включая обучение нейросетей) из-за его фокуса на широком обобщении и обучении на малом количестве примеров
Очень долго автор ходил с важным видом и говорил, что нейросети тут работать не будут. Потом пришли LLM и он говорил то же самое про них. Поверить, что o3-preview смогла решить было настолько сложно, что авторам пришлось придумывать много глупых ухищрений, включая обзывание LLM symbolic reasoners.
У меня много критики и к бенчмарку, и к позиции авторов, но самое главное было то, что, как мне казалось, бенчмарк не решался LLM скорее из-за ограничения в работе с форматом поля из клеточек, которое к тому же требует очень длинного контекста (с которым модель хорошо работает). Невозможность решить задачу не являлось для меня аргументом к не-интеллекту LLM, так как проявление навыков было затруднено этими двумя вещами.
И вот когда ARC 1 побили, выпустили ... ARC 2. Что в нём изменилось? Тезисно:
— ... сделали сетку с клеточками большего размера (так что теперь нужно ещё больше токенов -> длиннее контекст)
— ... больше объектов в сетке
— многие задачи «сложнее», так как требуют комбинацию из 2-3 паттернов, а не 1
И вот с выходом моделей последнего поколения, Gemini 3 Pro и GPT-5.2, и на этом бенчмарке уровень людей был превзойдён. Стартап Poetiq сделали унифицированную систему (набор промптов и немного кода, см. тут), которая можешь запускаться на любой LLM. Но ясно, что чем лучше сама базовая модель, тем выше качество, сами они по сути сделали очень мало.
Получается, что такой результат это в большей степени заслуга Google и OpenAI (GPT-5.2 X-High там вообще какой-то безумный скор показала). Это они натренировали модели, готовили данные, придумывали алгоритмы.
Почти наверняка они использовали подходы, схожие с топ-решениями соревнования ARC на Kaggle. Основная фишка там — это сгенерировать огромное множество искусственных примеров задач и учить модель на них в попытке показать как можно больше вариаций паттернов, которые могут встретиться в тестовой выборке.
По сути, это просто пайплайн генерации синтетики + обучение на нём, помимо других задач. И поскольку эти пайплайны могут существенно отличаться, то сложно сказать, у какой из команд лучше именно алгоритм обучения рассуждениям. В модель втренировывают все вариации задач.
Отсюда ясно, что настоящий инсайд результатов ARC AGI — это наличие алгоритма тренировки и базовой модели, которые позволяют для некоторого класса задач за относительно недлинный промежуток времени очень прокачать качество. Главное что компании должно быть это интересно (а не просто считать буквы в словах).
Другими словами, если OpenAI считают, что выполнение задачи X принесёт большую ценность, то они берут, тратят миллионы долларов на сбор и разметку данных, учат модель, то сё, и вот навык существенно прокачивается. Не до 100%, и иногда даже не сразу до человеческого уровня, но скачок заметный. И затем за ~год научиться это делать гораздо более эффективно (не за миллион долларов, а за тысячи).
Так что бенчмарки ARC AGI 1 и 2 во многом считаю бесполезными, но при этом некоторым proof-of-concept для проверки алгоритма обучения. Но если задаться целью проверять именно это, то может быть есть куда более интересные и ценные направления?
ARC AGI 3 немного изменит подход, но по мне так это снова банальное усложнение через увеличение количества клеточек. В третьей версии будут интерактивные игры, где система должна делать ходы (прям нажимать вверх-вниз-влево-вправо) и за несколько попыток понять правила игры и пройти несколько уровней.
Пожалуй, это позволит протестировать ещё более длинные контексты (теперь вход в модель для рефлексии - это не одно поле, не набор пар, а длинная череда слепков поля и действий), а также навык выведения правил игры в рамках одной сессии.
Но можно ли это проверять как-то по другому, и без, блин, полей в клеточку 60x60, которые занимают 3600 токенов ~= 9 страниц текста на КАЖДЫЙ слепок? А то основные навыки у моделей будут, а потом окажется, что не можем решить задачи из-за ошибок в распознавании пикселей на картинке."
|
|
|