Форум создателей искусственных интеллектов


Логин (email) 
Пароль 
Настройки

Сообщения участника "mserg"
1
2
3
write
Решатель ARC-задач Франсуа Шолле
19:47 09.01.2025 №11292
Egg:
Вот есть и такое мнение: ARC-AGI(2019 - 2024) Killed 1 month ago, Abstract reasoning challenge consisting of visual pattern completion tasks. Each task presents a sequence of abstract visual patterns and requires selecting the correct completion. Created by François Chollet as part of a broader investigation into measuring intelligence. It was 5 years and 1 months old. Defeated by: O3 Original Score Human Baseline: ~80% Final Score O3: 87.5% https://r0bk.github.io/killedbyllm/ Это мемориал, посвященный убитым by LLM бенчмаркам
Блин, кругом одни наркоманы... * Во-первых, не O3, а O3(tuned): [Note on "tuned": OpenAI shared they trained the o3 we tested on 75% of the Public Training set. They have not shared more details. We have not yet tested the ARC-untrained model to understand how much of the performance is due to ARC-AGI data.] * Во-вторых, люди решают не 80%, а 85%. * И в-третьих, для прохождения тестов есть ограничение использования ресурсов, которые нарушены для результата 87% (использовалась low-efficiency конфигурация). С некоторой натяжкой, можно сказать, что O3(tuned) дает 75% (конфигурация high-efficiency). Цель создания тестов, от самого Шолле: * Прохождение порога 85% * Высокая эффективность * Open Source Прохождение тестов Шолле, особенно по части эффективности, похожи на заявления о создании термояды. Припоминаю, какая-то (американская вроде) лаборатория заявила, что им удалось добиться того, что энергии получено больше чем затрачено для полученной термоядерной реакции. Потом вдруг выяснилось, что процесс было создан с помощью лазеров, и энергия этих лазеров не учитывалась. И еще потом выяснилось, что не учитывалась электрическая энергия, питающая лазеры. А так да, термояд создан. По сведениям самого Шолле, люди соглашались решать задачи за 5$, а затраты на решение o3(tuned) стоит на 3 порядка выше (и это без учета стоимости обучения/настроек). А так да, тест "ликвидирован", тут даже спорить не о чем. Цель Шолле - "85% / high-efficiency / Open Source" не достигнута. Так что если кто-то что-то вдруг делает - можно продолжать. Реальный результат на данный момент - 55%. Даже если openai в реальности пройдет тесты Шолле (порог и эффективность), то без открытия кода цель достигнута не будет.
0 | 0
write
Решатель ARC-задач Франсуа Шолле
01:06 11.01.2025 №11309
Еще пару слов по теме, если никто не возражает. Шолле суть говорит о том, система должна решать задачи, обладающие новизной. Проверка преодоления решателем новизны заключается в том, что в тесты должны быть включены задачи, не похожи на обучающие. В пределе - обучающие задачи никак не связаны с тестовыми. Тогда обучающие задачи совершенно бесполезны для решения "абсолютно" новых задач. Доводя до конца эти рассуждения, приходим к ситуации, когда система должна решать задачи вообще без обучения. Мне трудно представить, чтобы это можно было бы сделать с помощью LLM, когда нет данных, и, следовательно, нет возможности обучения. Поэтому в o3(tuned) методы, альтернативные LLM, как минимум, на равных используются с LLM. Альтернативные методы предполагают поиск в пространстве программ, включающий, о чудо, перебор с возвратом: "search process has to explore an enormous number of paths through program space – including backtracking". Главный фокус заключается в том, что в "пространстве программ" для данной задачи можно использовать критерий "простоты" программы и решать (простые) задачи без какого-либо обучения. Поэтому относительный успех o3(tuned) приписывать исключительно LLM вряд ли корректно. Насчет библиотек/сервисов ai и денег. LLM в качестве "интерактивной энциклопедии", несомненно, - впечатляющее достижение. Но сколько бы мои коллеги не пытались применить LLM в коммерческих целях для наших задач - да, частично работает, однако шкурка выделки не стоит. Пытались применять копилот - то же самое, а потом вышли на исследование, доказывающие коммерческую неэффективность использования (ссылки, увы у меня сейчас нет). Использование убыточных технологий противоречит самой сути коммерции. Если рассматривать прохождение тестов Шолле еще и для оценки коммерческой эффективности, то опять смотрим график здесь: https://arcprize.org/blog/oai-o3-pub-breakthrough Отсекаем решатели по порогу ручного решения (5$ на задачу), и видим, что ни o1, ни o3 экономически не целесообразны. А вот решатель, полученный в соревновании Kaggle (Kaggle Sota) тратит на одну задачу несколько десятков центов. Поэтому применение этого решателя вполне может быть целесообразно, но нужно учесть нюанс. Т.к. точность решателя Kaggle невысока - 55%, то за ним потребуется ручная проверка. Если решением была "формула" или "программа", тогда было бы понятно, как задачи решаются. Тогда проверка может стоить относительно недорого и можно не превысить 5$ на задачу. А если "формула" - это коэффициенты в сети, то для проверки потребуется заново решать решенные ai задачи. Т.е. и решатель от Kaggle также будет коммерчески бесполезен, пока не наберет точности, либо не будет ясно сообщать, как задача решается.
+1 | 0
write
Решатель ARC-задач Франсуа Шолле
18:04 13.01.2025 №11319
Egg:
mserg:
Но сколько бы мои коллеги не пытались применить LLM в коммерческих целях для наших задач - да, частично работает, однако шкурка выделки не стоит.
Опять Вы вместо фактов, пытаетесь свои унылые суждения пропихнуть. Может быть просто Ваши коллеги не тем заняты?))) Они - охранники или доставщики пиццы? Я привел три свежих ссылки, где мои коллеги успешно решают свои задачи и увеличивают доходы с помощью LLM. https://agi.place/?ai=9&msg=11282#11282
Что только люди не рассказывают. Одни рассказывают, что проходят тесты Шолле. Другие рассказывают, что зарабатывают с помощью LLM. А некоторые пробуют и не зарабатывают, и ничего не рассказывают. И где ответ на вопрос, что же в среднем? Требуется независимое корректное исследование на этот счет, а не просто ссылки. Из компаний, на которые сделаны ссылки, я сталкивался только с Salesforce. Они пытались Зибель заменить в Бритиш Америко Табакко. 3 раза пыталась, и все три раза обосрались, но деньги за работу получили. Зарабатывают, да, тут я не спорю. В реальности заявления компаний - это "мы уверены", "мы прогнозируем", "мы сократили", "мы наймем", "мы заменим", "мы используем", и т. п. Не понятно, где тут трындеж, где правда, и что из "мы прогнозируем" сбудется. Маск заявлений никаких не делал, просто уволил 80% в твиттере. И что? А ничего. Все то же самое.
0 | 0
write
Решатель ARC-задач Франсуа Шолле
19:29 14.01.2025 №11323
Egg:
mserg:
Что только люди не рассказывают
Да-да-да, вы там в своём колхозе ИИ применить не смогли, значит это нигде работать не может))) Я Вам уже говорил, потерпите лет пять, мы в Ваш колхоз потом бусы, наконечники для стрел и ИИ продадим. ))) Как продовали до этого всё, что называется техническим прогрессом) Поможем, огонь трением добывать не прийдется 😃😃
ИИ применить смогли, но не LLM.
0 | 0
write
Решатель ARC-задач Франсуа Шолле
20:53 14.01.2025 №11326
Egg:
mserg:
ИИ применить смогли, но не LLM.
Да нет никакого ИИ, есть ML)). Разобрались с 13ой гильбертовой проблемой или нет еще?
Есть путанная терминология и каждый путает ее как может. Общего определения ИИ не существует. На счет "13ой гильбертовой проблемой" - я не понимаю, что там можно не понять. Если память меня не подводит, то ее формулировка не выходит за рамки (советской) средней школы. Она как бы намекает как "недорого" можно (попытаться) приближенно описать (сложную) непрерывную функцию многих переменных. Ну так и что с того? Выше уже разобрано, почему аппроксиматор не работает на новых задачах Шолле. Все эти чистые LLM больше 5% не дают - сам Шолле об этом и рассказывал в своей статье. И что openai сделали, чтобы вылезти из этих 5%. Внятного ответа о средней эффективности применения LLM и области применимости получить невозможно. Организационная возня и поток сознания разных деятелей относительно будущего - где тут достоверная информация, которой можно верить? То ли есть результаты, то ли господа хотят стоимость акций поднять на модной теме, то ли они просто идиоты - ну, я не знаю. Если кто знает - имеет смысл пойти в соответствующую тему. Так что пока Андрей тему "Решатель ARC-задач Франсуа Шолле" не почистит от мусора - я, пожалуй, откланяюсь.
0 | 0
write
Решатель ARC-задач Франсуа Шолле
00:17 26.03.2025 №11892
Чистый LLM, ожидаемо: gpt-4.5 (Pure LLM) - 0% Лучший результат: o3-low (CoT + Search/Synthesis) - 4% Мне кажется, что Open AI уже слили в этой теме несколько миллионов - только разовое прохождение тестов у них было ~$350k. Так что продолжим....
0 | 0
write
Решатель ARC-задач Франсуа Шолле
16:32 26.03.2025 №11894
Припоминаю, что задачи, подобные указанной выше, есть в первой версии Arc-задач. Парсинг и статистика дает следующее: * Размеры входного и выходного изображения совпадают * Желтая фигура остается на месте * Прочие (монохромные) фигуры входа транслируются аффинным преобразованием в фигуры на выходе один к одному * Фигуры (многоцветные из-прилепившихся к ним красных точек) существуют в выходном изображении ровно 1 раз (в выходном изображении парсинг их не выделяет - речь идет о попиксельном существовании) * Количество красного уменьшается в 2 раза * Исчезнувшие красные цвета (суммарно) превращаются в черные (суммарно) По прикидкам, учет всего этого дает систему алгебраических уравнений, которая приводит к решению. Но это не точно.
0 | 0
write
Решатель ARC-задач Франсуа Шолле
16:51 01.04.2025 №11897
У "замеченных принципов" есть математический аналог, который и есть "ограничения". Задачи на сетке, действительно, есть, в немалом количестве. Но там есть и задачи, учитывающие z-порядок (есть учет 3-го измерения). Это выражается в наложении линий или прямоугольников друга на друга. Но большая часть - это задачи на графах или сетках (сетки обозначаются линиями или угловыми маркерами какого-нибудь одного цвета). Поэтому нужно сначала сделать парсинг с превращением входного и выходного изображений в графы, а потом искать преобразования приведения одного графа в другой. Но, в любом случае, Шолле еще тот затейник ... Возьмет пару изображений, одно входное и одно выходное. Они друг на друга вообще не похожи и разного размера. А потом начинает двигать/вращать оба два изображения, получая таким способом следующие пары. Ты как дурак ищешь правило отображения входных матрицы в выходные, а их просто нет. А нужно искать, как преобразуется входное изображения из первого во второе, третье и т.д., и потом также преобразовывать выходное точно также.
0 | 0
1
2
3

Главная Участники Жалобы  Поиск Исходный код О форуме