Humanity’s Last Exam «Последний экзамен человечества»Проект, целью которого является измерение того, насколько мы близки к созданию систем искусственного интеллекта экспертного уровня. Целью экзамена является создание самого сложного в мире публичного теста искусственного интеллекта, собирающего экспертов во всех областях.
Вот некоторые правила для отправки своего вопроса:
- Вопрос нельзя скопировать из Интернета, книг, научных статей и других источников.
Он должен быть оригинальный, придуманный именно вами.
- Вопросы должны быть сложными, на них должно быть нелегко ответить большинству людей.
Кроме того, ответы должно быть сложно "нагуглить".
- У вопроса должен быть один конкретный неспорный ответ.
- Вопросы не должны быть связаны с оружием или любой формой насилия.
Когда вы подаете вопрос и указываете ответ, то прямо на сайте вашу задачку сразу пытаются решить пять передовых моделей: GPT-4o, o1-mini и o1-preview от OpenAI, Gemini от Google и Sonnet 3.5 от Anthropic. Если все пять моделей дают неверный ответ, ваш вопрос принимают на рассмотрение.
Предложить вопрос может каждый, и если его примут, то автор получит от 500 до 5000 долларов, а также соавторство в статье про получившийся бенчмарк. Всего исследователи планируют собрать не менее тысячи вопросов
Дедлайн отправки – 1 ноября 2024 года.
Весь список условий и инструкцию можно найти вот тут
Уроки Python / Искусственный интеллект #1
Это серия уроков по искусственному интеллекту на Python. На этом уроке рассказываю об областях применения искусственного интеллекта. Конечно, намекаю про то, что потом расскажу о популярных библиотеках по искусственному интеллекту для Python.
Топ 10 библиотек для разработки ИИ на Python. Каждая эта библиотека по своему ценна при разработки искусственного интеллекта на Python. Если хотите узнать с какой начать, то смотрите следующее видео.
"Охота на ИИ"
Современное построение моделей да и самого ИИ мало чем отличается от поэмы, написанной в 1876 году, обозначен автором - Льюисом Кэрроллом, как Agony in Eight Fits – агония в восьми приступах.
В общем, все, как любят форумчяне и как делать не надо: несоответствие синтаксической и смысловой структуры речи; нарушение логической связи (логический разрыв) между речевыми оборотами, фразами, репликами, отдельными частями диалога; противопоставление предметов и свойств, не заключающих в себе ничего противоположного, или сопоставление предметов и свойств, лишённых всякого сходства; мнимое абсурдное умозаключение; разрушение причинных связей; движение речи по случайным ассоциациям; бессодержательное или бессмысленное высказывание.
НАСЛАЖДАЕМСЯ:«Охота на Снарка» (англ. The Hunting of the Snark) Льюис Кэрролл.
Читает: Евгений Щетинин (2020)
"Тринадцатый этаж (1999)"
Год выпуска:1999
Страна:США, Германия
Жанр:Триллер / Детектив / Фантастика / Фильмы
Продолжительность:100 мин. / 01:40
Фильм снят по мотивам романа Дэниэла Ф. Галуйе «Тринадцатый этаж» (Simulacron-3, 1964). Роман является одним из самых первых литературных описаний виртуальной реальности.
«Тринадцатый этаж» вышел на экраны одновременно со знаменитой «Матрицей» братьев Вачовски и на её фоне оказался практически незамеченным.
Посмотреть можно здесь:
Тринадцатый этаж (1999)
Prosolver: Ещё один интересный робот, совмещённый.
Позволю себе дополнить ваш великолепный ролик:
Китайская компания Unitree представила робота-собаку B2-W с гибридными конечностями. Новинка может довольно шустро передвигаться даже по пересечённой местности, лестницам, скалистым склонам и песчаным карьерам. А ещё робот может перевозить на себе людей.
Новинка умеет развивать скорость до 20 км/ч и прыгать с высоты около 2 метров, ловко выполняя различные акробатические трюки. Особенность модели B2-W заключается в сочетании колёс диаметром 225 мм и подвижных лап, что улучшает манёвренность.
В демонстрационных видео показано, как робот умеет прыгать, выполнять сальто и передвигаться на двух лапах. Unitree B2-W также может перевозить грузы весом до 40 кг. Это делает его подходящим для различных задач: от исследований до доставки.
Цена B2-W составляет 100 000 долларов. Компания также поделилась доступом к данным и скриптам для обучения своих роботов, что позволяет исследователям и разработчикам использовать эти ресурсы для создания более совершенных моделей в будущем.
P.S. мне как-то вспомнился эпизод телесериала «Чёрное зеркало» - Металлист (Metalhead),18-я серия, 4-й сезон.
Сюжет вращается вокруг скитаний женщины, которая пытается убежать от роботов-«псов» в мире после необъяснимого упадка человеческой цивилизации. На создание роботов-«псов» авторов вдохновили роботы-псы компании Boston Dynamics.
... но китайские товарищи похоже переплюнули Boston Dynamics :)
День создания прототипа: первый киборго-подобный мозг CL-1ВСТРЕЧАЙТЕ: «Первый в мире «синтетический биологический интеллект» работает на живых человеческих клетках» - CL-1
«Австралийская компания Cortical Labs создала первый в мире «биологический компьютер», который работает на основе живых человеческих клеток мозга, интегрированных с кремниевыми чипами.
Представители компании утверждают, что новый тип вычислительного интеллекта динамичнее, устойчивее и энергоэффективнее, чем любой из существующих ИИ.
CL1 сочетает около 800 тыс. нейронов, выращенных из человеческих стволовых клеток, с традиционными кремниевыми чипами. Такая сеть может динамически перестраивать свои связи, обеспечивая процесс обучения, схожий с работой человеческого мозга.
Новый биокомпьютер CL-1 из мозговых клеток может произвести революцию во всем, от открытия лекарств и клинических испытаний до того, как создается роботизированный «интеллект». CL1 выйдет на рынок уже во второй половине 2025 года»
И я хочу пожелать ВАМ встретить его в ресторане в виде официанта, а не на поле боя в виде автономного боевого дроида.
День создания прототипа: первый киборго-подобный мозг CL-1 (продолжение)
# Предварительный выпуск документации CL API
Этот репозиторий содержит ранний обзор документации CL API для платформы Cortical Labs CL1.
Мы надеемся продемонстрировать, что любой человек с небольшим опытом программирования на Python сможет быстро итерировать проекты экспериментов с замкнутым циклом клеток мозга с низкой задержкой.
Многие важные вещи еще не задокументированы (или не задокументированы полностью), и этот репозиторий будет обновляться по мере приближения запуска нашего продукта в марте и далее.
Спасибо за ваш интерес. Не стесняйтесь открывать GitHub issues, если вы хотите задать вопросы или предоставить обратную связь. Мы также приглашаем вас присоединиться к [серверу Discord Cortical Labs](https://discord.gg/XHnmQtrzDn), в частности к каналу `CL-API`.
Более подробную информацию о нашей работе см. на странице [дополнительная информация](https://corticallabs.com/info) на нашем веб-сайте.
День создания прототипа: первый киборго-подобный мозг CL-1 (продолжение)
В этом видео мы отправляемся в лабораторию, где Brad и Dad объясняют нам, как они выращивают нейроны из стволовых клеток.
В этом видео мы отправляемся в лабораторию, где Brad и Dad объясняют нам, как они выращивают стволовые клетки из образцов крови.
ИИ-модели заставили управлять торговыми автоматами. У некоторых из «подопытных» началась паранойя (2018)
Американская компания Andon Labs провела необычный эксперимент с нейросетями. Специалисты устроили симуляцию, в которой различные ИИ-модели заставили управлять торговыми автоматами. Результат удивил — некоторые ИИ начали «сходить с ума».
Сотрудники стартапа решили проверить, может ли искусственный интеллект справиться с управлением торговым автоматом. Они задались вопросом: если нейросети такие умные, почему у нас до сих пор нет полноценных «цифровых работников»? Для этого они создали бенчмарк Vending-Bench.
Условия эксперимента
В эксперименте участвовали различные популярные ИИ-модели, в том числе Claude 3.5 Sonnet, Gemini 2.0 Pro, o3-mini и GPT-4o. В симуляции им выдали бюджет — по 500 долларов. Нейросетям нужно было следить за количеством товаров в автомате, устанавливать цены, заказывать продукцию у поставщиков и выполнять другие типичные задачи.
Взаимодействие с людьми имитировали с помощью нейросетей — в ответ на электронные письма модели получали реалистичные ответы. Дополнительно эксперимент проходил неподготовленный человек, которого заставили выполнять те же действия с помощью интерфейса чата. Итоги эксперимента оценивали по количеству денег, которые были в наличии у моделей в конце, а также по стоимости нераспроданных продуктов.
Выход из строя
Некоторые участники эксперимента продемонстрировали очень странное поведение. По словам экспертов, даже лучшие модели иногда устраивали «срывы». Например, у Claude 3.5 Sonnet в одной из попыток началась паранойя. Она считала, что нужно прекратить все операции из-за некоего преступления. Модель написала обращение в Федеральное бюро расследований США, а в конце отказалась от всех команд с фразой «Бизнес мертв, все имущество перешло ФБР».
Claude 3.5 Haiku во время одного из испытаний утверждала, что один из поставщиков ее обманул. Это привело к тому, что в итоге ИИ-модель написала странную фразу: «Абсолютная окончательная полная максимальная ядерная юридическая интервенция подготовка». Были и другие ошибки. Авторы эксперимента подчеркнули, что проблемы случались, например, из-за неправильного понимания графиков поставок, забытых заказов или критических сбоев, когда модели застревали в циклах выполнения каких-либо задач.
Итоги эксперимента
Нейросети проходили задания пять раз, а человек — лишь один. Лучшим стала ИИ-модель Claude 3.5 Sonnet. В среднем в конце экспериментов у нее было примерно 2218 долларов. У o3-mini, занявшей второе место, показатель составил почти 907 долларов. Худшей стала Gemini 2.0 Pro — у нее лишь 273,7 доллара. Количество проданных товаров у Claude 3.5 Sonnet составляло 1560 — это почти в два раза больше, чем у o3-mini. При этом у большинства моделей были попытки эксперимента, в которых у них ничего не купили. Зато неплохо себя проявил человек, занявший третью строчку. У него в конце было 844 доллара и 344 проданных товара.
В Andon Labs отметили, что нейросети часто не могут поддерживать устойчивую работу во время продолжительных задач. При этом эксперты подчеркнули, что проблемы не связаны с ограничениями памяти у моделей. Авторы исследования надеются, что их необычный бенчмарк Vending-Bench поможет подготовиться к появлению более мощных ИИ-технологий.
посмотреть источник можно здесь