Telegram Web Link
Из завершившейся (ровно тем, чем и начиналась: Сэм вернулся, если кто пропустил) истории с OpenAI есть один важный вывод:

За последние 4 дня большая часть AI стартапов и разработчиков, потеряв уверенность в OpenAI, попробовали open source модели и поняли, что они не хуже и не сложнее в работе по сравнению с GPT.
Кстати, у нас новый вебинар в пятницу про применение computer vision для бизнес-задач. А на следующей неделе еще один про vision у мультимодалок (LLaVA, BakLLaVA, GPT-4V).

Компьютерное зрение – технология, которая на практике используется редко и часто для несложных задач. Однако она имеет большой потенциал и может вывести бизнес на новый уровень.

24 ноября на вебинаре “Computer Vision для бизнеса” мы разберем:
— задачи, которые быстро и легко можно решить с помощью компьютерного зрения
— его возможности для улучшения бизнес-процессов
— реальные кейсы успешного использования

План вебинара:
— Как бизнесу помогает CV?
— Использование в спортивной аналитике
— Определение брака и износа
— Отслеживание поведения и эмоций человека
— Поиск по фотографиям
— Подходы и способы решения CV задач для бизнеса

Присоединяйтесь ко встрече и узнайте, как с помощью компьютерного зрения открыть новые возможности для бизнеса. За последние 6 месяцев в вебинарах Codex.Town поучаствовало больше 10,000 человек и больше 30,000 посмотрели и послушали в записи. Присоединяйтесь 24 ноября в пятницу в 16:00 UTC | 17:00 CET | 19:00 по Москве

Все зарегистрированные участники получат запись. Регистрация: https://lu.ma/codextown (может требоваться VPN) Либо вы можете подписаться на Boosty и получить ссылку на вебинар там: https://boosty.to/codextown
Оказывается, Альтмана уволили из-за того, что LLM слишком хорошо научилась в математику, ну в целом в науку. По крайней мере, спекулируют об этом.
Forwarded from Сиолошная
Так вот, к чему была эта прелюдия. В Reuters пишут, что якобы катализатором увольнения Альтмана стало письмо сотрудников OpenAI совету директоров. В нём говорится о прорыве в исследовании ИИ, которое, «может угрожать человечеству».

Правда, Reuters не смогло ознакомиться с копией письма. А автор(ы) не ответили на запросы о комментариях. Так что особо почвы у теории под ногами нет.

Масла в огонь подливает тот факт, что за сутки до увольнения Sam Altman на оффлайн-саммите сказал следующее:
— Четыре раза за всю историю OpenAI, и последний раз был вот несколько недель назад, я присутствовал в комнате, когда мы как бы отодвигаем завесу невежества и подталкиваем границу открытий вперед. Сделать это — профессиональная честь на всю жизнь.

Что он там такого увидел?

Согласно новости, модель (система?) Q* смогла решить некоторые математические задачи, сообщил источник на условиях анонимности. Это само по себе выглядит странно — ведь даже в примере выше пример куда сложнее, это конец средней школы. И как будто никакого прорыва и нет. Возможно, журналисты всё перепутали — ну или история выдумка.

Теперь о том, как на это смотреть и чего ждать:
1) OpenAI точно занимается разработкой модели, которая будет осуществлять научные исследования. Они про это пишут открыто.
2) Для того, чтобы это произошло, нужно, чтобы модель-учёный умела решать сложные задачи и планировать исследования. Часть этой работы уже сделана — см. статью из поста выше.
3) Вся концепция заключается в том, что модель будет генерировать тысячи неправильных кусочков решений, иногда выдавая верные — главное, чтобы их можно было отранжировать в списке гипотез выше, чем мусорные (вспоминайте модель-оценщика из поста выше).
4) Для этого нужно огромное количество мощностей. Поэтому деньги тут решают. OpenAI пока привлекли больше всех инвестиций, и моё видение такое, что через 2 года это станет большим препятствием для входа. Останется 5-10 игроков, кто готов столько денег сжигать.
5) Вопрос в том, насколько большим будет следующий скачок. Сможет ли модель писать решения на уровне магистра? PhD? Постдока? Доктора наук? Будет ли она ограничена 2-3 доменами, или же обобщится на любую научную область, где есть вычисления?
6) Однажды вы проснётесь, и слух из новости станет правдой: появится модель, которая будет хотя бы частично (>50%) заменять одного учёного в лаборатории. С этих пор прогресс начнёт двигаться гораздо быстрее — потому что нанять 100 учёных за день нельзя, а запустить 100500 моделей на кластере за день — можно.

Более подробно с моим видением дальнейшей стратегии OpenAI и направлениями, в которых они будут копать, вы можете ознакомитсья в моей недавней лекции «What's next for OpenAI?». Там я, конечно, не предсказал шумиху с увольнением CEO, но много говорю про агентов-исследователей и подход OpenAI.

А почитать больше спекуляций по поводу Gemini и Q* можно на LessWrong.
Написал пост, удалил, но понял, что ничего честнее я давно не писал, поэтому возвращаю.

О кейсах ИИ, темпоральном конфузе и операторах

Меня конфузит и морозит, когда речь заходит о кейсах применения ИИ. Помню, 10 лет назад меня так же мучали о кейсах применения крипты (биткоина). Я говорю: деньги. В ответ: ну как же, бла-бла-бла, золотой стандарт, гав-гав-гав, центральный банк и фиат, мяу-мяу-мяу, АБИСПИЧЕНИЕ!!11 А сегодня эти же люди получают и платят зарплату большей части сотрудников в крипте, переводят деньги заграницу, даже эфир застейкали, ибо кому будет 4.8% годовых в дефляционной валюте лишними.

Спрашивают про ИИ. Я говорю: интеллект. Чего тут, господи помилуй, еще обсуждать? Какие могут пространные дискуссии? В ответ что угодно: душа, мозги, даже, говорят, без мяса не может быть интеллекта. Но интеллект это решение проблем. Может тебе песню спеть и анекдот рассказать. А можешь напрячься и сделать агента, который какой-нибудь бизнес-процесс автоматизирует.

Но ответ тот же: как же так! это же жопу с дивана надо поднимать! а у меня вот не работает! а чо так дорого? Я это называю сектантство — убежденность в истине своей картины мира просто потому что, без явной или скрытой логики. И Бог бы с ними, но ведь люди часто неглупые такие вещи говорят.

А вот почему: они — операторы. Оператор это тот, кто получает удовольствие управляя бизнесом, который десятилетиями производит абсолютно одинаковые шоколадки, лепит одинаковые макбургеры и добывает уголь тем же способом, что деды при Николае II. Такое тоже нужно, кстати, так что никакого неуважения.

Но я для себя давно понял, что мне принципиально не интересно думать о любой технологии, которая уже работает (DeFi был интересен в 2018 но не сегодня); бессмысленно решать проблемы, которые кто-то уже решил; скучно обсасывать вчерашние новости и доступные любому решения, потому что свой вклад в будущее человечество они уже внесли. От нас тут больше ничего не зависит. Операторы поднимут и втиснут это во все места, где это имеет смысл.

Нам же остается будущее. А думая про то как с помощью ИИ увеличить продажи мы впадаем в темпоральный конфуз. Мы решаем то, что уже решено и без нас.
Если бы Кен Уилбер был GP венчурного фонда...

Note that there's no clear borders. Правая половина (почти) всегда строится на левой.

1. Most of robotics will have AI component to make decisions, actions. etc.
2. Most network state will use web3 infra for money, voting, etc.
GPT5?

Вчера было 8+ часов звонков нон-стоп и я пропустил весь хайп про Q*

Кто не в курсе: есть теория заговора гипотеза, что одной из причин увольнения Альтмана был якобы какой-то лютый прогресс в работе над новой моделью, который скрыли от борда.

И якобы эта модель работает не через авторегрессию (генерация исключительно следующего токена в тексте), а через планирование и контроль, то есть модель сначала думает, а потом говорит.

И, более того, якобы это обучено на архитектуре на основе архитектуры Q-Learning, то есть когда модель (агент) учится исследуя мир вокруг и получая подкрепление (reinforcement learning) делая более "правильные" действия. Так примерно работают модели типа AlphaGo или AlphaStar, которые учатся с нуля играть в сложные игры. Если у LLM, как у самурая, есть только путь (они не знает какое слово будет следующим в предложении), то у таких моделей есть целеполагание, что, в целом, классная фича.

Ну а "*" потенциально относится к алгоритму поиска под названием "A*", который очень эффективно позволяет найти кратчайший путь до цели. Например, в случае, когда сложная математическая задача делится на кучу промежуточных шагов и логических выводов.

Честно говоря, это первый раз в истории, когда интернет умудрился восстановить архитектуру ML модели исключительно по названию, но интернет любит теории заговора и шизотерику.

Я не сомневаюсь, что OAI, Google, Meta и все остальные безусловно работают над моделями, которые могут самообучаться и планировать решение задач. Наверняка у OAI даже есть проект с таким названием, но насколько он работает и для каких задач мы пока ничего не знаем.

Почитать больше теорий и мемов от ML-тусовки можно, например, тут.
Будущее ритейла и маркетинга с ИИ

Очень интересный скриншот(от классного автора) про будущее ритейла.

Дано: теперь у каждого человека на планете есть личный ассистент, который, например, во время распродажи может по скриншоту или фотографии из магазина оценить качество бренда и то насколько скидка на ценнике является истинной по сравнению с оригинальной ценой. Это не требует никакой когнитивной нагрузки на покупателя, но приводит к выравниванию рынка: теперь много маркетинговых ходов (типа завысить цену и поставить огромную скидку) работать не будут.

С другой стороны, открывается новый класс продуктов в маркетинге под названием AIO (Artificial Intelligence Optimization), где используя трюки, промт инжекшен (третий скриншот) специалисты могут умышленно повышать качество ответа ассистентов для своих владельцев-покупателей.

Это я уже не говорю про то, что SEO как индустрия фактически переросла в индустрию по генерации текстов на лету, как для людей, так и для краулеров.
Прекрасный слайд от Виталика на конфе о программируемой криптографии. Доклад называется d/acc, речь о defensive / decentralized accelerationism.

Но именно мне понравилась правая часть графика. Очень ёмко описывает парадигму совеременной цифровой безопаности.

Если мы знаем кто атакующий, то это кибербезопасность (крипта и прочий SSL, аудит, пентест, стандартный набор).

Если мы не знаем кто атакующий, то это инфобезопаность, то есть попытка выяснить истину (например, x.com community notes и алгоритмы консенсуса)
Андрей Карпаты (один из ключевых людей в OpenAI) недавно записал часовую лекцию про то, как работают LLM (большие языковые модели типа GPT-4), какие у них ограничения и какие перспективы.

В этом видео настолько хорошо все объясняется, что если раньше ChatGPT казался мне магией, то теперь мне кажется, что я примерно понял, как он работает и какие у него ограничения. За три дня видео посмотрели уже 500 тысяч раз, поэтому я решил упороться и сделать его выжимку на русском языке на VC.

Потратил несколько часов, поэтому большая просьба: поставьте, пожалуйста, сердечко на VC, чтобы статью увидело больше людей!

https://vc.ru/chatgpt/931112-vvedenie-v-llm-dlya-teh-kto-vse-propustil-vyzhimka-video-andreya-karpaty-so-osnovatelya-openai

PS. Также можете писать здесь в комменты, если найдете какие-то опечатки или косяки
Теперь и вы можете написать экспериментальный джаз пост-панк хит сидя на скучном зум звонке!
Зайчата
Dreams and Robots
Как получить от Суно законченную песню с нужной вам структурой:

1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и куплете разные размеры, то Суно будет проще придумать между ними переходы. Между соседними куплетами вставляйте пустую строку, получится пауза.

2. Ударения в словах можно выделять большой буквой, вот так: "ПоросЯтам". Когда это не работает, измените само слово: вместо "прямЫ" напишите "примЫ". Иногда помогает разбить слово на две части, вместо "элЕктрогенератор" написать "элЕктро генерАтор".

3. В круглых скобках можно добавлять бэк-вокал. Неплохо работают звуки типа (О-о-о, у-у-у-у).

4. Размечайте песню тегами. Точно работают: [Verse], [Chorus], [Bridge], [Solo]. К Соло иногда можно добавлять конкретику, например [Piano solo], но это может изменить инструменты всей песни. [Coda] помогает сделать концовку. С переменным успехом у меня работали [Calm] и [Aggressive]. Надо экспериментировать с другими тегами в квадратных скобках.

5. Иногда можно кастомизировать жанр, добавляя слова типа Energetic, Rhythmic, Aggressive, Slow, Fast. Обязательно пишите With Female/Male vocals, чтобы избежать инструментала и указать пол певца (тоже не всегда срабатывает). Разработчики не рекомендуют смешивать разные жанры, но, например, Chiptune Punk мне очень зашёл.

6. Максимальный размер одной генерации 1:20. Когда вам понравился кусок, выбирайте меню с тремя точками и пункт "Continue fom this clip". В тексте оставьте только те строки, которые не влезли в прошлый фрагмент, и нажимайте Generate. Так можно делать несколько раз, например у вас может быть три-четыре таких последовательных фрагмента. В самом конце в меню выбирайте пункт "Get Whole Song" и песня склеится из всех фрагментов.

К сожалению нельзя перегенерировать только кусок песни, поменяв что-то локально в тексте. Поэтому приходится прощать мелкие ошибки или править результат в вашем DAW.

Песни пишутся здесь в пункте Create (Custom):
https://app.suno.ai/

#suno
Всегда сложно сделать выбор, что читать, когда вокруг так много бизнес-книг.

Павел Анненков — предприниматель и инвестор с 19-летним опытом сам ведет Telegram канал, где пишет обзоры на лучшие бизнес-книги и нон-фикшн литературу. А еще делится своим опытом и идеями для развития бизнеса.

Теперь вы точно будете знать, что важно прочитать и при этом не потратить время впустую на проходные и неинтересные книги.

Это не типичный канал с банальными и заезженными книгами и советами. Загляните и убедитесь в этом сами — ANNENKOV_ideas_and_books

#реклама
О приватном и децентрализованном ИИ (бизнес-кейсы использования)

Цель ИИ — принести нам избыток, пост-дефицит, в тысячи раз увеличив объём интеллекта на планете. Крипта же, наоборот, про строгость ограничения, про защиту данных, денег и гарантию приватности.

Последние полгода я периодически пишу о соединении технологий искусственного интеллекта и крипты (криптографии). Сегодня говорим о применимости ZKML (zero-knowledge machine learning), то есть технологии запуска ИИ моделей с гарантией неразглашения информации.

Глобально у нас есть три способа использования ML/AI в приватной форме для решения различных задач.

1) Вы продаёте доступ к модели, сохраняя её приватной

— маркетплейс моделей (я сделал GPT для грибников, продам один вызов за $0.001) и маркетплейс файн-тьюнингов и Лор (я натьюнил модель генерировать красивое видео или писать стихи в стиле Пушкина, продаю каждый вызов). В обоих случаях веса модели остаются приватными, но покупатель получает криптографическую гарантию что это именно та модель.

— маркетплейс данных для тренировки (я даю вам возможность использовать свои данные для тренировки модели, но вы ни в один момент времени не видите данные)

— доказательство аутентичности генерации (я могу доказать (всегда в этом посте слово “доказать” значит сгенерировать математический zk proof) что эта картинка или текст созданы именно моей моделью именно сейчас)

2) Публичные модели с публичными данными aka trustless AI

Это доказуемые ML алгоритмы в публичных сервисах. Например:

— использование нейронок для торговых стратегий ончейн без разглашения стратегии, но с возможностью доказать любые параметры этой стратегии (в тусовке такое называют zkAMM)

— использование нейронок для генерации рекомендаций (например, в децентрализованных социальных сетях) с возможностью аудировать, но не манипулировать алгоритмом

3) Приватность данных

Отправляя в публичные модели zk пруфы вместо сырых данных, вы получаете:

— Гарантию аутентификации без разглашения. Например, Worldcoin орбы Альтмана работают именно так: ваши биометрически данные исполняются в нейронке, но ни она, ни владельцы сервиса не видят сырые данные

— Обработка приватных данных в облаке. Вы можете загрузить zk proof от текста / отчета / договора в облако, его обработает нейронка, но сам этот текст никогда физически не покинет пределы вашего компьютера
Вы обязаны это попробовать!

SDXL turbo умеет генерировать картинки уровня типичной модели SD/MJ, но делает это в один шаг, то есть меньше чем за секунду. Разрывает мозг.

Напомню, ровно 2 года назад вершиной диффузионок было сгенерировать размытую 64х64 пикселя фотку собаки. Сегодня вот это. Это как прогресс от телеграфа до айфона с 5G, но за пару лет.

То же самое нас ждет с другими модальностями, затем мультимодалками, затем агентами.

Бесплатно пробуем тут: https://clipdrop.co/stable-diffusion-turbo

Сама модель тут: https://huggingface.co/stabilityai/sdxl-turbo
This media is not supported in your browser
VIEW IN TELEGRAM
Запись с экрана в реальном времени
Если картинок в одну итерацию вам мало, то вот вам сервис для создания полноценных видео по промту. Сам себе режиссер 2.0. Ну, и целая планета режиссеров.

Очередное проявление post-scarcity. Но это не значит что конец экономики настанет мгновенно:

ИИ куда быстрее (по очевидным причинам) решил задачу создания топовой музыки, картин, рассказов, видео, мультфильмов лучше, чем задачи менеджмента, распределения ресурсов или уборки помещений.

Pika вышла вчера, генерировать можно бесплатно, но возможен вайтлист на регистрацию.
2024/10/03 23:17:40
Back to Top
HTML Embed Code: