Telegram Web Link
Эксперимент, который несколько лет назад привлек мое внимание, сейчас повторили в более строгих условиях и на большей выборке.
Суть дела: дать человеку механический шестой палец на руке с управлением от датчиков, скажем, где-то под пяткой ноги. Никаких ИИ и инвазивных операций.
Смысл: изучить, насколько быстро и насколько массово мозг людей справится с изменением телесной архитектуры и начнет использовать новые расширенные возможности тела на рефлекторном уровне.
Выборка: 596 людей разного возраста, образования и т.д.
Результат: лишь 13 из 596 не сумели освоиться с новой телесной возможностью. Исследователи очередной раз подтвердили, что мозг легко справляется; так что технологические расширения наших тел (например, экзоскелеты всех сортов) могут быть вполне массовыми и легко осваиваемыми. Хотя, следуя моде, авторы в основном обсуждают, что во всех таких устройствах инклюзивность должна быть заложена by design, а не то, насколько легко и просто стать киборгом:)
https://www.inverse.com/health/third-thumb-study
Я уже ссылался на TEDовскую лекцию Мустафы Сулеймана, Microsoft AI CEO, в которой он призывает найти более адекватное описание ИИ, чем просто “еще один инструмент”. Там он предлагал слово species, существа (хотя и цифровые) — и это вызвало многочисленные гневные отповеди 🙂
Но вот еще человек из важнейшей в разработке ИИ компании, Anthropic, во многом не разделяющей взглядов и подходов Microsoft, в подкасте говорит, что создание современных моделей куда больше похоже на выращивание растений или воспитание животных, чем на инженерного типа разработку софта прежних времен. И, конечно, в каменты приходят очередные “эксперты” с неумными отповедями.
Но тренд формируется интересный, как и неожиданное единодушие:)
https://www.youtube.com/watch?v=jqdoauxvKUM
(Ссылка на пост про лекцию Сулеймана)
https://www.tg-me.com/techsparks/4471
Красивый креативный эксперимент Гугла — в коллаборации с художниками. Отчасти это и демонстрация того, как художники, которые хотят использовать новые инструменты, а не бороться с ними, могут работать по-новому. Задача, за которую взялись четверо художников состояла в графическом переосмыслении “Алисы в стране чудес” - и заодно сравнении результата с каноническими иллюстрациями. Использовалась модель Imagen2, но участникам проекта дали доступ к еще разрабатываемому инструменту StyleDrop. Он позволял авторам настроить модель на работу в их собственном стиле.
В итоге получился интерактивный проект Infinite Wonderland, в котором читатель может кликать на любой абзац текста - и получать иллюстрацию к нему в стиле каждого из художников-участников.
Сам проект можно пощупать здесь — но в зависимости от географии возможности поиграться будут разные. А периодически он просто глючит и подгружает заранее сгенеренные картинки невпопад -- но хотя бы честно об этом предупреждает.
Один из художников, принимавших участие в эксперименте Гугла из предыдущего поста, заметил: “Ultimately, yes, we’re gonna have this democratization of image-making” — но при этом без тени осуждения.
Многих же других представителей креативного класса эта перспектива пугает. Вот снова отметились музыканты. На днях руководитель Spotify в связи с отчетом о хорошей (более миллиарда евро) прибыли в первом квартале 2024, написал: Today, with the cost of creating content being close to zero, people can share an incredible amount of content.
Дальше он ушел в обсуждение того, как это скажется на создании произведений на века — но музыканты вцепились в точное по сути, но обидное для них утверждение о стремящейся к нулю стоимости производства контента. Our art is not your fucking 'content' — возмутились музыканты. Для них это, безусловно, так. Но, боюсь, начальство Спотифая гораздо лучше представляет и не слишком идеализирует своих пользователей.
В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;)
Ну а так-то да, норм маркетинг, это действительно впервые в мире :))
https://youtu.be/nx2YO3twZYs
Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе.
Сама статья - https://arxiv.org/abs/2405.17009
Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ

Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.

Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.

Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.

Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)

Сам пейпер тут:
https://arxiv.org/abs/2404.18739
За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:)
YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :)
В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня.
Сайт фестиваля https://yandex.ru/youngcon/
Форма для регистрации — https://clck.ru/3B6opv
Forwarded from Dendi Math&AI (Денис Димитров)
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову!
Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира.
А вот фильм, который в заметке хвалят, мне совсем не понравился.
https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/
Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми.
Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))
Apple — знатные тролли. За первые шестьдесят шесть минут презентации — ни единого упоминания ИИ, почти косметические улучшения своих продуктов в новых версиях всех ОС. Народ в коментах разных канальчиков весь желчью изошелся, комментируя отсталость и отстойность Apple. Честно скажу — сам на силе воле дотерпел до этой 66-минуты.
Но зато последующие 36 были целиком только про AI, который в этом контексте теперь исключительно Apple Intelligence, а не Artificial.
Главные пункты все те, которые были в утечках: и про альянс с ChatGPT, когда требуется что-то серьезное на серверной стороне, и про упор на приватность — из которого вытекает масса фич, реализованных прямо на устройстве.
Но мы узнали много деталей про Сири, и она действительно становится такой умной хозяйкой устройства, которая помогает им управлять, которая имеет доступ внутрь приложений, держит контекст диалога, которая — очень простая вроде бы, но очень сильная фишка — олицетворяет интерактивный саппорт, может подсказать что угодно про работу с устройством и приложениями, как бы коряво не был сформулирован вопрос. Понятно, что в таком сценарии нет никаких галлюцинаций, зато это очень хорошо приучает к новому типу интерфейса. Красивый первый шаг на пути к новым интеллектуальным интерфейсам.
Но все это не завтра. Часть фичей раскатят до конца года, а, например, неанглийские языки — и вовсе в следующем году.
Но теперь за эволюцией эппловой экосистемы станет сильно интересно следить: если сдержат все обещания — это действительно принципиальное обновление работы с устройствами и новый лидер.
И да, в итоге это лучший киноут WWDC за много лет:)
https://www.macrumors.com/2024/06/10/apple-intelligence-generative-personal-ai-unveiled-for-iphone-ipad-and-mac/
2024/06/28 14:44:37
Back to Top
HTML Embed Code: