Telegram Web Link
Развитие дисплеев для AR и VR очков наряду к концепцией spatial computing привело к появлению очевидного нового класса устройств — безэкранные ноутбуки. Штука не массовая, но кому часто приходится летать и пытаться нормально работать на полноразмерном ноутбуке в салоне эконом-класса — тот оценит!
Концепция дошла до уровня приема предзаказов на устройства Spacetop G1 с обещанием доставки в октябре.
Казалось бы, несложно заменить экран на крышке на экран в очках — но на деле все сложней и интересней, потому о целая статья по ссылке, а не просто короткая новостная заметка.
https://www.wired.com/story/sightful-spacetop-g1-augmented-reality-laptop/
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам под выходные немножко технооптимизма:) Меня обзывают оголтелым технооптимистом — но до Винода Хослы (почти моего ровесника, кстати) мне далеко. И он не диванный эксперт и мечтатель: успешный и предприниматель, и инвестор, он не просто треплется —
он делает и финансирует. Весьма успешно. Он на протяжении 40 лет успешно практикует то, что декларирует: вместо типичных для «экспертов» тупых экстраполяций — парадоксальные, но выполнимые сценарии.
За 10 минут своей зажигательной TED-речи он рассказывает и о ИИ для всех (в учебе, медицине, творчестве), и о городах без автотранспорта, и о миллиардах человекоподобных и универсально умелых роботов… И еще много о чем: 12 красивых идей.
Поднимите себе настроение:)
https://www.ted.com/talks/vinod_khosla_12_predictions_for_the_future_of_technology
Эксперимент, который несколько лет назад привлек мое внимание, сейчас повторили в более строгих условиях и на большей выборке.
Суть дела: дать человеку механический шестой палец на руке с управлением от датчиков, скажем, где-то под пяткой ноги. Никаких ИИ и инвазивных операций.
Смысл: изучить, насколько быстро и насколько массово мозг людей справится с изменением телесной архитектуры и начнет использовать новые расширенные возможности тела на рефлекторном уровне.
Выборка: 596 людей разного возраста, образования и т.д.
Результат: лишь 13 из 596 не сумели освоиться с новой телесной возможностью. Исследователи очередной раз подтвердили, что мозг легко справляется; так что технологические расширения наших тел (например, экзоскелеты всех сортов) могут быть вполне массовыми и легко осваиваемыми. Хотя, следуя моде, авторы в основном обсуждают, что во всех таких устройствах инклюзивность должна быть заложена by design, а не то, насколько легко и просто стать киборгом:)
https://www.inverse.com/health/third-thumb-study
Я уже ссылался на TEDовскую лекцию Мустафы Сулеймана, Microsoft AI CEO, в которой он призывает найти более адекватное описание ИИ, чем просто “еще один инструмент”. Там он предлагал слово species, существа (хотя и цифровые) — и это вызвало многочисленные гневные отповеди 🙂
Но вот еще человек из важнейшей в разработке ИИ компании, Anthropic, во многом не разделяющей взглядов и подходов Microsoft, в подкасте говорит, что создание современных моделей куда больше похоже на выращивание растений или воспитание животных, чем на инженерного типа разработку софта прежних времен. И, конечно, в каменты приходят очередные “эксперты” с неумными отповедями.
Но тренд формируется интересный, как и неожиданное единодушие:)
https://www.youtube.com/watch?v=jqdoauxvKUM
(Ссылка на пост про лекцию Сулеймана)
https://www.tg-me.com/techsparks/4471
Красивый креативный эксперимент Гугла — в коллаборации с художниками. Отчасти это и демонстрация того, как художники, которые хотят использовать новые инструменты, а не бороться с ними, могут работать по-новому. Задача, за которую взялись четверо художников состояла в графическом переосмыслении “Алисы в стране чудес” - и заодно сравнении результата с каноническими иллюстрациями. Использовалась модель Imagen2, но участникам проекта дали доступ к еще разрабатываемому инструменту StyleDrop. Он позволял авторам настроить модель на работу в их собственном стиле.
В итоге получился интерактивный проект Infinite Wonderland, в котором читатель может кликать на любой абзац текста - и получать иллюстрацию к нему в стиле каждого из художников-участников.
Сам проект можно пощупать здесь — но в зависимости от географии возможности поиграться будут разные. А периодически он просто глючит и подгружает заранее сгенеренные картинки невпопад -- но хотя бы честно об этом предупреждает.
Один из художников, принимавших участие в эксперименте Гугла из предыдущего поста, заметил: “Ultimately, yes, we’re gonna have this democratization of image-making” — но при этом без тени осуждения.
Многих же других представителей креативного класса эта перспектива пугает. Вот снова отметились музыканты. На днях руководитель Spotify в связи с отчетом о хорошей (более миллиарда евро) прибыли в первом квартале 2024, написал: Today, with the cost of creating content being close to zero, people can share an incredible amount of content.
Дальше он ушел в обсуждение того, как это скажется на создании произведений на века — но музыканты вцепились в точное по сути, но обидное для них утверждение о стремящейся к нулю стоимости производства контента. Our art is not your fucking 'content' — возмутились музыканты. Для них это, безусловно, так. Но, боюсь, начальство Спотифая гораздо лучше представляет и не слишком идеализирует своих пользователей.
В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;)
Ну а так-то да, норм маркетинг, это действительно впервые в мире :))
https://youtu.be/nx2YO3twZYs
Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе.
Сама статья - https://arxiv.org/abs/2405.17009
Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ

Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.

Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.

Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.

Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)

Сам пейпер тут:
https://arxiv.org/abs/2404.18739
За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:)
YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :)
В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня.
Сайт фестиваля https://yandex.ru/youngcon/
Форма для регистрации — https://clck.ru/3B6opv
Forwarded from Dendi Math&AI (Денис Димитров)
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
2024/10/02 00:40:29
Back to Top
HTML Embed Code: