Telegram Web Link
В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;)
Ну а так-то да, норм маркетинг, это действительно впервые в мире :))
https://youtu.be/nx2YO3twZYs
Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе.
Сама статья - https://arxiv.org/abs/2405.17009
Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ

Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.

Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.

Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.

Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)

Сам пейпер тут:
https://arxiv.org/abs/2404.18739
За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:)
YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :)
В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня.
Сайт фестиваля https://yandex.ru/youngcon/
Форма для регистрации — https://clck.ru/3B6opv
Forwarded from Dendi Math&AI (Денис Димитров)
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову!
Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира.
А вот фильм, который в заметке хвалят, мне совсем не понравился.
https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/
Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми.
Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))
Apple — знатные тролли. За первые шестьдесят шесть минут презентации — ни единого упоминания ИИ, почти косметические улучшения своих продуктов в новых версиях всех ОС. Народ в коментах разных канальчиков весь желчью изошелся, комментируя отсталость и отстойность Apple. Честно скажу — сам на силе воле дотерпел до этой 66-минуты.
Но зато последующие 36 были целиком только про AI, который в этом контексте теперь исключительно Apple Intelligence, а не Artificial.
Главные пункты все те, которые были в утечках: и про альянс с ChatGPT, когда требуется что-то серьезное на серверной стороне, и про упор на приватность — из которого вытекает масса фич, реализованных прямо на устройстве.
Но мы узнали много деталей про Сири, и она действительно становится такой умной хозяйкой устройства, которая помогает им управлять, которая имеет доступ внутрь приложений, держит контекст диалога, которая — очень простая вроде бы, но очень сильная фишка — олицетворяет интерактивный саппорт, может подсказать что угодно про работу с устройством и приложениями, как бы коряво не был сформулирован вопрос. Понятно, что в таком сценарии нет никаких галлюцинаций, зато это очень хорошо приучает к новому типу интерфейса. Красивый первый шаг на пути к новым интеллектуальным интерфейсам.
Но все это не завтра. Часть фичей раскатят до конца года, а, например, неанглийские языки — и вовсе в следующем году.
Но теперь за эволюцией эппловой экосистемы станет сильно интересно следить: если сдержат все обещания — это действительно принципиальное обновление работы с устройствами и новый лидер.
И да, в итоге это лучший киноут WWDC за много лет:)
https://www.macrumors.com/2024/06/10/apple-intelligence-generative-personal-ai-unveiled-for-iphone-ipad-and-mac/
Вообще, спасибо Apple, может больше начнет публика обращать внимание, что прогресс ИИ — это вовсе не гонка языковых моделей, и не бесконечные чат-боты, — а сложная, медленная, глубокая интеграция новых алгоритмов в самые разные продукты.
Вот, кстати, два почти совпавших по времени интересных материала на тему «ИИ в образовании».
В Индии создали то, что без лишней скромности обозвали the world’s first autonomous AI university professor. Эта довольно милая дама, рожденная в стартапе HaiVE, от языковых моделей взяла умение общаться, но информацией оперирует не из интернета вообще, а из всего корпуса инженерных курсов университета. Как и в случае с поиском, это решает проблему галлюцинаций, а контекст и индивидуальная история каждого студента обеспечивает вожделенную персонализацию. (Если вспомнить сегодняшнюю презентацию Apple, Malar — такая Сири, сведущая не в операционках, а в учебных материалах по определенным дисциплинам). Как и должно быть, под капотом работает не одна модель, а ансамбль специализированных. Стартап хвастается, что у него почти 200 000 пользователей при DAU в 30 000: очень достойно для локального применения в одном университете.
Но локальность — это черта конкретного продукта. А вообще, как замечает колумнист Форбса, умный EdTech позволит избавиться от троечников — в том смысле, что их успехи сильно вырастут, ибо сейчас их неуспеваемость часто связана с недостатком персонального внимания и единым темпом прохождения материала. «Автономные профессора» с этим помогут разобраться в любых масштабах, которые готова принять академическая среда.
Forwarded from Грокс (Ilya Pestov)
Кажется, китайцы первыми добьются коммерческого успеха в роботакси, причём сделает это не DiDi, а Baidu. Представители последней заявили, что подразделение Apollo Go в следующем году станет прибыльным. За последний квартал 2023 году Apollo Go осуществила более 839 000 поездок, при этом около 45% заказов в Ухане были полностью беспилотными. Компания объявила, что роботакси Apollo 6-го поколения будет стоить около 200 000 юаней (28 169 долларов США) — или менее половины стоимости предыдущего поколения. «Благодаря снижению затрат и увеличению заказов юнит-экономика Apollo Go приближается к точке безубыточности, ожидается, что она достигнет баланса в четвертом квартале 2024 года и станет прибыльной к 2025 году», — говорится в пресс-релизе Baidu. Важно подчеркнуть, что успех китайцев обусловлен не только технологическими инновациями, но и законодательными — если не выпускать беспилотники в города и обучать их строго на автодромах, то ездить в реальных условиях они не научатся.

https://www.cnbc.com/2024/05/15/baidus-robotaxi-unit-expects-to-turn-profitable-next-year.html
Впечатляющий макроэффект производства микропроцессоров:) Intel строит новый свой завод в Огайо, а оборудование для производства оказывается весьма громоздким, весит сотни тонн — и одновременно хрупкое. В результате его транспортировка где возможно идет по воде, но в итоге приходится все же последние 150 миль от речного порта везти по шоссе.
Грузовики с негабаритным грузом движутся со скоростью 10-15 км/час, собирая за собой многокилометровые пробки: на двухполосной трассе такой груз занимает обе полосы.
Проблемы у тамошних водителей продлятся 9 дней, а вот потом штат получит немало выгод от такого производства на своей территории.
https://www.tomshardware.com/pc-components/cpus/intel-is-trucking-a-916000-pound-super-load-across-ohio-to-its-new-fab-spawning-road-closures-over-nine-days
Промпт-инженеры как отдельная профессия вряд ли появятся, а вот умение работать с промптами уже стало полезным и массово востребованным навыком, и как минимум какое-то время таковым останется.
Как любой навык, его надо практиковать и оттачивать регулярными тренировками, но все ж и теорию немного знать полезно хотя бы ради того, чтоб знать, куда при нужде подглядывать.
Посему вот вам довольно фундаментальный труд, собравший a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
Семьдесят шесть страниц текста, богатая библиография; разок полезно самому прочитать, а дальше пусть с ним любимая модель работает, когда вопрос возникает.
https://arxiv.org/abs/2406.06608
2024/06/30 21:51:44
Back to Top
HTML Embed Code: