В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;)
Ну а так-то да, норм маркетинг, это действительно впервые в мире :))
https://youtu.be/nx2YO3twZYs
Ну а так-то да, норм маркетинг, это действительно впервые в мире :))
https://youtu.be/nx2YO3twZYs
YouTube
Meet XBot-L, the first humanoid robot to climb the Great Wall
As the old adage goes, one cannot claim to be a true man without a visit to the Great Wall of China.
XBot-L, a full-sized humanoid robot developed by Robot Era, recently acquitted itself well in a walk along sections of the Great Wall.
Robot Era staff took…
XBot-L, a full-sized humanoid robot developed by Robot Era, recently acquitted itself well in a walk along sections of the Great Wall.
Robot Era staff took…
Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе.
Сама статья - https://arxiv.org/abs/2405.17009
Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/
Сама статья - https://arxiv.org/abs/2405.17009
Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/
Forwarded from Denis Sexy IT 🤖
Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ
Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.
Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.
Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.
Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)
Сам пейпер тут:
https://arxiv.org/abs/2404.18739
Межвидовая коммуникация и АИ
Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.
Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.
Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.
Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)
Сам пейпер тут:
https://arxiv.org/abs/2404.18739
arXiv.org
Towards Dog Bark Decoding: Leveraging Human Speech Processing for...
Similar to humans, animals make extensive use of verbal and non-verbal forms of communication, including a large range of audio signals. In this paper, we address dog vocalizations and explore the...
За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:)
YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :)
В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня.
Сайт фестиваля https://yandex.ru/youngcon/
Форма для регистрации — https://clck.ru/3B6opv
YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :)
В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня.
Сайт фестиваля https://yandex.ru/youngcon/
Форма для регистрации — https://clck.ru/3B6opv
Forwarded from Dendi Math&AI (Денис Димитров)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!
Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).
Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.
Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).
Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.
Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)
@dendi_math_ai
Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).
Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.
Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).
Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.
Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)
@dendi_math_ai
У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову!
Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира.
А вот фильм, который в заметке хвалят, мне совсем не понравился.
https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/
Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира.
А вот фильм, который в заметке хвалят, мне совсем не понравился.
https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/
VentureBeat
Tetris turns 40 with a grand old party | The DeanBeat
At 40 years old, Tetris is one of those games you never get tired of. You grow up with it and pass it on as tradition to bring joy to a new generation.
Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми.
Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))
Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))
Apple — знатные тролли. За первые шестьдесят шесть минут презентации — ни единого упоминания ИИ, почти косметические улучшения своих продуктов в новых версиях всех ОС. Народ в коментах разных канальчиков весь желчью изошелся, комментируя отсталость и отстойность Apple. Честно скажу — сам на силе воле дотерпел до этой 66-минуты.
Но зато последующие 36 были целиком только про AI, который в этом контексте теперь исключительно Apple Intelligence, а не Artificial.
Главные пункты все те, которые были в утечках: и про альянс с ChatGPT, когда требуется что-то серьезное на серверной стороне, и про упор на приватность — из которого вытекает масса фич, реализованных прямо на устройстве.
Но мы узнали много деталей про Сири, и она действительно становится такой умной хозяйкой устройства, которая помогает им управлять, которая имеет доступ внутрь приложений, держит контекст диалога, которая — очень простая вроде бы, но очень сильная фишка — олицетворяет интерактивный саппорт, может подсказать что угодно про работу с устройством и приложениями, как бы коряво не был сформулирован вопрос. Понятно, что в таком сценарии нет никаких галлюцинаций, зато это очень хорошо приучает к новому типу интерфейса. Красивый первый шаг на пути к новым интеллектуальным интерфейсам.
Но все это не завтра. Часть фичей раскатят до конца года, а, например, неанглийские языки — и вовсе в следующем году.
Но теперь за эволюцией эппловой экосистемы станет сильно интересно следить: если сдержат все обещания — это действительно принципиальное обновление работы с устройствами и новый лидер.
И да, в итоге это лучший киноут WWDC за много лет:)
https://www.macrumors.com/2024/06/10/apple-intelligence-generative-personal-ai-unveiled-for-iphone-ipad-and-mac/
Но зато последующие 36 были целиком только про AI, который в этом контексте теперь исключительно Apple Intelligence, а не Artificial.
Главные пункты все те, которые были в утечках: и про альянс с ChatGPT, когда требуется что-то серьезное на серверной стороне, и про упор на приватность — из которого вытекает масса фич, реализованных прямо на устройстве.
Но мы узнали много деталей про Сири, и она действительно становится такой умной хозяйкой устройства, которая помогает им управлять, которая имеет доступ внутрь приложений, держит контекст диалога, которая — очень простая вроде бы, но очень сильная фишка — олицетворяет интерактивный саппорт, может подсказать что угодно про работу с устройством и приложениями, как бы коряво не был сформулирован вопрос. Понятно, что в таком сценарии нет никаких галлюцинаций, зато это очень хорошо приучает к новому типу интерфейса. Красивый первый шаг на пути к новым интеллектуальным интерфейсам.
Но все это не завтра. Часть фичей раскатят до конца года, а, например, неанглийские языки — и вовсе в следующем году.
Но теперь за эволюцией эппловой экосистемы станет сильно интересно следить: если сдержат все обещания — это действительно принципиальное обновление работы с устройствами и новый лидер.
И да, в итоге это лучший киноут WWDC за много лет:)
https://www.macrumors.com/2024/06/10/apple-intelligence-generative-personal-ai-unveiled-for-iphone-ipad-and-mac/
MacRumors
'Apple Intelligence' Personal AI Unveiled for iPhone, iPad, and Mac
Apple at WWDC today announced Apple Intelligence, a deeply integrated, personalized AI experience for Apple devices that uses cutting-edge generative...
Вообще, спасибо Apple, может больше начнет публика обращать внимание, что прогресс ИИ — это вовсе не гонка языковых моделей, и не бесконечные чат-боты, — а сложная, медленная, глубокая интеграция новых алгоритмов в самые разные продукты.
Вот, кстати, два почти совпавших по времени интересных материала на тему «ИИ в образовании».
В Индии создали то, что без лишней скромности обозвали the world’s first autonomous AI university professor. Эта довольно милая дама, рожденная в стартапе HaiVE, от языковых моделей взяла умение общаться, но информацией оперирует не из интернета вообще, а из всего корпуса инженерных курсов университета. Как и в случае с поиском, это решает проблему галлюцинаций, а контекст и индивидуальная история каждого студента обеспечивает вожделенную персонализацию. (Если вспомнить сегодняшнюю презентацию Apple, Malar — такая Сири, сведущая не в операционках, а в учебных материалах по определенным дисциплинам). Как и должно быть, под капотом работает не одна модель, а ансамбль специализированных. Стартап хвастается, что у него почти 200 000 пользователей при DAU в 30 000: очень достойно для локального применения в одном университете.
Но локальность — это черта конкретного продукта. А вообще, как замечает колумнист Форбса, умный EdTech позволит избавиться от троечников — в том смысле, что их успехи сильно вырастут, ибо сейчас их неуспеваемость часто связана с недостатком персонального внимания и единым темпом прохождения материала. «Автономные профессора» с этим помогут разобраться в любых масштабах, которые готова принять академическая среда.
Вот, кстати, два почти совпавших по времени интересных материала на тему «ИИ в образовании».
В Индии создали то, что без лишней скромности обозвали the world’s first autonomous AI university professor. Эта довольно милая дама, рожденная в стартапе HaiVE, от языковых моделей взяла умение общаться, но информацией оперирует не из интернета вообще, а из всего корпуса инженерных курсов университета. Как и в случае с поиском, это решает проблему галлюцинаций, а контекст и индивидуальная история каждого студента обеспечивает вожделенную персонализацию. (Если вспомнить сегодняшнюю презентацию Apple, Malar — такая Сири, сведущая не в операционках, а в учебных материалах по определенным дисциплинам). Как и должно быть, под капотом работает не одна модель, а ансамбль специализированных. Стартап хвастается, что у него почти 200 000 пользователей при DAU в 30 000: очень достойно для локального применения в одном университете.
Но локальность — это черта конкретного продукта. А вообще, как замечает колумнист Форбса, умный EdTech позволит избавиться от троечников — в том смысле, что их успехи сильно вырастут, ибо сейчас их неуспеваемость часто связана с недостатком персонального внимания и единым темпом прохождения материала. «Автономные профессора» с этим помогут разобраться в любых масштабах, которые готова принять академическая среда.
Forwarded from Грокс (Ilya Pestov)
Кажется, китайцы первыми добьются коммерческого успеха в роботакси, причём сделает это не DiDi, а Baidu. Представители последней заявили, что подразделение Apollo Go в следующем году станет прибыльным. За последний квартал 2023 году Apollo Go осуществила более 839 000 поездок, при этом около 45% заказов в Ухане были полностью беспилотными. Компания объявила, что роботакси Apollo 6-го поколения будет стоить около 200 000 юаней (28 169 долларов США) — или менее половины стоимости предыдущего поколения. «Благодаря снижению затрат и увеличению заказов юнит-экономика Apollo Go приближается к точке безубыточности, ожидается, что она достигнет баланса в четвертом квартале 2024 года и станет прибыльной к 2025 году», — говорится в пресс-релизе Baidu. Важно подчеркнуть, что успех китайцев обусловлен не только технологическими инновациями, но и законодательными — если не выпускать беспилотники в города и обучать их строго на автодромах, то ездить в реальных условиях они не научатся.
https://www.cnbc.com/2024/05/15/baidus-robotaxi-unit-expects-to-turn-profitable-next-year.html
https://www.cnbc.com/2024/05/15/baidus-robotaxi-unit-expects-to-turn-profitable-next-year.html
Впечатляющий макроэффект производства микропроцессоров:) Intel строит новый свой завод в Огайо, а оборудование для производства оказывается весьма громоздким, весит сотни тонн — и одновременно хрупкое. В результате его транспортировка где возможно идет по воде, но в итоге приходится все же последние 150 миль от речного порта везти по шоссе.
Грузовики с негабаритным грузом движутся со скоростью 10-15 км/час, собирая за собой многокилометровые пробки: на двухполосной трассе такой груз занимает обе полосы.
Проблемы у тамошних водителей продлятся 9 дней, а вот потом штат получит немало выгод от такого производства на своей территории.
https://www.tomshardware.com/pc-components/cpus/intel-is-trucking-a-916000-pound-super-load-across-ohio-to-its-new-fab-spawning-road-closures-over-nine-days
Грузовики с негабаритным грузом движутся со скоростью 10-15 км/час, собирая за собой многокилометровые пробки: на двухполосной трассе такой груз занимает обе полосы.
Проблемы у тамошних водителей продлятся 9 дней, а вот потом штат получит немало выгод от такого производства на своей территории.
https://www.tomshardware.com/pc-components/cpus/intel-is-trucking-a-916000-pound-super-load-across-ohio-to-its-new-fab-spawning-road-closures-over-nine-days
Tom's Hardware
Intel is trucking a 916,000-pound 'Super Load' across Ohio to its new fab, spawning road closures over nine days
Imagine the nine day long traffic jam.
Промпт-инженеры как отдельная профессия вряд ли появятся, а вот умение работать с промптами уже стало полезным и массово востребованным навыком, и как минимум какое-то время таковым останется.
Как любой навык, его надо практиковать и оттачивать регулярными тренировками, но все ж и теорию немного знать полезно хотя бы ради того, чтоб знать, куда при нужде подглядывать.
Посему вот вам довольно фундаментальный труд, собравший a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
Семьдесят шесть страниц текста, богатая библиография; разок полезно самому прочитать, а дальше пусть с ним любимая модель работает, когда вопрос возникает.
https://arxiv.org/abs/2406.06608
Как любой навык, его надо практиковать и оттачивать регулярными тренировками, но все ж и теорию немного знать полезно хотя бы ради того, чтоб знать, куда при нужде подглядывать.
Посему вот вам довольно фундаментальный труд, собравший a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
Семьдесят шесть страниц текста, богатая библиография; разок полезно самому прочитать, а дальше пусть с ним любимая модель работает, когда вопрос возникает.
https://arxiv.org/abs/2406.06608