Telegram Web Link
Послушала и очень рекомендую детальный и открытый разговор про OvertureMaps с их исполнительным директором.

Вот основные темы беседы:

1. Что такое OvertureMaps

2. Как устроены данные: иерархия источников достоверность

3.Для кого данные: как скачать, целевая аудитория, примеры использования

4. Сравнение с другими источниками ( OSM)

5. Особенности публикации открытых данных

6. Членство в OvertureMaps : зачем маленьким компаниям присоединяться
Картетика проводит исследование рынка труда гео-специалистов 📊

Мы продолжаем собирать информацию про нашу профессиональную деятельность. В прошлом году мы делали исследование гео-вакансий по данным HH. Но то, что пишут в резюме и вакансиях, только частично отражает общую картину.

Чтобы углубить наше знание о реальном положении дел, в этом году мы сделали свой опрос. Он для всех, кто причисляет себя к гео-специалистам 🗺

Примеры вопросов, на которые мы хотим и пытаемся найти ответы:
- какие зарплаты у нас в сфере
- какие навыки и ПО сейчас актуальны на рынке
- как много тех нас, кто работает на нескольких работах
- какая фактическая география нашего рынка труда

⚡️Как можно поучаствовать в исследовании:
- пройдите опрос самостоятельно, это займёт 7-10 минут
- поделитесь опросом с друзьями и коллегами, которые работают в нашей сфере

Чем больше ответов мы соберём, тем полнее и показательнее будут результаты💪🏻 Результаты опроса мы выложим открыто и добавим к ним свежие данные по вакансиям.
Месяц назад Яндекс запустил свою геоаналитическую платформу, и у меня получилось пообщаться с одним из ее аналитиков, Арсланом (@ars_gaz).

Арслан учился во 2-ом потоке моего курса, поэтому помимо инсайтов про платформу, он поделился еще своим опытом перехода от учебных задач к практическим в большой компании. Кажется, получилось интересно.

Читать тут👀
Forwarded from Arina
Вакансия: Геоаналитик в команду доставки ВкусВилла 🥑

Всем привет!
Ищем геоаналитика в команду доставки ВкусВилла. Мы открыты к творческим и инициативным людям, готовым развивать доставку вместе с нами!

Какие задачи вас ждут:
🔴Анализ и решение исследовательских задач для бизнеса на основе геоданных с применением методов геостатистики;
🔴Поиск пространственных зависимостей в данных;
🔴Подготовка автоматических геоаналитических отчетов;
🔴Продуктивизация сервиса и внедрение аналитических решений;
🔴Выполнение множества ad hoc запросов от смежных команд.

Мы ждем вас, если вы:
🔴Уверенно владеете Python и основными библиотеками для анализа (гео)данных (например, (geo)Pandas, Folium, NumPy, Scikit-learn и др.), а также SQL и QGIS/ArcGIS;
🔴Понимаете, как работают алгоритмы классического машинного обучения и имеете опыт их применения;
🔴Понимаете основы статистики и умеете применять их на практике;
🔴Владеете инструментами автоматической отчетности, такими как Power BI.

Отправляйте резюме и задавайте вопросы Арине @arirrr
Очень ждем и будем рады обмениваться опытом ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🛜 Страны мира с наибольшим числом людей, лишенных доступа к интернету

Индия лидирует по числу людей, не имеющих доступа к интернету – 684 миллиона (48% населения страны). На втором месте – Китай, где вне сети остаются 336 миллионов человек (24%).

В Африке наибольшая доля населения без интернета зафиксирована в Эфиопии – 81%, в Уганде – 73%, а в Демократической Республике Конго – 71%. В Танзании, Нигерии и Бангладеш около 55% населения также не подключены к сети.

Основные причины такого разрыва – недостаток инфраструктуры, высокая стоимость подключения и бедность, особенно в сельской местности.
Я тут осознала, что очень отстала от жизни. Почему? Потому что до Гошиного поста про новую Urban Foundation Model от Google, никогда про них не слышала - а судя по этой статье, за последние 2 года их популярность стремительно набирает обороты, и есть уже модели под самые различные задачи от прогноза загруженности дорог до анализа потребления электричества. Точнее их прелесть в том, что одна такая модель может помочь решить обе задачи, и еще пару 10тков других.

Вобщем, я очень эксайтед попробовать дообучить одну из таких моделей либо под рабочую, либо под PhD задачу, но это займет время. Поэтому пока написала открытый пост у себя в boosty с тем, чтобы немного разобраться в концепции foundation models в гео.

И да, если у кого-то есть опыт разработки или использования такой модели, поделитесь. Очень интересно
в тему foundation models
Forwarded from Geoalert Blog
While there is a constantly growing number of publications about the integration of large models (#LLMs, Visual language models) with spatial apps—both academic and marketing 😎we added our two bits from solving real business cases.
Next time you see a lot of comments under another LinkedIn post featuring #geoai and #arcgis as a game changer of this integration, take a deep breath and remind yourself about hitting the target. 😃
Forwarded from Gleb Romanov
Ребята привет! Ищем геоаналитика в юнит открытий ПВЗ компании Wildberries.

Задача команды геоаналитики - понимать, сколько мы хотим открывать ПВЗ и в каких местах + как смотивировать собственников на открытие именно в нужной для нас точке. Продукт, который служит достижению этой цели - карта открытий (часть алгоритмов под капотом этой карты написала команда геоаналитики).
Цель по открытиям достигается через набор моделей (предсказание оборота старых и новых ПВЗ, перегруза, вероятности открытия, расходов и доходов собственника и ВБ и других).
Вам предстоит заниматься как написанием новых и развитием существующих моделей (выдвижение гипотез, построение фичей и таргета, анализ результата и корректировка модели, построение финального пайплайна), так и ad hoc запросами от бизнеса (пример: проанализировать распределение оборотов в малых городах стран СНГ, подготовить предложения по изменению параметров зон карты в этих городах, защитить результат перед бизнесом).

Мы ожидаем, что у вас есть:
* Уровень от middle и выше (3+ года в программировании и QGIS - каждом по отдельности);
* Опыт работы с python (geopandas), PostGIS, QGIS;
* Знание и практическое применение мат. статистики и алгоритмов ML;
* Самостоятельность (готовность понять проблему заказчика и преобразовать в техническое решение);
* Интерес к геоаналитике, желание развиваться в этой сфере;
* Будет плюсом опыт в: osmnx, networkx, momepy.

Мы предлагаем:
* Сложные интересные исследовательские задачи, менторство и команду аналитиков, которым не всё равно;
* Гибридный формат работы в Москве (2 раза в неделю встречаемся в офисе на м. Тульская);

Для связи пишите Виктории @VSH_job (скажите, что пришли через канал Инессы Трегубовой - ребята с такой рекомендацией проходят облегчённый первичный скриннинг)
​​# PhD #mobiledata

Давно не было тут новостей про мой PhD, а работа тем временем кипит. Я завела проект на гитхаб, где можно следить за работой:)

Теперь пара слов о том, что я делаю.

В работе я исследую влияние удаленной работы на экономику городских районов. Моя гипотеза в том, что люди, которые часть времени работают из дома стали менее чувствительны к времени, которое заменяет дорога на работу, но при этом больше обращают внимание на доступность сервисов, кафе, магазинов вокруг дома. И такое поведение меняет экономику городских районов.

Свою гипотезу я проверяю на центральном районе Израиля, где большинство рабочих мест и развлечений сосредоточено в Тель-Авиве, а спальные кварталы расположены вокруг, в городах-спутниках.

Так вот, за последние два месяца я сделала первые шаги для того, чтобы оценить долю удаленьщиков в кварталах городов центра Израиля. Точнее измерить как менялся ее уровень с 2019 по 2023 год.

Мне повезло получить данные о GPS-локациях от компании Habidatum, поэтому измерения я делаю на мобильных сигналах, что должно дать мне результат более точный, чем опросы.

Почему "первые шаги"? Потому что с учётом размера данных каждый месяц приходится обрабатывать по-отдельности и потому что оценка удаленки оказалась не такой простой, как в теории. Пока я научилась с уверенностью находить дом и работу юзеров на каждый месяц данных- это было тоже непросто. Код можно найти на гитхаб, большой текст про подход у меня в бусти.

Знаю, что большинство читать не будут), поэтому кратко тут:
- правила о времени и частоте сигналов дома и на работе сработали лучше кластеризации;
- сначала пришлось найти дом и из оставшихся локаций работу;
- корреляция домашних локаций с населением 0.65
- ошибка первого рода рабочих локаций и официальных рабочих зон 4%.

Про так, как в итоге получилось посчитать долю работы из дома, напишу в следующих постах. А пока, можете пожелать мне удачи😊
Если вам вдруг станет скучно отдыхать на выходных, рекомендую почитать посты на этом ресурсе.

Авторы, 3 профессора из университетов США и Испании, разбирают академические статьи ( в основном behavioral science) с целью поиска в них фрода при работе с данными. Они пытаются повторить шаги исследователей на расширенной выборке или другими стат методами и проверить получается ли такой же результат как в статье. Один из авторов подал на них в суд иск на 25млн долларов - так что все серьезно:)

На мой взгляд очень полезное чтение с точки зрения понимания подводных камней при разработке дизайна исследования.
На днях коллега на работе рассказал, что установил себе Cursor AI, и теперь и код и документацию стало писать гораздо проще.. чем с ChatGPT🙄

Я тоже установила ( выглядит один в один как Visual Studio Code) и второй день кайфую: дописывает код по аналогии, ищет ошибки в логике внутри как отдельного файла, так и всего проекта, создаёт описание итд. В общем пока сплошные плюсы. Посмотрим потребует ли он в какой-то момент денег, но пока все бесплатно.

И я понимаю,что вокруг еще множество других AI инструментов, делающих рутину менее рутинной.

Поэтому мне очень интересно, какими инструментами кроме chatgpt пользуетесь вы и для каких задач. Напишите, в комментариях:) Получившийся список выложу отдельным постом.
Planet AI Symposium 30-го января

Выглядит как что -то интересное, хотя программы я не нашла. Точно известно, что про AI и гео, что бесплатно и что онлайн)
В тему полезных AI. За последнее время слышала про NotebookLM хорошие отзывы уже от четырех человек
Audio
Ты уже послушал подкаст про свою научную статью?

Звучит немного странно, но я вот слушаю прямо сейчас.

Как? Загружаю pdf своей статьи или какого-то научного обзора или даже учебника в систему, задаю примерный фокус и стиль обсуждения, и через несколько минут получаю натуральный подкаст, в котором двое ведущих с интересом обсуждают мою работу.

Послушайте файл, это просто вау! Тут, например, обсуждают нашу статью про наночастицы золота в ситаллах.

Отдельный восторг, что в этот разговор можно включиться и задавать голосом свои вопросы «ведущим», а те будут отвечать.

Кто делает эту магию? Платформа NotebookLM от Google, причем абсолютно бесплатно.

«Аудиопересказ» - это лишь одна из фишек. Главная функция в том, чтобы извлекать нужные данные одновременно из разных источников, сравнивать их между собой и писать тексты на основе данных.

К примеру, можно загрузить несколько файлов статей, позадавать вопросы и попросить сформулировать различия в методах исследования или в полученных результатах. С учебником удобно работать разбирая разные главы: создавать саммари и вопросы для проверки.

Важно, что система выдает ссылки на те части документа, откуда она взяла информацию. То есть нет не только «галлюцинаций», но еще и понятно, какая часть статьи была обработана для ответа.

В общем пока NotebookLM - это самый топ для ученых и преподавателей из всего «ИИ-многообразия», что я видел. (Работает только на компьютере и только с VPN).

P.S. пост взят у @shakhgildyan (почему-то не отразилось при перессылке)
Анализ гео-сферы 2024 года по результатам опроса

Осенью 2024 года мы провели опрос ГИС-специалистов, и сегодня публикуем первую часть его результатов. В ней общая информация про опрос и тех, кто принял участие.

Из кого состоит наша сфера, и какие выводы можно по этому делать? Какие есть перспективы? С каким образованием и в каких компаниях работают люди?
Читайте в статье "Анализ гео-сферы 2024. Часть 1: знакомство со сферой геотехнологий" ⚡️

Спасибо всем, кто участвовал в опросе и кто поделился им!
Мы продолжим оформлять материал в статьи с графиками и делиться информацией, которая поможет делать более осознанные карьерные решения.
Как и обещала, продолжаю делиться с вами новостями моего PhD 🎓
(нравится оно вам или нет 😃)

Последний раз я остановилась на том, что мне удалось найти домашние и рабочие локации юзеров по их GPS-координатам, записанным в период 01/2019–09/2023.
С того момента я сделала три попытки оценить месячный уровень удаленной работы и хочу вкратце поделиться с вами результатами.

📌 Код можно найти у меня на GitHub

---

🔹 Идея 1:
📍 Удаленка = _доля домашних сигналов, случившихся в рабочие часы (11:00–16:00)_

🔸 Результат:
📊 При таком расчете уровень удаленки оказался самым высоким в 2019 г. и самым низким в месяцы локдауна (04–05/2020).

Почему
🔹 В месяцах разная доля сигналов в рабочие часы.
🔹 В ковидные месяцы почти все сигналы записаны либо рано утром, либо поздно вечером.

---

🔹 Идея 2:
📍 Удаленка = _доля рабочих часов (11:00–16:00), в которые сигналы получены из домашней локации._
_Месяцы с низким числом рабочих часов исключены._

🔸 Результат:
📊 Сильный рост удаленки во второй локдаун (09/2020), но уровень удаленки в 2019 выше, чем в 2023.

Почему
🔹 У юзеров разная частота рабочих часов внутри месяца.
🔹 Одна случайная домашняя локация в 11:00 при отсутствии других сигналов днем → доля удаленки = 100%.
🔹 Индивидуальные рабочие графики могут отличаться.

---

🔹 Идея 3:
📍 Удаленка = _доля часов, в которые у юзера вероятность быть на работе выше, чем в любой другой локации, но фактически он находился дома._
_При этом ни в один час того же дня юзер не посещал офис._

🔹 Как?
Используем Bayesian conditional probability :

P(O|h) = P(O) * P(h|O) / P(h)
где:
- P(O|h)- вероятность для юзера быть в офисе в конкретный час невыходного дня с 8 утра до 7 вечера
- P(O) — доля офисных часов в дни посещения офиса.
- P(h) — доля конкретного часа в офисные дни.
- P(h|O) — доля конкретного часа среди часов с сигналом из офиса в офисные дни.

Удаленка определяется как:
P(O|h) > P(H|h) & P(O|h) > P(3rdP|h)& Home Location
где:
- P(H|h) — вероятность для юзера быть дома в конкретный час.
- P(3rdP|h) — вероятность для юзера быть в третьей локации в конкретный час.

🔸 Результат:
📊 Резкий рост удаленки в период 04/2020–10/2020, постепенное снижение в 2021–2023, но доля все еще выше, чем в 2019.
​​Качество проверено на собственном опыте:)

Онлайн-школа урбанистики и городских исследований «Города» приглашает вас на курсы в марте!

Преподаватели Школы — специалисты, которые получили уникальные знания в полях и создали авторские курсы. Занятия проходят онлайн, по заранее известному расписанию, доступно и увлекательно для каждого. Программы наполнены практикой, а отдельные курсы подразумевают трекинг проектов слушателей.

В программе весеннего потока Школы — 7 авторских курсов и книжный клуб:
🔵курс Петра Иванова «Введение в методы социологии города»
🔵курс Ольги Максимовой «География для архитекторов»
🔵курс Сергея Царёва «Город и девелопер: поиски партнёрства»
🔵курс Александра Антонова «Пространственное планирование»
🔵курс Дмитрия Лисицина «Социальное проектирование в малых городах»
🔵курс Игоря Стася Urban History
🔵курс Артёма Гебелева «Как создавать среду для людей с собаками в ЖК и общественных пространствах»
🔵Медленный книжный клуб «Читающие города» от Марии Быстровой

Подробнее прочитать о курсах и записаться вы можете уже сейчас на сайте Школы: https://gorodaschool.ru/. Бонусы школы — закрытый нетворк-чат и чаты с преподавателями курсов.
#PhD #humanmobility

Делая PhD, основанный на анализе GPS-локаций людей, я начала задаваться вопросами, которые раньше, при работе с коммерческими данными, не приходили мне в голову:

🔹 Существуют ли стандарты обработки GPS-сигналов для изучения человеческой мобильности?

🔹 Какие ограничения по приватности нужно учитывать при визуализации? Можно ли, например, добавлять на карту дом и работу одного человека?

🔹 Какие валидационные тесты помогут сделать так, чтобы "тебе поверили"?

🔹 Как сделать код полезным для тех, у кого нет доступа к моему датасету?

В поисках ответов я наткнулась на статью, которая лишь подтвердила актуальность проблемы: стандартов нет, но они должны быть выработаны.

🚧 В чем сложность?

1️⃣ Отсутствие открытых мобильных датасетов

Открытых мобильных датасетов почти нет, поэтому большинство исследований строится на коммерческих данных, которые отличаются по структуре, методам сбора и предобработки. Это делает повторение результатов практически невозможным.

📌Примеры доступных датасетов:
- раз
- два

У меня, например, GPS-сигналы уже агрегированы в "стоянки" и "поездки", тогда как большинство исследований работают с сырыми данными. Или, например, в некоторые месяцы в моем датасете нет сигналов с 12:00 до 18:00 – это критично, если копировать чужие методы без адаптации под такие особенности.

2️⃣ Разные задачи → разная предобработка

Кто-то ищет "дом и работу" пользователей, и ему нужны только те, у кого много сигналов, и часть из них ночью. А кто-то изучает "проходимость локаций" и ему нужны максимально сырые данные.

💡В качестве решения авторы называют синтетические данные

🔬 Их создают с помощью нейросетей и агентских моделей на основе транспортных опросов, демографических данных и иногда частично доступных мобильных данных. Модели учат причины и патерны перемещения людей и на их основе генерируют новые траектории.

📌 Примеры исследований:
- OpenPFLOW ( без нейронки)
- SynMob

Плюсы синтетических данных:
✔️ Доступность – их можно строить даже без реальных мобильных данных, нужны лишь классические опросы и метрики населения

✔️ Отсутствие технических артефактов – такие данные не содержат неожиданных пропусков или скачков в сигналах, как реальные данные

Минусы синтетических данных:
⚠️ Зависимость от исходных данных – например, если в Израиле построить такие данные на основе опросов только еврейского населения, не включив арабов, бедуинов, друзов и тд, то картина будет неполной. Хотя тут я должна оговориться, что и мобильные данные передают только то население, у которого есть телефоны.
⚠️ Ограниченность траекторий – модели чаще всего воспроизводят типичные маршруты людей и игнорируют неожиданные отклонения.
⚠️ Шум на индивидуальном уровне – на уровне отдельного человека присутствует много шума, поэтому изучать отдельное поведение по таким данным невозможно

💭 Получается, что несмотря на огромное число статей в сфере human mobility, изданных за последние 10 лет, очень немного было сделано для того, чтобы выработать единый подход в работе с мобильными данными.

Каждая лаборатория изобретает свой велосипед, поскольку практически невозможно повторить другие исследования и сравнить результаты из-за различий в данных и отсутствия детального описания их обработки.

Доступность же таких данных отдана на добрую волю компаний-агрегаторов GPS сигналов или мобильных операторов, поэтому большинство исследователей вообще не имеет к ним доступа и вынуждены изобретать очередной опрос на 100 человек, который никак не отражает реальную ситуацию😔
Дополнение к предыдущему посту: если вам интересно содержание упомянутых статей, но нет времени читать, можете послушать подкаст сгенерированный NotebookLM
2025/03/12 04:53:44
Back to Top
HTML Embed Code: