Telegram Web Link
Разделители для целых чисел

Трудно визуально различить целые числа подобные 10000000 и 100000000. Использовать запятые, как в английском языке, не получится.

Но Python позволяет использовать нижнее подчеркивание как разделитель для улучшения читабельности.

Например, 1_000_000 будет интерпретироваться как целое число 1000000.

#числа
Яндекс 360 запустил техножурнал

В Яндекс 360 мы создаём технологии, которые лежат в основе более чем 12 сервисов, включая Диск, Телемост, Почту, Мессенджер и другие. И мы любим о них рассказывать. Как устроены видеозвонки на тысячу человек? Как хранятся и обрабатываются петабайты данных? Какие вызовы мы решаем, создавая сервисы, которыми пользуются миллионы?

Теперь ответы на эти вопросы, все технические статьи, разборы сложных задач, доклады и выступления инженеров Яндекс 360 — в нашем журнале.
Выделение базовой части слов

При обработки естественного языка в машинном обучении мы сталкиваемся с множеством форм слова, например, демократия и демократизация. Для машин очень важно понимать, что эти разные слова имеют одинаковую базовую форму.

Таким образом, было бы полезно при анализе текста извлекать базовые формы слов. Можно сказать, что для процесса выделения базовой части слова необходимо обрезать концы слов.

В модуле Python NLTK (Natural Language Toolkit Package) есть различные пакет, связанные с данным процессом выделения базовой части и использующие разные алгоритмы.

Один за пакетов, snowball, использует алгоритм соответственно Snowball, разработанный Мартином Портером. Алгоритм поддерживает большинство популярных языков. Подробнее об алгоритме можно почитать тут.

#snowball
2025/02/22 22:14:32
Back to Top
HTML Embed Code: