Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

@dsproglib

Все самое полезное для дата сайентиста в одном канале.По рекламе: @proglib_advКурс по Ai-агентам: https://clc.to/9L0TqgДля обратной связи: @proglibrary_feeedback_botРКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

18 650 подписчиков

ЕжедневноКачество: 90%🇷🇺 RUПоследний пост: 08.03.2026

Открыть в TelegramПоделиться в TG

Последние посты

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

Самый востребованный навык в ИТ в 2026-м — навык создания ИИ-агентовМы полностью переработали курс «Разработка AI-агентов» под реалии 2026 года. Никакой долгой теории — с самого начала пишем код. Обучать и делиться набитыми шишками будут эксперты-практики из Газпромбанка, Альфа-Банка и других бигтехов.В программе:— архитектура автономных систем с тестированием, ReAct-циклами и контролем токенов;— практическая работа с актуальными фреймворками LangGraph, AutoGen, MCP и CrewAI;— настройка продвинутого RAG для парсинга документов и точного поиска;— внедрение решений с учётом действующего законодательства (152-ФЗ);— дипломная работа, за основу которой можно взять свой рабочий проект или задачу, которую предложим мы.Эксперты поделятся инсайтами из реального продакшна — тем, о чём вам никогда не расскажет ни одна нейросеть.Запись первого открытого вебинара, на котором мы вместе с руководителем AI-направления в Альфа-Банке Полиной Полуниной пилили агента в прямом эфире.Ах да, чуть не забыли! Дарим промокод AGENTSWEB на скидку 10 000 рублей и два курса сверху при покупке до 15 марта 🎁→ Освоить разработку AI-агентов

13 мар. 2026 г.1 620В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение — пост в ТГ канале

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

🚀 Polars 1.39: новая версияБиблиотека Polars продолжает сокращать разрыв между локальной обработкой данных и полноценными хранилищами данных (Data Lakehouses). Версия 1.39 принесла три ключевых фичи, которые сильно упростят жизнь дата-инженерам.📈 1. Streaming AsOf JoinФункция join_asof() теперь поддерживается стриминговым движком.Теперь можно объединять огромные временные ряды (time-series), которые не помещаются в оперативную память.Идеально для финансового анализа и данных с датчиков (IoT), где нужно сопоставить события по ближайшей метке времени.🧊 2. Полноценный цикл с Apache IcebergВ дополнение к чтению (`scan_iceberg`), появился sink_iceberg() для записи данных из LazyFrame.Polars теперь поддерживает полный цикл чтения/записи для архитектур Data Lakehouse на базе Iceberg.Можно обрабатывать данные и сохранять их напрямую в аналитические таблицы без промежуточных CSV/Parquet файлов.☁️ 3. Стриминг прямо из облакаФункции scan_csv(), scan_ndjson() и scan_lines() теперь умеют скачивать данные потоково.Polars больше не нужно скачивать файл целиком из S3 или Azure Blob перед началом обработки.Значительная экономия места на диске и ускорение «холодного» старта ваших скриптов.🔗 Ссылка на релиз📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека дата-сайентиста#буст

13 мар. 2026 г.3 330В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

🚀 6 векторных БД, которые должен знать каждый RAG-инженерЕсли вы работаете с LLM, семантическим поиском или рекомендательными системами, выбор правильного хранилища векторов — это 50% успеха вашего проекта. Разбираем топовые решения для разных задач.1. PineconeПолностью управляемая облачная БД корпоративного уровня.Плюсы: Zero infrastructure (серверы — не ваша забота), масштабируемость.Лучший выбор для: Крупных продакшн-систем.2. ChromaOpen-source база, которая встраивается прямо в ваше приложение.Плюсы: Запускается локально (in-process), Python-native (всего 3 строчки кода для старта).Лучший выбор для: Быстрого прототипирования и локальной разработки.3. WeaviateМощная база с открытым кодом для текста, изображений и структурированных данных.Плюсы: Нативная мультимодальность, гибридный поиск (GraphQL + векторный).Лучший выбор для: Сложных мультимодальных RAG-систем.4. QdrantВекторный движок на Rust, оптимизированный под экстремальные нагрузки.Плюсы: Фильтрация метаданных (payload) во время запроса, самая высокая производительность на CPU.Лучший выбор для: Высокопроизводительных систем (High Performance).5. FAISS (от Meta*)Библиотека для эффективного поиска сходства в плотных векторах.Плюсы: GPU-ускорение, не требует сервера (просто Python-библиотека).Лучший выбор для: Оффлайн-исследований и работы со статичными датасетами.6. Redis VectorIn-memory поиск для приложений реального времени.Плюсы: Подмиллисекундная задержка, объединяет кэширование и векторный поиск.Лучший выбор для: Приложений с низким временем отклика (Low Latency).А какую базу для векторов используете вы в своих проектах? Делитесь опытом в комментариях! 👇*Meta признана экстремистской организацией в РФ.📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека дата-сайентиста#буст

12 мар. 2026 г.1 520В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

🛠 MessyData: генератор «грязных» синтетических данныхMessyData позволяет создавать реалистичные датафреймы, намеренно внедряя в них аномалии: пропуски, дубликаты, некорректные категории и выбросы. Это идеальный инструмент для проверки качества данных (Data Quality) и обучения моделей на устойчивость к шуму.Установка:uv pip install messydata# илиpip install messydataСуть библиотеки в декларативном подходе. Вы описываете схему данных в YAML, а MessyData превращает её в Pandas DataFrame.Пример конфига (`config.yaml`):name: sales_dataprimary_key: transaction_idrecords_per_primary_key: type: uniform min: 1 max: 3anomalies: - name: missing_values prob: 1.0 # инжектить всегда rate: 0.1 # 10% пропусков columns: anyfields: - name: transaction_id dtype: int32 distribution: type: sequential start: 100 - name: price dtype: float32 distribution: type: lognormal mu: 4.0 sigma: 0.5Запуск в Python:from messydata import Pipelinepipeline = Pipeline.from_config("config.yaml")df = pipeline.run(n_rows=1000, seed=42)print(df.isna().sum()) # Проверяем внедренные пропуски🔗 Github📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека дата-сайентиста#буст

11 мар. 2026 г.1 560В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

🗺️ Дорожная карта ML 2026Репозиторий разбит на 5 логических блоков, которые можно проходить последовательно или выборочно:1️⃣ База (Prerequisites)Математика: Khan Academy и визуализации бэкпропа (обратного распространения ошибки) от Google.Инструменты: NumPy, Pandas и база по Git/Shell.2️⃣ Фундамент MLCrash Course от Google: Регрессия, нейронки и эмбеддинги.Reinforcement Learning: От основ OpenAI до современного RLHF (того самого обучения на отзывах людей, которое оживило ChatGPT).3️⃣ Эпоха LLM и Агентов (Самое актуальное)Intro от Карпати: Маст-хэв для понимания, как работают трансформеры.Reasoning: Как работают модели-рассуждатели (вроде OpenAI o1).Agentic RAG: Как строить системы, которые не просто ищут информацию, а действуют.4️⃣ Инженерия и MLOpsFine-tuning: Как дообучать модели под свои задачи (LoRA, PEFT).MCP (Model Context Protocol): Как подключать ИИ к внешним инструментам и базам данных.Эффективность: Как выжимать максимум из GPU.5️⃣ Подготовка к интервьюСборники задач по системному дизайну ИИ и планы подготовки к собесам в бигтех.➡️ В гайд встроена поддержка AI-агентов (Claude Code, Cursor, Gemini CLI). Вы можете просто загрузить репозиторий в свой любимый редактор, и агент сам составит вам план тренировок, найдет нужные статьи и создаст проверочные упражнения.🔗 Ссылка на репозиторий: https://clc.to/aAtT_g📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека дата-сайентиста#буст

10 мар. 2026 г.1 830В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

⏳ Часовая готовность: создаём ИИ-агента в прямом эфиреВ 19:00 МСК в рамках нашего курса «Разработка AI-агентов» стартует вебинар «ИИ-агенты в продакшене: от хайпа к деньгам». Спикер — Полина Полунина, руководитель AI-направления в Альфа-Банке.Будет live-демо работающего агента, реальные метрики из корпоративной среды и честный разбор архитектурных граблей — без воды и «успешного успеха».Всем зрителям эфира дадим эксклюзивный промокод AGENTS на скидку 10 000 ₽ на любой тариф курса.👉 Занять место на вебинаре

10 мар. 2026 г.1 720В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

🆕 AgentHub: новый проект от Андрея КарпатиАндрей Карпати опубликовал репозиторий AgentHub. Это серверная часть для координации «роев» ИИ-агентов. Главная идея: существующие инструменты вроде GitHub удобны для людей, но ограничивают потенциал нейросетей.Проблема классического GitКогда над кодом работают люди, нам нужна структура: ветки, постепенное слияние (merge) и одна «правильная» версия проекта. Но если код пишут тысячи агентов, такая линейная логика становится проблемой.👇 Как это устроено в AgentHub1. Хаос как стратегияВместо того чтобы ждать одобрения PR, агенты в AgentHub просто пушат код во всех направлениях сразу. Проект превращается в гигантское дерево (граф), где каждая ветка — это отдельный эксперимент. Сервер просто отслеживает «листья» — крайние точки, от которых еще никто не пробовал строить продолжение.2. Код + ОбщениеАгенты не просто пишут код, они пользуются встроенной «доской объявлений». Один агент может запостить: «Я попробовал изменить эти параметры, точность упала». Другие агенты считывают это и не тратят ресурсы на заведомо ложный путь. Это превращает группу ботов в самообучающееся сообщество.➡️Первый кейс использования — AutoResearch. Это система, где ИИ-агенты сами пытаются улучшить алгоритмы обучения других нейросетей. AgentHub берет на себя всю «грязную работу» по синхронизации их усилий.🔗 Ссылка на проект: https://clc.to/7Iq0RA📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека дата-сайентиста#свежак

10 мар. 2026 г.1 740В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

Если хочется не просто запускать model.fit(), а понимать математику ML, посмотрите книгу “Pen & Paper Exercises in Machine Learning”.Это сборник задач с решениями, где вы на бумаге разбираете:• оптимизацию и линейную алгебру• графические модели• Variational Inference• Monte-Carlo методы📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека питониста#буст

9 мар. 2026 г.1 950В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

🐼 Pandas: 4 фатальные ошибки, которые делают 51% разработчиковДаже в 2026 году Pandas остается главной «головной болью» Python-разработчика. С выходом версий 2.x и 3.x правила игры изменились.1. Итерация по строкам ❌ iterrows() — забудьте о нем. Он конвертирует каждую строку в pd.Series, создавая дикий overhead.✅ itertuples() — если цикл неизбежен, он быстрее в 10–100 раз.✅ Векторизация (np.where) — в 4000 раз быстрее.> DS-совет: Если логика сложнее обычного сложения — используйте .apply(), но стремитесь к векторизации через NumPy.2. Переименование✅ .rename(columns=...) — самый безопасный путь. Не ломается при изменении схемы.✅ .str.lower().str.replace() — лучший способ массово привести колонки к snake_case.✅ add_prefix() — спасение при сложных merge, когда нужно быстро разделить признаки из разных таблиц.3. Война с NaNNaN — это не просто пустая ячейка, это сигнал о проблеме в данных.✅ Диагностика: df.isna().sum() — база.✅ ffill() / bfill() — критически важны для временных рядов (Time Series), чтобы не терять динамику.✅ fillna(median) — классика для ML-пайплайнов, но всегда проверяйте природу пропусков. Иногда dropna(subset=[...]) — единственный честный путь.4. Фильтрация✅ Булевы маски: df[(df['A'] > 0) & (df['B'] < 1)] — классика. Важно: забудьте скобки — получите ошибку приоритета.✅ `.query()` — читается как SQL, поддерживает переменные через @. Идеально для длинных условий.✅ .loc[] — единственный верный способ, если нужно одновременно отфильтровать строки и выбрать колонки.🔗 Ссылка на пост📍 Навигация: Вакансии • Задачи • Собесы🐸 Библиотека питониста#буст

9 мар. 2026 г.1 840В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib

💥 Открытый вебинар | ИИ-агенты в продакшене: от хайпа к деньгамАгенты уже везде. Но мало кто признаётся, сколько денег сжёг на бесконечных циклах, галлюцинациях в RAG и отсутствии мониторинга.Полина Полунина, руководитель AI-направления Альфа-Банка, расскажет честно:▪️ Чем агент отличается от «просто GPT с промптом» и когда бизнесу достаточно обычного LLM▪️ 3 реальных кейса из корпоративной среды: что взлетело, а что нет▪️ Live-демо работающего агента▪️ ТОП-5 граблей, на которые наступают команды при внедрении⏱️ 10 марта в 19:00 (МСК)🎁 Участники получат промокод на скидку на самый полный курс по ИИ-агентам👉 Регистрируйся

8 мар. 2026 г.1 940В Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Последние посты

Похожие каналы

X Empire Community

OKX Web3 Announcement

Математик Андрей

Гимнастика для лица