дата сайнтист чем занимается

Честно о профессии дата сайентиста: 6 фактов, которые нужно иметь в виду

Вокруг любой профессии тонна стереотипов. А вокруг тех, что мы плохо понимаем, их еще больше. Если вас привлекает Data Science и перспектива оказаться в IT-элите, читайте про шесть страхов, которые вполне могут оправдаться, и решайте, сможете ли вы стать дата сайентистом.

Для учебы на дата сайентиста нужна хотя бы базовая математика, а потом постоянно придется работать с числами

Вердикт: почти правда

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Дата сайентисты работают с массивами данных на языке программирования Python. Да, математика потребуется уже на старте работы с кодом. Вот только вовсе не в виде сложных уравнений, над которыми придется корпеть часами. Но вы будете работать с числами и данными — это факт.

Хорошая новость: есть курсы, которые готовят дата сайентистов с нуля. В программу включают все, что потребуется специалисту. Но будьте готовы и сами подтягивать знания: придется много практиковаться, искать решения для нетипичных задач и учить.

Работа нудная, и надо быть очень внимательным

Вердикт: не совсем правда

Насколько работа дата сайентиста интересна, зависит от ваших предпочтений. Люди обычно называют нудной ту работу, в которой не видят смысла или делают на автомате, настолько она однообразная. Data Science — это не просто данные. У каждого столбца есть свой смысл, а в числах — закономерности. Погружаясь в задачу, вы будете это видеть и перестанете воспринимать цифры как просто цифры.

Дата сайентисты анализируют результат, задают вопросы: откуда этот пик, почему здесь именно такое число, правдивы ли эти значения и так далее. В этой работе не получится просто перетащить данные из одного файла в другой, запустить код и ждать результатов. Нужно будет погружаться в ситуацию и вовлекаться в нее на всех уровнях.

Нужен опыт, без него на работу не берут

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Ни одна успешная компания не захочет брать в команду кота в мешке. Поэтому при трудоустройстве дата сайентистов часто просят показать портфолио и выполнить тестовое. И иногда этого бывает достаточно. Для некоторых работодателей стаж не настолько важен, как умение кандидата применять знания на практике.

Набраться опыта можно уже в процессе обучения. Конечно, это будет не запись в трудовой с должностью дата сайентиста и стажем. Но разностороннее портфолио и верно выполненное тестовое задание способны выделить вас среди кандидатов даже с опытом реальной работы в резюме.

Выбирайте курсы, основанные на практике. На полном курсе по Data Science в SkillFactory программа как раз нацелена на практические умения и наполнение портфолио. Помимо этого карьерный центр онлайн-школы помогает с составлением резюме и подготовкой к собеседованиям.

Придется учить английский

Вердикт: не совсем правда

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Да, Python и библиотеки используют английский, а в работе дата сайентиста масса англицизмов, но учить английский для их понимания не нужно. Основные знания для работы вам дадут на курсах и все объяснят. А для частных случаев достаточно банального переводчика или запроса в поисковике.

С другой стороны, свежие решения и данные часто появляются в иностранных источниках. Если в ваших планах постоянное развитие и работа в лидирующей интернациональной команде мирового уровня, английский учить придется. Так что все зависит от ваших амбиций.

В моем городе таких специалистов не ищут

Вердикт: правда, если вы из региона

Профессия дата сайентиста востребована, хоть и появилась недавно. Но да, большинство вакансий сосредоточены в Москве и Санкт-Петербурге. На hh.ru сейчас примерно 560 вакансий по запросу Data Scientist. При этом больше 300 из них приходятся на столицу, еще сотня — на Питер, немногим больше 20 — на Новосибирскую область, а дальше числа стремительно уменьшаются. Но переезжать не обязательно. Можно работать на удаленке.

Мало быть дата сайентистом, надо шарить и в других сферах

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Все так. Помимо Data Science придется разбираться в особенностях сферы, в которую придете: будь то лесопереработка или социальные сети. Чтобы эффективно работать, нужно понимать, как работают процессы в компании и на какие факты можно опираться. Важно понимать, зачем нужно это погружение и что оно даст. И если у вас это понимание есть, необходимость разбираться в чем-то будет скорее осознанной целью и желанием.

Как видите, мы не развенчали страхи и не опровергли стереотипы. Многие мнения о работе дата сайентистов оправданы, но часто сводятся к личным предпочтениям и амбициям. Хотите ли вы работать только в России или нацелены на зарубежный рынок; готовы ли учиться и практиковаться; нужна ли вам работа, в которую придется глубоко погружаться.

Если, несмотря ни на что, вас привлекает Data Science и вы хотите работать в этом перспективном направлении, не тяните. Записывайтесь на полный курс по Data Science в SkillFactory и начинайте свой путь к работе мечты. Программа подходит как для новичков, так и для специалистов в области программирования, аналитики и маркетинга. Особых знаний и подготовки не требуется. Всему, что понадобится для работы, научат на курсе.

А по промокоду ПИКАБУ действует скидка 50% до 25 апреля. Успевайте на новый поток.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Как делают бумагу

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Детский рассудок

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Самые яркие воспоминания из детства

Старшему сыну 10 лет, спрашиваю:

— какое твое самое яркое воспоминание из прошлого.

— (вспоминал минуту) помню как по дороге из садика мы сидели на пенёчке

— ну да, как в сказке, сидели отдыхали, болтали.

Спрашиваю это же у младшего, ему 6:

— помню как приезжал трактор убирать снег, и ты попросил его меня покатать.

Да уж. Аквапарки, аттракционы, крутые игрушки, дедморозы на НГ, а самые яркие у них трактор и пенёчек.

Решил вспомнить самое яркое из своего детства. В общественной бане потерял фигурку водолаза, разревелся, искали всей баней. Не нашли.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Недавно разбирал древние раритеты, нашел свой школьный аттестат, детские рисунки. И эту тетрадь. Хорошая тетрадь, сейчас таких нет, вырвал аккуратно первый лист. Тетрадь отличная.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Здесь прекрасно всё.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Мечта сбылась

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Про душнил. И я такой же

А ещё минут через 15 мне позвонил главврач больницы. Он мне рассказал, что у них авария на подающей трубе и от того, что я обзваниваю всех и вся ничего не изменится. И если я хочу помочь, то могу взять лопату и приехать откапывать трубу, которую прорвало.

Я ему тогда грубо на это ответил, и сейчас об этом сожалею, но черт побери, у моих детей в палате стало тепло. И если бы все из этого отделения повторили бы мои звонки, возможно трубу откопали бы быстрее и никто бы не мёрз.

Через неделю в больнице стало тепло, трубу починили.

Источник

Чем занимается специалист по Data Science и как начать работать в этой области?

Специалист в области Data Science строит на основе данных модели, которые помогают принимать решения в науке, бизнесе и повседневной жизни. Он может работать с неструктурированными массивами информации в разных сферах: от выявления элементарных частиц в экспериментах на БАК, анализа метеорологических факторов, анализа данных о перемещениях автотранспорта до исследования финансовых операций, поисковых запросов, поведения пользователей в Интернете.

В результате получаются модели, которые прогнозируют погоду, загруженность дорог, спрос на товары, находят снимки, где могут оказаться следы нужных элементарных частиц, выдают решения о предоставлении кредита, могут рекомендовать товар, книгу, фильм, музыку.

Анна Чувилина, автор и менеджер программы «Аналитик данных» Яндекс.Практикума, рассказала, какие задачи решает специалист в области Data Science или датасаентист, в чем состоит его работа и чем он отличается от аналитика данных.

Что такое Data Science?

Data Science — это применение научных методов при работе с данными, чтобы найти нужное решение. В широком смысле, естественные науки основаны на Data Science. Например, биолог проводит эксперименты и анализирует результаты для проверки своих гипотез. Он должен уметь обобщать частные наблюдения, исключать случайности и делать верные выводы.

Датасаентист работает с данными так же, как ученый в любой другой сфере. Он использует математическую статистику, логические принципы и современные инструменты визуализации, чтобы получить результат.

Сбор данных — это способ измерить процессы вокруг нас. А научные методы позволяют расшифровать большие массивы данных, найти в них закономерности и применить для решения конкретной задачи.

Кто такой специалист по Data Science?

Датасаентист обрабатывает массивы данных, находит в них новые связи и закономерности, используя алгоритмы машинного обучения, и строит модели. Модель — это алгоритм, который можно использовать для решения бизнес-задач.

Например, в Яндекс.Такси модели прогнозируют спрос, подбирают оптимальный маршрут, контролируют усталость водителя. В результате стоимость поездки снижается, а качество растет. В банках модели помогают точнее принимать решения о выдаче кредита, в страховых компаниях — оценивают вероятность наступления страхового случая, в онлайн-коммерции — увеличивают конверсию маркетинговых предложений.

Глобальные поисковые системы, рекомендательные сервисы, голосовые помощники, автономные поезда и автомобили, сервисы распознавания лиц — все это создано с участием датасаентистов.

Анализ данных — это часть работы датасаентиста. Но результат его труда — это модель, код, написанный на основе анализа. В этом главное отличие между датасаентистом и аналитиком данных. Первый — это инженер, который решает задачу бизнеса как техническую. Второй — бизнес-аналитик, больше погруженный в бизнес-составляющую задачи. Он изучает потребности, анализирует данные, тестирует гипотезы и визуализирует результат.

«Датасаентист решает задачи с помощью машинного обучения, например распознавание изображений или предсказание расхода материала на производстве. Результат его работы — работающая модель по техническому заданию, которая будет решать бизнес-задачу», — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикуме.

Специалист по Data Science проходит те же карьерные ступени, что и другие профессионалы в IT: джуниор, мидл, тимлид или сеньор. В среднем, каждая ступень занимает от года до двух. Более опытный специалист лучше понимает бизнес-задачи и может предложить лучшее решение для них. Чем выше уровень, тем меньше датасаентист сфокусирован только на технических задачах. Он может оценивать проект и его смысловую составляющую.

Задачи специалиста по Data Science

Задачи различаются от компании к компании. В крупных корпорациях датасаентист работает с несколькими направлениями. Например, для банка он может решать задачу кредитной оценки и заниматься процессами распознавания речи.

Этапы работы над задачей у датасаентистов из разных сфер похожи:

Каждая новая итерация позволяет лучше понять проблемы бизнеса, уточнить решение. Поэтому каждый этап повторяется снова и снова для развития модели и обновления данных.

Data Science работает и для стартапов, и для крупных корпораций. В первых специалисты работают в одиночку или небольшими командами над отдельными задачами, а во вторых — реализуют долгосрочные проекты в связке с бизнес-аналитиками, аналитиками данных, разработчиками, инфраструктурными администраторами, дизайнерами и менеджерами.

Руководитель проекта с аналитиками берёт на себя большую часть работы: общается с бизнесом, собирает требования, формирует техническое задание. В зависимости от уровня и принципов работы в компании, специалист по Data Science участвует в переговорах или получает задачи от руководителя проекта и аналитиков.

Следующий этап — сбор данных. Если в компании не налажены процессы для получения данных, датасаентист решает и эту задачу. Он внедряет инструменты, которые помогают автоматически получать и предварительно очищать, структурировать нужную информацию.

Разметка данных — это тоже способ навести в них порядок. Каждой записи присваивается метка, по которой можно определять класс данных: это спам или нет, клиент платежеспособен или недостаточно. Для этой задачи редко используют алгоритмы, метки проставляют вручную. Качественно размеченные данные имеют большую ценность.

«Со стороны заказчика часто присылаются первые данные, которые не готовы для анализа. Специалист их изучает и пытается понять взаимосвязи внутри данных. Для этого часто используется пайплайн — стандартная последовательность действий для процесса анализа данных, которая у каждого своя. Во время ‘‘просмотра’’ у специалиста возникают гипотезы относительно данных, которые он потом будет проверять», — говорит Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.

Во время обработки данные переводятся в формат, удобный для машинного обучения, чтобы запустить первое, «пробное» обучение. Оно должно подтвердить или опровергнуть гипотезы о данных, которые есть у специалиста по Data Science. Если гипотезы не подтверждаются, работа с этим набором данных прекращается. Если одна или несколько гипотез окажутся жизнеспособными — на выходе получается первая версии модели. Её можно назвать baseline-моделью или базовой, относительно которой на следующих итерациях можно искать улучшения в качестве работы модели. Это минимально работающий продукт, который можно показать, протестировать и развивать дальше.

Вместе с моделированием или перед ним выбирают метрики для оценки эффективности модели. Как правило, это две категории: метрики для бизнеса и технические. Бизнес-метрики отвечают на вопрос «каков экономический эффект от работы данной модели?» Технические определяют качество модели, например, точность предсказаний.

Модель оценивают на контролируемость и безопасность. Например, для задач медицинской диагностики это решающий фактор. Когда модель готова и протестирована, то её встраивают в производственный процесс (например, кредитный конвейер) или продукт (например, мобильное приложение). Она начинает приносить пользу в реальной жизни.

Ошибки в моделях могут дорого стоит компании. Например, неверная скоринговая модель создаст ситуацию, когда ненадежные заемщики массово не смогут возвращать кредиты. В результате банк понесёт убытки.

Что нужно для старта

Знание математической статистики, базовые навыки программирования и анализа данных нужны для входа в любую сферу, где может быть занят датасаентист. Следующие этапы потребуют более глубоких знаний. Набор необходимых скиллов и инструментов будет во многом зависеть от задач конкретной компании.

«Для решения простых задач и попадания на уровень джуниора достаточно базовых знаний машинного обучения, математического аппарата и программирования. От специалиста уровня мидл и сеньор уже требуется умение тонко настраивать параметры, которые влияют на общее качество результата. Список разделов из высшей математики и понимание математической постановки каждой модели на этому уровне на порядок выше, чем для джуниора» — Анна Чувилина, автор и менеджер программы «Аналитик данных» в Яндекс.Практикум.

Как правило, в Data Science используют SQL, Python, для сложных вычислений — C/C++. Хороший уровень английского поможет быстрее расти за счет чтения профессиональной литературы и общения с другими профессионалами отрасли.

Бэкграунд разработчика хорошо подходит для переквалификации в датасаентисты. Разработчики знают языки программирования, разбираются в алгоритмах и имеют представление о принципах работы инструментов в ИТ. В таком случае переход в новую специальность займет несколько месяцев. Важные конкурентные преимущества, доступные профессионалам из других сфер: лучшее понимание предметной области, сильные коммуникативные навыки.

От начинающего специалиста по Data Science работодатель ждёт:

Опыт работы с реальными бизнес-проектами для работодателя важнее, чем ученая степень или профильное высшее образование. Дипломы сильных вузов и тематические научные работы ценятся больше при выборе привлеченных консультантов на стратегические проекты. А по практическому опыту выбирают датасаентиста для решения ежедневных задач компании.

Перед датасаентистом не стоит задача охватить все области математического знания или освоить каждый программный инструмент, который можно применить для анализа данных и построения модели. Над масштабными и сложными проектами обычно работают группы специалистов. Здесь навыки и знания каждого дополняют общий инструментарий. Чтобы стартовать в профессии достаточно любить программирование, математику и не бояться сложных задач.

Источник

Все что вы (не) хотели знать о Data Science

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Всем привет! Меня зовут Михаил Дьячков, и в Ситимобил я занимаюсь анализом данных и машинным обучением. Сегодня я хочу поговорить о Data Science: что же это вообще такое в глазах кандидатов, работодателей и экспертов; о несовпадении ожиданий, грейдах и собеседованиях, а также о том, какие задачи решают дата саентисты в Ситимобил.

Что такое Data Science?

Пожалуй, самое лаконичное определение, которое мне удалось найти в интернете:

Data science (Наука о данных) — это дисциплина, которая позволяет сделать данные полезными.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Я думаю, что если найти пересечение различных определений что же такое Data Science, то им будет лишь одно слово — данные. Всё это говорит о том, что широта применения Data Science огромна. Согласитесь, но ведь в этом нет ничего хорошего ни для кого: ни для вас, ни для бизнеса. Эта широта не дает никакой информации о вашей потенциальной деятельности. Ведь с данными можно делать всё, что угодно. Можно строить сложные отчеты или «шатать» таблички с помощью SQL. Можно предсказывать спрос на такси константой или строить сложные математические модели динамического ценообразования. А еще можно настроить поточную обработку данных для высоконагруженных сервисов, работающих в режиме реального времени.

А вообще, причем здесь слово «наука»? Безусловно, под капотом у Data Science серьезнейший математический аппарат: теория оптимизации, линейная алгебра, математическая статистика и другие области математики. Но настоящим академическим трудом занимаются единицы. Бизнесу нужны не научные труды, а решение проблем. Лишь гиганты могут позволить себе штат сотрудников, которые будут только и делать, что изучать и писать научные труды, придумывать новые и улучшать текущие алгоритмы и методы машинного обучения.

К сожалению, многие эксперты в этой области на разных мероприятиях зачастую связывают Data Science в первую очередь с построением моделей с помощью алгоритмов машинного обучения и довольно редко рассказывают самое важное, по-моему, — откуда возникла потребность в той или иной задаче, как она была сформулирована на «математическом языке», как это всё реализовано в эксплуатации, как провести честный эксперимент, чтобы правильно оценить бизнес-эффект.

Кто такой Data Scientist?

Когда мы поняли, что ничего не поняли, стоит поговорить о data scientist’ах — специалистах по анализу данных.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимаетсяData Scientist в глазах потенциального работодателя

Одни считают, что эта должность подразумевает построение нейросетей в Jupyter Notebook’e. Другие ждут от таких специалистов, что те придут и будут закрывать все задачи «под ключ». А третьи просто хотят иметь в штате таких модных ребят. Такое разное понимание должности или непонимание вовсе может навредить при найме и вам, как кандидату, и компании.

Очень хорошую аналогию с Computer Science привел Валерий Бабушкин в своем докладе «Почему вы никогда не наймете дата саентиста». Постараюсь кратко ее передать.

Computer Science — некоторая область тесно связанных между собой дисциплин, но при этом почему-то никто не ищет на работу Computer Scientist’a. На работу ищут разработчика, тестировщика, DevOps’ов, архитекторов. Даже разработчика ищут frontend- и backend-разработчиков, вплоть до того, что ищут backend-разработчика на C++. Почему это хорошо? Потому что даже из названия вакансии на 90 % понятно, чем будет занят backend-разработчик на C++. Это дает довольно много информации и снижает энтропию. А если вы вдруг ищете Computer Scientist’a, то по-русски это что, компьютерщик? Это что-то из девяностых или нулевых. «У нас сломался принтер, позовите компьютерщика».

Из всего этого вырисовывается проблема. Если сходить на 10 собеседований, даже не обязательно в разные компании, в которых ищут Data Scientist’a, то вы поймете, что на каждом собеседовании от вас будут ожидать совершенно разного, и в конечном итоге у вас будут совершенно разные задачи. Где-то вам предложат в рамках ИИ-трансформации 200 Excel-файлов. В другом месте предложат поднять кластер на несколько петабайт. На третьем собеседовании вам расскажут, что ожидают от вас визуализацию метрик в Tableau. На четвёртом вас попросят построить real-time рекомендательную систему, которая будет работать под нагрузкой в несколько тысяч запросов в секунду. На пятом собеседовании будут задачи по компьютерному зрению, а на шестом придётся писать сложные SQL-скрипты. В седьмой компании вас заставят читать статьи, строить красивые Jupyter notebook’и и писать какие-то прогнозы. А где-то ещё и собрать эти расчеты в Docker-контейнер, и с помощью Kubernetes развернуть свой сервис на много машин.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Но проходит какое-то время и наступает суровая реальность: оказывается, что прежде чем обучать модели и подбирать гиперпараметры, нужно сделать очень много чего. Например, пообщаться с бизнесом и понять, какая же у них на самом деле головная боль, затем сформулировать эту боль на математическом языке, найти данные для задачи, очистить их, подумать над признаками, собрать модели, обернуть всё это в MLflow, положить в Docker-контейнер, оценить потенциальные нагрузки и отправить в эксплуатацию. Это можно сравнить с ситуацией, когда у вас спрашивают: «Ягоду будете?», вы отвечаете: «Да» и получаете арбуз — это ведь тоже ягода.

Как решать проблему несовпадения ожиданий?

Алексей Натекин в своем докладе «Чем отличаются data analyst, data engineer и data scientist» нарисовал картинку с распределением Дирихле, то есть с вероятностью вероятностей.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Предположим, что в Data Science существуют три основные компетенции:

Математика. Теоретические знания алгоритмов машинного обучения, и математическая статистика для проверки разных статистических гипотез и обработки результатов, а также любые другие фундаментальные знания, которые будут важны в вашей предметной области.

Разработка. Всё, что связано с разработкой, инженерными составляющими проекта, DevOps, SysOps, SRE, и прочее.

Предметная область. Навыки коммуникации с коллегами и бизнесом, чтобы понимать, какую проблему они хотят решить, на какие вопросы ответить.

И Data Scientist в этой парадигме — это некоторое наблюдение из нашего распределения Дирихле. Но с помощью этого распределения можно ввести несколько новых должностей, которые будут давать более ясное представление о вашей потенциальной деятельности. Рассмотрим несколько из них.

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

Если вы ищете работу на позицию Machine Learning Engineer, то, скорее всего, будете заниматься введением в эксплуатацию моделей машинного обучения и поддерживать их в актуальном состоянии. Для этого вам потребуются навыки и знания в области алгоритмов машинного обучения, ну и, конечно, разработки.

Если вы аналитик данных, то, вероятно, вы будете заниматься проверкой статистических гипотез, проектировать и проводить эксперименты. Для этого вам требуются фундаментальные знания математической статистики, а также необходимо держать руку на пульсе бизнеса.

Дата-инженер — это человек, который занимается ETL-процессами, архитектурой хранилища, составляет витрины и поддерживает их, организовывает потоковую обработку данных.

Machine Learning Researcher занимается исследовательской работой. Пишет и изучает статьи, придумывает новые математические методы. Таких позиций в России довольно мало, да и встречаются они, как правило, в крупных компаниях, которые могут себе это позволить.

Аналитик — это человек, который отвечает на вопросы бизнеса, и его плотность вероятности приходится на предметную область.

Наконец, DevOps максимально сосредоточен на разработке и развёртывании вашего кода в продакшене.

Junior/Middle/Senior/Team Lead/.

Попробуем коротко сформулировать профиль человека, который будет находиться на каждом из грейдов в мире Data Science. Не стоит забывать, что от компании к компании уровень компетенций для каждого из грейдов может довольно сильно отличаться.

Junior Data Scientist

дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

    Умеет реализовать полный DS-пайплайн: «приготовить» данные, обучить модель, измерить ее качество.

    Делает только то, что ему сказали.

    Нуждается в постоянной опеке и контроле.

    Middle Data Scientist

    дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

      Имеет подтвержденный на практике результат, например, построил и внедрил модель оттока клиентов, которая экономит компании N млн. руб в год.

      Может обсуждать бизнес-постановку задачи.

      В меру самостоятельный.

      Senior Data Scientist

      дата сайнтист чем занимается. Смотреть фото дата сайнтист чем занимается. Смотреть картинку дата сайнтист чем занимается. Картинка про дата сайнтист чем занимается. Фото дата сайнтист чем занимается

        Имеет более обширный опыт по сравнению с мидлом.

        Может самостоятельно формулировать и решать задачи.

        Имеет опыт наставничества или готов быть ментором.

        Обладает высоким уровнем эмоционального интеллекта.

        Уровень технических компетенций выше мидла.

        Если у middle ребят возникают проблемы с ростом и развитием, то зачастую это связано с

        не готовностью брать ответственность и инициативу на себя и доводить дело до конца

        неумением находить общий язык с бизнес заказчиками и смежниками

        недостаточным уровнем эмоционального интеллекта и/или отсутствия понимания его важности в рабочей деятельности

        А дальше уже сложнее, потому что тимлид может руководить как командой из 2-3 человек, так и несколькими отделами. Вот примеры «уровней» тимлида:

        Эксперт, который отвечает за конкретные участки DS-пайплайна. Работает в соответствие с поставленными перед ним задачами. Координирует работу нескольких младших коллег.

        Ставит задачи экспертам в соответствии с заданным планом и координирует их работу. Несет ответственность за конкретное направление DS в компании.

        Отвечает за продукт/проект/направление, имеющие большое значение для крупной компании. Определяет требования к команде и составляет планы в соответствии с заданным направлением действий.

        Отвечает за стратегически важный продукт/проект/направление в крупной компании. Руководит большой командой data scientist’ов и аналитиков. Задает команде направление действий, оценивает сроки и затраты, отвечает за результаты проектов.

        Чем выше ваш уровень, тем больше ответственности и тем сложнее направление R&D. А значит, и больше ваша зарплата.

        Но всё же можно выделить характерные отличия тимлида. Безусловно, этот человек должен обладать техническими навыками (hard skills): он знает, как сделать так, чтобы «всё заработало», может ответить на специфичные для продукта вопросы, знает, как работает продукт. А еще тимлид планирует и формулирует задачи (впоследствии «продаёт»), раскладывает их на составляющие, напрямую общается с бизнесом, работает с командой, занимается развитием и ростом своих ребят. Для тимлида важно думать и жить в терминах продукта и бизнеса, быть проактивным и доводить дело до конца.

        Подготовка к собеседованию

        Я за свою карьеру провел немало собеседований и могу дать несколько советов начинающим специалистам, что нужно обязательно сделать перед отправкой резюме в компанию и собеседованием.

        Прежде чем откликаться на вакансию, внимательно прочитайте её описание до конца. Казалось бы, что за дурацкий совет. Но, как показывает практика, очень многие не делают даже этого. И на собеседовании порой возникают неловкие моменты.

        Попробуйте поискать информацию о вашей потенциальной компании. Было бы здорово иметь представление о ней и о продукте.

        Ознакомьтесь со списком ожидаемых знаний и навыков. Ответьте себе на вопрос, пересекаетесь ли вы с этим списком, и если да, то насколько глубоко.

        Определите для себя, на какую зарплату вы претендуете. Если не можете ответить, то можно посмотреть актуальные вакансии с вилками в сообществе OpenDataScience в канале #_jobs, и таким образом оценить текущее состояние рынка.

        Займитесь своим резюме. Его структура и выделение ваших ключевых особенностей, навыков и результатов очень важны при просмотре работодателем.

        Не нервничайте. Проходить собеседования тоже нужно уметь, и тут без опыта никуда.

        Что будет на собеседовании

        Беседа будет строится вокруг:

        Вашего опыта, подтвержденного результатом. Важно понимать, как ваш проект повлиял на бизнес, а не как вы повысили auc roc на 2 %.

        Ваших знаний о моделях и алгоритмах машинного обучения. Причем вряд ли на собеседовании на позицию, где предстоит заниматься задачами динамического ценообразования, вас будут спрашивать о глубоких нейронных сетях, которые решают задачи сегментации изображений.

        Метрик оценки качества моделей (как оффлайн, так и онлайн).

        Статистических критериев и всего, что каким-то образом связано с проведением экспериментов.

        Программирования, например, на Python (задача для разминки: реверсировать список).

        Возможно, алгоритмов и структур данных, если ваша работа как-то связана с высоконагруженными сервисами.

        Технологий, с которыми вы работали и/или с которыми вам предстоит работать.

        Culture fit и поведенческой составляющей.

        Примеры популярных технических вопросов на собеседовании с начинающим специалистом, ответы на которые, увы, могут дать далеко не все:

        Что такое логистическая регрессия и как она работает?

        Чем фундаментально отличается градиентный бустинг на деревьях от алгоритма случайного леса?

        Как проверить статистическую значимость в АБ-эксперименте?

        Какие вы знаете метрики оценки качества в задачах бинарной классификации?

        Какие встроенные структуры данных в Python неизменяемы?

        На самом собеседовании не стесняйтесь задавать вопросы. Это не экзамен, здесь должен быть диалог. Поинтересуйтесь, какая у вас будет команда, задачи, какие технологии вы будете использовать в работе, какие от вас ожидают результаты, какие глобальные цели у компании.

        Как дела обстоят у нас

        Мы создаем систему городской мобильности с человеческим отношением к пассажирам и водителям. И хотим сделать это отраслевым стандартом. Хотим встречать и провожать пассажиров в аэропорты и на вокзалы; доставлять важные документы по указанным адресам быстрее курьеров; сделать так, чтобы на такси было не страшно отправить ребёнка в школу или девушку домой после свидания, даем возможность выбрать транспорт — каршеринг, такси или самокат. И даже если нашим пассажиром является котик, то ему должно быть максимально комфортно.

        У нас есть большой отдел эффективности платформы (или Marketplace), где в каждом из направлений работают специалисты по обработке и анализу данных.

        Ценообразование: правильный и правдоподобный предрасчет цены для клиента на предстоящую поездку. Мы разрабатываем алгоритмы, которые тонко настраивают наши цены под специфические региональные и временные условия, а также помогают нам держать вектор оптимального ценового роста и развития

        Клиентские мотивации: помогают нам привлекать новых клиентов, удерживать старых и делать нашу цену самой привлекательной на рынке. Основное направление — это разработка алгоритма оптимального распределения бюджета на скидки клиентам для достижения максимального количества поездок. Мы стремимся создать выгодное предложение для каждого клиента, поддержать и ускорить наш рост

        Водительские мотивации: одна из главных задач Ситимобил — забота о водителях. Наши алгоритмы создают для них среду, в которой каждый работает эффективно и зарабатывает много. Мы стремимся разработать подход, позволяющий стимулировать водителей к выполнению поездок там, где другие алгоритмы не справляются: возмещаем простой на линии, если нет заказов, и гарантируем стабильность завтрашнего дня для привлечения всё новых и новых водителей.

        Динамическое ценообразование: главная задача направления — гарантировать возможность уехать на такси в любое время и в любом месте. Достигается это за счет кратковременного изменения цен, когда желающих уехать больше, чем водителей в определенной гео-зоне.

        Распределение заказов: эффективные алгоритмы назначения водителей на заказ уменьшают длительность ожидания и повышают заработок водителей. Задача этого направления — создать масштабируемые механизмы назначения, превосходно работающие как в целом по городам, так и в разрезе каждого тарифа.

        Исследование эффективности маркетплейсов: центральное аналитическое направление, задачей которого является анализ эффективного баланса между количеством водителей на линии и пассажирами.

        ГЕО сервисы: эффективное использование геоданных помогает различным командам эффективно настраивать свои алгоритмы, которые напрямую зависят от качества этих данных. Мы стремимся создавать такие модели, сервисы и алгоритмы, которые не только повышают качество маршрутизации и гео-поиска, но и напрямую воздействуют на бизнес, а также клиентский опыт.

        Специалист по анализу данных (data scientist) может иметь очень широкий спектр обязанностей. Это сложная и увлекательная профессия, требующая самых разных навыков и позволяющая решать очень интересные задачи. Если вас заинтересовали наши направления, то обязательно заходите на нашу публичную страницу с вакансиями и откликайтесь на них.

        Источник

        Добавить комментарий

        Ваш адрес email не будет опубликован. Обязательные поля помечены *