что означает термин категоризация данных

База знаний

Вопросы и ответы

Что такое категоризация данных и для чего она нужна?

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Категоризация данных позволяет классифицировать документы, файлы, проекты, проектные задачи, мероприятия и документы как в разрезах, используемых в рамках всей компании, так и в удобных для конкретного пользователя представлениях.

Для использования в системе механизма категоризации необходимо указать флаг «Категории для документов и файлов» в разделе Делопроизводство в настройках программы, после этого станут доступны элементы управления, формы и отчеты механизма категоризации. Можно будет создавать дерево категорий и настраивать доступ к ним.

В дереве категорий можно создать персональные (личные) и общие категории, доступ к которым будет у строго определенных пользователей или рабочих групп. Иерархия категорий не допускает, чтобы персональные категории подчинялись общим и наоборот.

Категории данных устанавливаются пользователем или автоматически по заранее настроенным правилам. Каждый документ системы, файл, мероприятие, проект или проектная задача могут иметь произвольное число общих и личных категорий.

Указание категорий позволяет просматривать данные в требуемых разрезах в разделах Документы и файлы, Нормативно-справочная информация, Главное, а также в форме списков документов или файлов, используя команду «Категории».

Есть возможность производить отбор по нескольким интересующим категориям, используя варианты «И»/«ИЛИ» объединения результатов отбора по каждой отдельной категории. Возможен отбор и с учетом подкатегорий.

Существуют настройки системы, управляющие механизмом категорий: «Категории для документов и файлов», «Автоматическая категоризация», «Проверка категорий документов и файлов».

Источник

1. Управление в широком понимании этого термина это

586. Взаимовлияние исследователя и информанта является проблемой для сбора данных в качественных исследованиях?

587. Какой из нижеперечисленных принципов не относится к специфике проведения качественных исследований:

(?) направленность «на субъекта»

(!) использование стандартизированного инструментария для изучения массовых социальных явлений и процессов

(?) установка на комплексное понимание контекста события

(?) указание на определенную ситуацию и на герменевтический анализ действия

588. На какую социологическое направление опирается «социологическая диагностика», формирующая «социальный диагноз»?

589. Что происходит на этапе качественного исследования «наряд заданий» в цикле работ «Основные этапы подготовки исполнителей полевого цикла исследования»?

(?) разработка плана выборочной совокупности

(?) определение проблемы исследования

(!) выдача заданий анкетерам и интервьюерам

(?) разработка анкет или бланков интервью

590. Что происходит на этапе качественного исследования «этап пробных работ» в цикле работ «Основные этапы подготовки исполнителей полевого цикла исследования»?

(?) планирование исследования с заказчиком

(!) репетиция процедур использования методических документов (например, анкет)

(?) формирование научного отчета

591. Что не относится к типичным ошибкам, трудностям, проблемам в организации качественного исследования?

(?) программа исследования не формировалась, а инструментарий разработан (появляются системные ошибки из-за неучтенной информации)

(?) программа составлена без предварительного знакомства с объектом

(?) на подготовительном этапе не сформированы рабочий план и сетевой график работ

(!) выборочная совокупность относится к вероятностному типу

(?) план исследовательских работ не согласован с заказчиком

592. Что происходит на «инструктивно-ознакомительном этапе» качественного исследования в цикле работ «Основные этапы подготовки исполнителей полевого цикла исследования»?

(?) разработка плана выборочной совокупности

(?) определение проблемы исследования

(!) ознакомление исполнителей с целями, задачами исследования

(?) разработка анкет или бланков интервью

593. Текст (стенограмма), получившаяся в результате проведения глубинного интервью:

594. Что называется «проверкой надежности данных» в качественном исследовании?

(!) выявление противоречий в высказываниях респондента

595. Что означает термин «триангуляция данных» в качественных исследованиях?

(!) возможность совмещать методы качественного и количественного анализа

(?) проверка качественных данных с помощью других методик

(?) сравнение результатов, полученных разными исследователями

596. Какой разновидности кодирования данных в качественных методах не существует?

597. Что означает термин «категоризация данных»?

(!) перевод информации в категории

(?) исключение части ненужной информации из текста

598. Что не относится к типичным ошибкам и трудностям при анализе качественных данных?

(?) субъективизм интерпретации, вытекающий из одностороннего анализа объекта (способ преодоления–триангуляция)

(?) быстрое обобщение данных, основывающееся на малом числе случаев

(?) отсутствие проверки информации на надежность

(!) использование «жестких» методов сбора информации

(?) проблема сознательной и несознательной неискренности респондента, его дополнительной интерпретации событий через призму прожитой жизни

599. Источники данных в историографии не бывают:

600. Какой ученый предложил общую схему анализа и описания «историй жизни»?

601. Что понимал М. Вебер под понятием «идеальный тип»?

(!) некую социокультурную модель, служащую орудием теоретического понимания

602. Биографический метод является разновидностью какого метода?

(?) метода парных сравнений

(?) метода балльных оценок

603. Применение причинных моделей к анализу «историй жизни» требует использования процедур:

604. Какие дальнейшие действия предполагает процедура «категоризации данных «?

(?) триангулярный подход к исследованию: сопоставление данных качественного и количественного подходов

(!) перевод текстовой информации в категории и субкатегории

(?) синергетический эффект выводов исследования

(?) исключение части ненужной информации из текста

605. Что не относится к способам теоретизирования в качественном исследовании (метод восхождения к теории)?

606. Какого вида кодирования в качественных методах не существует?

607. Что называют историографией в качественных методах?

(?) процесс выбора респондентов

(!) попытку реконструкции прошлого на основе документальных данных

(?) процесс формирования научного отчета

(?) процесс сбора информации

1. Наиболее простым видом социологического анализа, охватывающим, как правило, небольшие обследуемые совокупности и основывающимся на упрощенной программе и сжатом по объему методическом инструментарии является

2. Самым сложным видом социологического анализа, ставящим своей целью не только описание структурных элементов изучаемого явления, но и выяснение причин, которые лежат в его основе и обуславливают распространенность, устойчивость или изменчивость и другие свойственные ему черты, является

3. Наиболее распространенным видом социологического исследования и одновременно самым широко используемым методом сбора первичной социологической информации, предполагающим обращение к непосредственному носителю изучаемой проблемы и нацеленным на те ее стороны, которые мало или вообще не поддаются прямому наблюдению, является

4. Информационная функция социологического исследования заключается в

(?) Выработке практических мер по совершенствованию социальной реальности, эффективного контроля над социальными процессами

(!) Получении информации о состоянии и тенденциях развития явлений и процессов общественной жизни, функционирования общностей, групп, отдельных индивидов, их потребностей, мотивов, реального и вербального поведения, общественного мнения

(?) Открытии новых знаний о функционировании и развитии общества и его отдельных сфер, о сущности социальных явлений и процессов, роли человека в них.

5. Познавательная функция социологического исследования заключается в

(?) Выработке практических мер по совершенствованию социальной реальности, эффективного контроля над социальными процессами

(!) Получении информации о состоянии и тенденциях развития явлений и процессов общественной жизни, функционирования общностей, групп, отдельных индивидов, их потребностей, мотивов, реального и вербального поведения, общественного мнения

(?) Открытии новых знаний о функционировании и развитии общества и его отдельных сфер, о сущности социальных явлений и процессов, роли человека в них

6. Методологический раздел программы социологического исследования включает

(!) Обоснование актуальности проблемы

(?) Обоснование типа выборочной совокупности

(!) Определение цели исследования

(!) Интерпретацию основных понятий

7. Методический раздел программы социологического исследования включает

(?) Определение объекта исследования

(!) Определение типа исследования

(!) Обоснование типа выборочной совокупности

(!) Выбор методов сбора информации

8. Однозначно трактуемое понятие, доступная наблюдению или измерению характеристика изучаемого объекта называется

9. Сведение абстрактного теоретического понятия к множеству значений с указанием инструмента их измерения (получения) называется

(?) Эмпирическая интерпретация понятия

(?) Теоретическая интерпретация понятия

10. Объяснительная гипотеза – это

(?) Предположение о существующих свойствах объекта, о характере связей между изучаемыми элементами данного объекта

(!) Предположение о степени тесноты связей, взаимодействий и причинно-следственных зависимостей в изучаемых социальных явлениях и процессах.

11. Выборка, для которой каждый элемент генеральной совокупности имеет определенную, заранее заданную вероятность быть отобранным называется

12. Свойство выборки адекватно отражать характеристики генеральной совокупности получило название

13. Отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности получило название

14. как соотносятся выборочная и генеральная совокупности?

(?) Объем выборочной совокупности равен объему генеральной совокупности

(!) Объем выборочной совокупности меньше объема генеральной совокупности

(?) Объем выборочной совокупности больше объема генеральной совокупности

15. Выборка методом «снежного кома» относится к

16. Шкала, классифицирующая объекты или субъекты пропорционально степени выраженности измеряемого свойства, называется

(!) Шкала равных отношений

17. шкала, классифицирующая по названию (название не измеряется количественно, а лишь позволяет отличить один объект от другого или одного субъекта от другого), называется

(?) Шкала равных отношений

18. Порядковая шкала – это

(!) Шкала, классифицирующая по принципу «больше – меньше».

(?) Шкала, классифицирующая по принципу «больше на определенное количество единиц – меньше на определенное количество единиц».

(?) Это шкала, классифицирующая по названию. Название не измеряется количественно, а лишь позволяет отличить один объект от другого или одного субъекта от другого.

19. В социологии индекс рассматривается как

(!) Сводный числовой показатель, полученный в результате исследования и анализа данных, т.е. на основе других данных.

(?) Первичная информация, полученная в результате социологического исследования

(?) Количество единиц выборочной совокупности

20. Индекс как эмпирический показатель может создаваться

(?) Только на начальном этапе социологического исследования

(?) В результате социологического исследования

(!) Как на начальном этапе исследования, так и в результате исследования.

21. Какова главная задача исследований с использованием количественных методов:

(!) Получение численной оценки состояния объекта изучения

(?) Углубление знаний об объекте

(?) Получение предварительных сведений об объекте, для его дальнейшего углубленного изучения

(?) Разработка практических рекомендаций для

22. Как можно охарактеризовать количественные методы исследования:

(?) Как понимающие и интерпретативные

(?) Как гибкие и индивидуальные

(!) Как формализованные и массовые

23. Сравнительным называется исследование, направленное на:

(?) Анализ закономерностей, тенденций в развитии изучаемого объекта

(!) Изучение однотипных объектов, либо одного объекта в разное время

(?) Проверку, апробацию методики, инструментария

24. Совокупность данных об объекте на определенных стадиях, получаемых в исследованиях соответствующих социальных субъектов это:

25. Псевдолонгитюдный метод заключаются:

(?) В изучении продолжительных периодов развития объекта, но за короткое время

(?) В наблюдении за развитием объекта до определенного момента

(!) В получении показателей для разных социальных групп в хронологическом упорядочивании этих показателей

(?) В научном анализе фактов социальной действительности

(?) В научной интерпретации полученной социальной информации

(!) В чувственном познании социальных объектов

26. Наиболее универсальным эмпирическим методом исследования, который используется во всех без исключения науках, является:

27. Какой из нижеперечисленных методов не относится к количественным методам:

28. Методология контент-анализа документа напоминает:

(!) Лингвистический анализ текста содержания

(?) Анализ библиографических ссылок в научной литературе

29. Если перед исследователем стоит задача получить информацию, которая должна быть сравнима и поддаваться классификации, то необходимо использовать интервью:

30. Метод анализа, заключающийся в том, что обследуемая совокупность расчленяется на однородные группы, отдельные единицы которых обладают общим для всех них признаком, называются:

31. Таблица, в которой группируются результаты выявления связи между двумя переменными, называется:

32. Статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную называется:

33. В каких случаях, при статистической обработке социологической информации исследователи прибегают к расчету «медианы»:

(?) Когда важна быстрота определения меры центральной тенденции

(?) Когда впоследствии нужно будет вычислять стандартное отклонение

(!) Когда в совокупности есть «нетипичные» данные, резко влияющие на среднее

34. С какой целью для статистической обработки социологической информации используется факторный анализ:

(?) Для вычисления коэффициентов корреляции в самых разнообразных соотношениях между переменными

(?) Для исследования влияния переменных факторов на изучаемую переменную по дисперсиям

(!) Для изучения взаимосвязей между совокупностью переменных

35. Системный анализ это:

(!) Это методологическое и методическое направление в изучении социальной реальности, рассматривающее любой ее фрагмент как систему

(?) Это способ объяснения явлений, основанный на анализе их развития

(?) Объяснительные принципы, предопределяющие направление интерпретации результатов исследования

36. Формой методической реализации принципа развития является:

37. Функциональный подход интересуется главным образом:

(!) Связями изучаемого объекта со средой

(?) Выявлением и описанием структуры объектов (явлений)

(?) Выявлением связи изучаемых явлений во времени

38. Что, главным образом, характерно для структурного метода анализа:

(!) Интерес к отношениям между структурными элементами объекта

(?) Выявление связей изучаемых явлений во времени

(?) Рассмотрение любого фрагмента социальной реальности, как системы

39. Изучение сложного социального объекта предполагает использование

40. Развитие качественной методологии стало возможным благодаря:

41. Какая логика анализа характерна для качественных исследований:

Источник

категоризация

Полезное

Смотреть что такое «категоризация» в других словарях:

категоризация — психический процесс отнесения единичного объекта, события, переживания к некоторому классу, в качестве к рого могут выступать вербальные и невербальные значения, символы, сенсорные (см. сенсорная система) и перцептивные (см … Большая психологическая энциклопедия

КАТЕГОРИЗАЦИЯ — (от греч. kategoria высказывание; признак) когнитивные процессы, обеспечивающие распознавание и выявление у объектов, событий и т.д. «прототипных» примеров понятий (категорий). Согласно общепринятым представлениям, наши понятия (концепты) суть… … Философская энциклопедия

категоризация — 3.4 категоризация: Объединение компонентов портфеля в группы на основе установленных критериев. Источник: ГОСТ Р 54870 2011: Проектный менеджмент. Требования к управлению портфелем проектов … Словарь-справочник терминов нормативно-технической документации

Категоризация — Классификация процесс группировки объектов исследования или наблюдения в соответствии с их общими признаками. В результате разработанной классификации создаётся классифицированная система (часто называемая так же, как и процесс классификацией) … Википедия

категоризация — 1) В узком смысле – подведение явления, объекта, процесса и т.п. под определенную рубрику опыта; 2) процесс образования и выделения самих категорий, членения внешнего и внутреннего мира человека сообразно сущностным характеристикам его бытия … Словарь лингвистических терминов Т.В. Жеребило

категоризация — и; ж. Спец. Процесс разделения предметов и явлений на категории … Энциклопедический словарь

КАТЕГОРИЗАЦИЯ — (греч. kategoreo порицаю, упрекаю) психологическая операция по переработке информации, которая приводит к разбиению некоторого множества сигналов на отдельные подмножества категории или классы. Различают два основных вида К.: бинарная (разбиение… … Энциклопедический словарь по психологии и педагогике

Категоризация — (англ. categorize классифицировать, устанавливать категорию) базисное понятие психол. науки (Дж. Брунер), как и более распространенный в отеч. психологии (в первую очередь, в школе Л. С. Выготского, А. Н. Леонтьева, А. Р. Лурии) термин… … Психология общения. Энциклопедический словарь

Категоризация — это мыслительная операция, основанная на отнесения единичного объекта, события, переживания к некоторому классу, в качестве которого могут выступать вербальные и невербальные значения, символы и т.п … Словарь-справочник по философии для студентов лечебного, педиатрического и стоматологического факультетов

категоризация — и; ж.; спец. Процесс разделения предметов и явлений на категории … Словарь многих выражений

Источник

Категориальные данные

Дата публикации Jan 6, 2018

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Введение

Мы рассмотрели различные стратегии проектирования элементов для работы со структурированными непрерывными числовыми данными впредыдущая статья в этой серии,В этой статье мы рассмотрим другой тип структурированных данных, который является дискретным по своей природе и обычно называется категориальными данными. Работа с числовыми данными часто проще, чем категориальные данные, поскольку нам не приходится сталкиваться с дополнительными сложностями семантики, относящейся к каждому значению категории в любом атрибуте данных, относящемся к категориальному типу. Мы будем использовать практический подход, чтобы обсудить несколько схем кодирования для работы с категориальными данными, а также пару популярных методов для работы с крупномасштабным взрывом объектов, часто называемым«Проклятие размерности»,

мотивация

Я уверен, что к настоящему времени вы должны понять мотивацию и важность разработки функций, мы подробно остановимся на том же‘Часть 1’из этой серии. Проверьте это для быстрого освежения в случае необходимости. Короче говоря, алгоритмы машинного обучения не могут работать напрямую с категориальными данными, и вам необходимо выполнить некоторое количество разработки и преобразования этих данных, прежде чем вы сможете начать моделирование ваших данных.

Понимание категориальных данных

Давайте разберемся с категориальным представлением данных, прежде чем углубляться в стратегии разработки функций. Как правило, любой атрибут данных, который по своей природе является категориальным, представляет собой дискретные значения, которые принадлежат конкретному конечному набору категорий или классов. Они также часто называются классами или метками в контексте атрибутов или переменных, которые должны быть предсказаны моделью (широко известной как переменные ответа). Эти дискретные значения могут иметь текстовую или числовую природу (или даже неструктурированные данные, такие как изображения!). Существует два основных класса категориальных данных: номинальные и порядковые.

В любом номинальном атрибуте категориальных данных отсутствует концепция упорядочения среди значений этого атрибута. Рассмотрим простой пример категорий погоды, как показано на следующем рисунке. Мы можем видеть, что у нас есть шесть основных классов или категорий в этом конкретном сценарии без какой-либо концепции или понятия порядка (ветреныйне всегда происходит раньшеСолнечныйне меньше и не большеСолнечный).

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Точно так же жанры кино, музыки и видеоигр, названия стран, типы еды и кухни являются другими примерами номинальных категориальных атрибутов.

Порядковые категориальные атрибуты имеют некоторый смысл или понятие порядка среди своих значений. Например, посмотрите на следующий рисунок для размеров рубашки. Совершенно очевидно, что порядок или в этом случае‘размер’важно думать о рубашках (Sменьше чемMкоторый меньше чемLи так далее).

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Размеры обуви, уровень образования и занятость являются некоторыми другими примерами порядковых категориальных атрибутов. Имея хорошее представление о категориальных данных, давайте теперь рассмотрим некоторые стратегии разработки функций.

Инженерия функций по категориальным данным

В то время как в различных системах машинного обучения был достигнут большой прогресс, он допускает сложные категориальные типы данных, такие как текстовые метки. Обычно любой стандартный рабочий процесс в проектировании функций включает в себя некоторую формупреобразованиеиз этих категориальных значений в числовые метки, а затем применяя некоторыесхема кодированияна эти значения. Мы загружаем необходимые предметы перед началом работы.

Преобразование Номинальных Атрибутов

Номинальные атрибуты состоят из дискретных категориальных значений без понятия или смысла порядка среди них. Идея здесь состоит в том, чтобы преобразовать эти атрибуты в более представительный числовой формат, который может быть легко понят нижестоящим кодом и конвейерами. Давайте посмотрим на новый набор данных, относящихся к продажам видеоигр. Этот набор данных также доступен наKaggleтак же как и в моемGitHub репозиторий.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Эти метки могут использоваться непосредственно часто, особенно с такими структурами, как scikit-learn если вы планируете использовать их в качестве переменных ответа для прогнозирования, однако, как уже говорилось ранее, нам потребуется дополнительный этап их кодирования, прежде чем мы сможем использовать их в качестве функций.

Преобразование Порядковых Атрибутов

Исходя из вышеприведенного вывода, мы можем видеть, что в общей сложности6поколения и каждый покемон, как правило, принадлежит к определенному поколению на основе видеоигр (когда они были выпущены), а также телесериал следует аналогичной временной шкале. Этот атрибут обычно порядковый (знание предметной области здесь необходимо), поскольку большинство покемонов, принадлежащих кПоколение 1были представлены ранее в видеоиграх и телевизионных шоу, чемПоколение 2как только. Поклонники могут проверить следующую фигуру, чтобы вспомнить некоторых популярных покемонов каждого поколения (мнения могут отличаться у разных фанатов!).

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Следовательно, у них есть чувство порядка среди них. В общем, нет универсального модуля или функции для сопоставления и преобразования этих функций в числовые представления на основе автоматического порядка. Следовательно, мы можем использовать собственную схему кодирования \ отображения.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Из приведенного выше кода совершенно очевидно, что map(…) функция от pandas очень полезно в преобразовании этой порядковой особенности.

Кодирование категориальных атрибутов

Если вы помните, что мы упоминали ранее, обычно разработка функций для категориальных данных включает в себя процесс преобразования, который мы описали в предыдущем разделе, и процесс обязательного кодирования, где мы применяем конкретные схемы кодирования для создания фиктивных переменных или функций для каждой категории \ значения в определенной категориальный атрибут.

Вам может быть интересно, мы только что преобразовали категории в числовые метки в предыдущем разделе, зачем нам это сейчас нужно? Причина довольно проста. Учитывая жанры видеоигр, если мы напрямую кормили GenreLabel атрибут как функция в модели машинного обучения, он будет рассматривать его как непрерывное численное значение мышления признака10(Виды спорта) больше, чем6(гоночный) но это бессмысленно, потому чтоВиды спортажанр, конечно, не больше и не меньше, чемгоночныйэто принципиально разные значения или категории, которые нельзя сравнивать напрямую. Следовательно, нам нужен дополнительный уровень схем кодирования, где фиктивные объекты создаются для каждого уникального значения или категории из всех отдельных категорий для каждого атрибута.

Схема горячего кодирования

Учитывая, что у нас есть числовое представление любого категориального атрибута смметки (после преобразования), схема горячего кодирования, кодирует или преобразует атрибут вмдвоичные признаки, которые могут содержать только значение 1 или 0. Таким образом, каждое наблюдение в категориальном признаке преобразуется в вектор размерамтолько с одним из значений как1(указывая это как активный). Давайте возьмем подмножество нашего набора данных покемонов с двумя интересными атрибутами.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Атрибуты интереса покемонов Generation и их Legendary положение дел. Первым шагом являетсяпреобразованиеэти атрибуты в числовые представления на основе того, что мы узнали ранее.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Особенности Gen_Label а также Lgnd_Label Теперь изобразите числовые представления наших категориальных функций. Давайте теперь применим схему быстрого кодирования к этим функциям.

В общем, вы всегда можете кодировать обе функции вместе, используя fit_transform(…) функция, передав ему двумерный массив из двух объектов вместе (Проверьтедокументация!). Но мы кодируем каждую функцию в отдельности, чтобы было проще понять. Помимо этого, мы также можем создать отдельные фреймы данных и соответствующим образом пометить их. Давайте теперь объединим эти фреймы и посмотрим на конечный результат.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Таким образом, вы можете видеть, что6фиктивные переменные или двоичные объекты были созданы для Generation а также2для Legendary так как это общее количество различных категорий в каждом из этих атрибутов соответственно.активныйсостояние категории обозначается1значение в одной из этих фиктивных переменных, что вполне очевидно из приведенного выше фрейма данных.

Предположим, что вы построили эту схему кодирования на ваших тренировочных данных и создали некоторую модель, и теперь у вас есть некоторые новые данные, которые должны быть спроектированы для функций перед предсказаниями, как показано ниже.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Вы можете использовать scikit-learn’s отличный API здесь, позвонив transform(…) функция ранее построенной LabeLEncoder а также OneHotEncoder объекты на новые данные. Помните наш рабочий процесс, сначала мы делаемпреобразование,

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Получив числовые метки, давайте применим схему кодирования сейчас!

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Таким образом, вы можете легко применить эту схему к новым данным, используя scikit-learn’s мощный API.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Вышеупомянутый кадр данных изображает схему горячего кодирования, примененную к Generation атрибут и результаты такие же, как ожидалось, по сравнению с более ранними результатами.

Макетная схема кодирования

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Если вы хотите, вы также можете отказаться от функции двоичного кодирования последнего уровня ( Gen 6 ) следующее.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Исходя из вышеприведенных рисунков, совершенно ясно, что категории, относящиеся к пропущенному элементу, представлены в виде вектора нулей (0)как мы обсуждали ранее.

Схема кодирования эффектов

Схема кодирования эффектов на самом деле очень похожа на схему фиктивного кодирования, за исключением того, что во время процесса кодирования кодированных признаков или вектора признаков для значений категорий, которые представляют все0в фиктивной схеме кодирования заменяется-1в схеме кодирования эффекта. Это станет понятнее со следующим примером.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Схема подсчета бинов

Схемы кодирования, которые мы обсуждали до сих пор, работают достаточно хорошо с категориальными данными в целом, но они начинают вызывать проблемы, когда число отдельных категорий в любой функции становится очень большим. Необходим для любой категориальноймотдельные ярлыки, вы получитемотдельные функции. Это может легко увеличить размер набора функций, вызывая такие проблемы, как хранение, проблемы с обучением модели в отношении времени, пространства и памяти. Помимо этого, мы также имеем дело с тем, что в народе называется«Проклятие размерности» где, в основном, с огромным количеством функций и недостаточно репрезентативными образцами, на производительность модели часто влияют перегрузки.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Схема хеширования функций

Схемы хеширования работают со строками, числами и другими структурами, такими как векторы. Вы можете думать о хэшированных выходных данных как о конечном наборебячейки, так что когда хеш-функция применяется к одним и тем же значениям \ категориям, они назначаются одному и тому же элементу (или подмножеству элементов) избкорзины на основе значения хеш-функции. Мы можем заранее определить значениебкоторый становится окончательным размером закодированного векторного признака для каждого категориального атрибута, который мы кодируем, используя схему хеширования признака.

Таким образом, даже если у нас есть более1000отдельные категории в функции, и мы устанавливаемб = 10в качестве окончательного размера вектора объектов выходной набор будет по-прежнему иметь только10особенности по сравнению с1000двоичные функции, если мы использовали схему горячего кодирования. Давайте рассмотрим Genre атрибут в нашем наборе данных видеоигр.

Мы видим, что в общей сложности существует 12 жанров видеоигр. Если мы использовали одну горячую схему кодирования на Genre особенность, у нас будет 12 бинарных функций. Вместо этого мы теперь будем использовать схему хеширования объектов, используя scikit-learn’s FeatureHasher класс, который использует 32-битную версию со знакомMurmurhash3хэш-функция Мы заранее определим окончательный размер векторного объекта6в этом случае.

что означает термин категоризация данных. Смотреть фото что означает термин категоризация данных. Смотреть картинку что означает термин категоризация данных. Картинка про что означает термин категоризация данных. Фото что означает термин категоризация данных

Исходя из вышеприведенного вывода, Genre категориальный атрибут был закодирован с использованием схемы хеширования в6функции вместо12, Мы также можем видеть, что строки1а также6обозначить тот же жанр игр,Платформакоторые были правильно закодированы в один и тот же вектор признаков.

Вывод

Эти примеры должны дать вам хорошее представление о популярных стратегиях разработки функций для дискретных категориальных данных. Если вы читаетеЧасть 1из этой серии вы бы увидели, что работать с категориальными данными немного сложнее, чем с непрерывными числовыми данными, но, безусловно, интересно! Мы также говорили о некоторых способах обработки больших пространств пространственных объектов с помощью проектирования объектов, но вы также должны помнить, что существуют и другие методы, включаявыбор функцииа такжеуменьшение размерностиметоды для обработки больших пространств объектов. Мы рассмотрим некоторые из этих методов в следующей статье.

Далее будут представлены технические стратегии для неструктурированных текстовых данных. Следите за обновлениями!

Чтобы прочитать о стратегиях разработки функций для непрерывных числовых данных, ознакомьтесь сЧасть 1из этой серии!

Весь код и наборы данных, использованные в этой статье, доступны из моегоGitHub

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *