The 13 reference contexts in paper Anna Glazkova V., А. Глазкова В. (2017) “ОЦЕНКА РЕЗУЛЬТАТИВНОСТИ ПРИМЕНЕНИЯ РАССТОЯНИЙ ЕВКЛИДА И МАХАЛАНОБИСА ДЛЯ РЕШЕНИЯ ОДНОЙ ИЗ ЗАДАЧ КЛАССИФИКАЦИИ ТЕКСТОВ // EFFICIENCY ASSESSMENT OF EUCLIDEAN AND MAKHALANOBIS DISTANCES FOR SOLVING A MAJOR TEXT CLASSIFICATION PROBLEM” / spz:neicon:vestnik:y:2017:i:1:p:86-93

  1. Start
    5737
    Prefix
    Keywords: Euclidean distance, Mahalanobis distance, document classification, natural language processing, text characteristics, text, classification feature Введение. Решение вопросов обработки текстов на естественном языке является важным направлением развития информационного поиска
    Exact
    [1-2]
    Suffix
    . Актуальными проблемами классификации естественно-языковых текстов являются идентификация автора и адресата текста. Механизмы решения данных задач применяются при создании диалоговых и поисковых систем, систем электронного обучения и фильтрации спама.
    (check this in PDF content)

  2. Start
    6137
    Prefix
    Механизмы решения данных задач применяются при создании диалоговых и поисковых систем, систем электронного обучения и фильтрации спама. Проблемам атрибуции (установлению авторства) текста посвящены работы многих российских и зарубежных учѐных (в частности,
    Exact
    [3-5]
    Suffix
    ). Вопрос определения характеристик адресата текста в настоящее время является менее освещенным и затрагивается преимущественно зарубежными исследователями (работы [6-7]). В то же время задача идентификации адресата текста приобретает высокую актуальность в связи с введением возрастных ограничений на контент интернет-страниц и содержимое текстовых ресурсов.
    (check this in PDF content)

  3. Start
    6322
    Prefix
    Проблемам атрибуции (установлению авторства) текста посвящены работы многих российских и зарубежных учѐных (в частности, [3-5]). Вопрос определения характеристик адресата текста в настоящее время является менее освещенным и затрагивается преимущественно зарубежными исследователями (работы
    Exact
    [6-7]
    Suffix
    ). В то же время задача идентификации адресата текста приобретает высокую актуальность в связи с введением возрастных ограничений на контент интернет-страниц и содержимое текстовых ресурсов.
    (check this in PDF content)

  4. Start
    6620
    Prefix
    В то же время задача идентификации адресата текста приобретает высокую актуальность в связи с введением возрастных ограничений на контент интернет-страниц и содержимое текстовых ресурсов. Важным этапом построения классификатора является создание набора информативных признаков
    Exact
    [8-9]
    Suffix
    . На основании полученного набора признаков проводится разбиение объектов обучающей выборки и обучение классификатора, использующее детерминированные линейные методы [3; 10] или нелинейные методы, построенные на использовании деревьев решений и нейронных сетей [11-12].
    (check this in PDF content)

  5. Start
    6791
    Prefix
    Важным этапом построения классификатора является создание набора информативных признаков [8-9]. На основании полученного набора признаков проводится разбиение объектов обучающей выборки и обучение классификатора, использующее детерминированные линейные методы
    Exact
    [3; 10]
    Suffix
    или нелинейные методы, построенные на использовании деревьев решений и нейронных сетей [11-12]. Преимущество детерминированных методов состоит в большей прозрачности процесса классификации, что создает возможность пользователю системы классификации проанализировать степень зависимости результатов от значений различных классификационных признаков.
    (check this in PDF content)

  6. Start
    6888
    Prefix
    На основании полученного набора признаков проводится разбиение объектов обучающей выборки и обучение классификатора, использующее детерминированные линейные методы [3; 10] или нелинейные методы, построенные на использовании деревьев решений и нейронных сетей
    Exact
    [11-12]
    Suffix
    . Преимущество детерминированных методов состоит в большей прозрачности процесса классификации, что создает возможность пользователю системы классификации проанализировать степень зависимости результатов от значений различных классификационных признаков.
    (check this in PDF content)

  7. Start
    8761
    Prefix
    В табл. 1 в обобщенном виде приводится перечень наиболее часто применяемых метрик и коэффициентов ассоциативности, используемых для установления меры близости объектов, описанных бинарными переменными
    Exact
    [13-14]
    Suffix
    . Таблица 1. Методы установления меры близости объектов Table 1. Methods for establishing the proximity of objects Мера близости Шкала измерения признаков Примечание Евклидово расстояние Количественные шкалы Представляет собой геометрическое расстояние в многомерном пространстве признаков.
    (check this in PDF content)

  8. Start
    10818
    Prefix
    В данной работе, исходя из особенностей поставленной задачи, а также предположений о составе набора классификационных признаков, для вычисления меры близости текстов были выбраны расстояние Евклида и расстояние Махаланобиса. Обе меры близости неоднократно применялись для решения задач классификации
    Exact
    [15-17]
    Suffix
    и в зависимости от условий постановки задачи демонстрировали ту или иную степень предпочтительности своего использования. Расчет расстояния Евклида проводился по классической формуле вычисления меры близости объектов, представленных точками в многомерном пространстве: 2 1 k Eii i ( x,y )( x y ) ,   (1) где xi, yi — значения i-го признака объектов x и y; k – общ
    (check this in PDF content)

  9. Start
    11671
    Prefix
    В ходе вычислительного эксперимента использовались база данных «Морфологический стандарт Национального корпуса русского языка» и «База данных метатекстовой разметки Национального корпуса русского языка» (коллекция детской литературы)»
    Exact
    [18]
    Suffix
    . Тексты, составляющие Национальный корпус русского языка [19], размечены по различным лингвистическим параметрам. Базы содержат заведомо качественные и максимально разнообразные тексты на русском языке, возрастная категория потенциальных читателей которых – взрослая или детская – определена на основании мнений экспертов.
    (check this in PDF content)

  10. Start
    11738
    Prefix
    В ходе вычислительного эксперимента использовались база данных «Морфологический стандарт Национального корпуса русского языка» и «База данных метатекстовой разметки Национального корпуса русского языка» (коллекция детской литературы)» [18]. Тексты, составляющие Национальный корпус русского языка
    Exact
    [19]
    Suffix
    , размечены по различным лингвистическим параметрам. Базы содержат заведомо качественные и максимально разнообразные тексты на русском языке, возрастная категория потенциальных читателей которых – взрослая или детская – определена на основании мнений экспертов.
    (check this in PDF content)

  11. Start
    12475
    Prefix
    В исследовании, в соответствии с выборкой, предоставленной для эксперимента, используется деление текстов на детские и взрослые. Набор классификационных признаков. Анализ данных показал возможность использования следующего набора классификационных признаков
    Exact
    [20]
    Suffix
    : – средняя длина слов текста (кроме стоп-слов); – среднее количество слов в предложении; – количество многосложных слов в тексте (более трех слогов, %); – количество особых глагольных форм в тексте (%); – среднее количество грамматических основ в предложении; – количество числительных в тексте (%); – доля простых предложений с двумя главными членами (относительно простых предложен
    (check this in PDF content)

  12. Start
    15201
    Prefix
    Это обусловлено тем, что расстояние Чебышева высчитывается как абсолютное значение максимальной разности последовательных пар значений признаков, характеризующих тексты. То есть оно применимо в случае, когда необходимо определить два объекта как различные, исходя из значений одного признака
    Exact
    [21]
    Suffix
    . Коэффициенты ассоциативности, в отличие от мер сходства, предназначены для сравнения объекта не с эталоном, а для определения некой взаимной упорядоченности объектов [13]. Для проведения же классификации по известным классам необходимо вычисление именно меры близости объекта с эталоном, то есть с центроидом класса.
    (check this in PDF content)

  13. Start
    15391
    Prefix
    То есть оно применимо в случае, когда необходимо определить два объекта как различные, исходя из значений одного признака [21]. Коэффициенты ассоциативности, в отличие от мер сходства, предназначены для сравнения объекта не с эталоном, а для определения некой взаимной упорядоченности объектов
    Exact
    [13]
    Suffix
    . Для проведения же классификации по известным классам необходимо вычисление именно меры близости объекта с эталоном, то есть с центроидом класса. Вывод. Описанный в работе вычислительный эксперимент призван определить наиболее эффективный метод решения задачи определения возрастной категории потенциальных адресатов текста.
    (check this in PDF content)