The 5 reference contexts in paper S. LIPNITSKY F., С. ЛИПНИЦКИЙ Ф. (2016) “АЛГОРИТМЫ РУБРИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ И КРАТКИХ СООБЩЕНИЙ В СИСТЕМЕ ИНФОРМАЦИОННОГО ИНТЕРНЕТ-МОНИТОРИНГА // ALGORITHMS OF CATEGORIZATION OF TEXT DOCUMENTS AND SUMMARIES IN A SYSTEM OF INFORMATIONAL INTERNET-MONITORING” / spz:neicon:vestift:y:2016:i:3:p:111-117

  1. Start
    3440
    Prefix
    В данной статье предлагается подход к автоматической рубрикации неструктурированных текстовых документов и кратких сообщений, основанный на использовании тематических корпусов текстов, накопленных в соответствии с позициями рубрикатора. Для рубрикации текстов предлагается использовать разработанную автором модель представления знаний о предметной области на основе вербальных ассоциаций
    Exact
    [1]
    Suffix
    . В отличие от существующих методов (см., например, [2]), основанных преимущественно на составляемых «вручную» списках ключевых слов, предлагаемый подход обеспечивает автоматическое индексирование документов и сообщений. 1.
    (check this in PDF content)

  2. Start
    3496
    Prefix
    Для рубрикации текстов предлагается использовать разработанную автором модель представления знаний о предметной области на основе вербальных ассоциаций [1]. В отличие от существующих методов (см., например,
    Exact
    [2]
    Suffix
    ), основанных преимущественно на составляемых «вручную» списках ключевых слов, предлагаемый подход обеспечивает автоматическое индексирование документов и сообщений. 1. Понятие рубрикатора текстов и кратких сообщений При построении рубрикатора каждой его позиции соотнесем название рубрики и поисковый образ (ПО) релевантного ей тематического корпуса текстов.
    (check this in PDF content)

  3. Start
    5520
    Prefix
    Информативность каждой словоформы a из текста Ti при его индексировании будем вычислять как отношение абсолютной частоты встречаемости словоформы a в тематическом корпусе текстов Cti к абсолютной частоте ее появления в полном корпусе текстов Cf
    Exact
    [2]
    Suffix
    : I nnCta aaii/Ct Cf=. (2) Информативность iaCtI слова a вычисляется с учетом словоизменений и синонимии, которые зафиксированы в следующих лингвистических словарях [3]: частотный словарь словоформ Dica = {〈a, aCfn, 1aCtn, 2aCtn, ... , naCtn〉| a ∈ WCf}, в котором каждой словоформе приписаны частоты ее встречаемости aCfn, 1aCtn, 2aCtn, ... , naCtn во всех корпусах текстов (WCf – множест
    (check this in PDF content)

  4. Start
    5690
    Prefix
    словоформы a из текста Ti при его индексировании будем вычислять как отношение абсолютной частоты встречаемости словоформы a в тематическом корпусе текстов Cti к абсолютной частоте ее появления в полном корпусе текстов Cf [2]: I nnCta aaii/Ct Cf=. (2) Информативность iaCtI слова a вычисляется с учетом словоизменений и синонимии, которые зафиксированы в следующих лингвистических словарях
    Exact
    [3]
    Suffix
    : частотный словарь словоформ Dica = {〈a, aCfn, 1aCtn, 2aCtn, ... , naCtn〉| a ∈ WCf}, в котором каждой словоформе приписаны частоты ее встречаемости aCfn, 1aCtn, 2aCtn, ... , naCtn во всех корпусах текстов (WCf – множество всех словоформ полного корпуса текстов Cf ); частотный словарь слабоинформативных словоформ Wea = {〈a, aCfn, 1aCtn, 2aCtn, ..., naCtn〉| a ∈ WCf, i/0 aa nn ICt Cf≤, 1,in=
    (check this in PDF content)

  5. Start
    10509
    Prefix
    (Компонента вектора kcJ= 1, если слово ck присутствует в ПОQ текста Q, и kcJ= 0 в противном случае.) Аналогично представим вектор ПОT рубрицируемого текста T: 12 FT cc c( , ,..., )lII I=. Как показано в
    Exact
    [1]
    Suffix
    , в качестве критерия выдачи целесообразно использовать косинус угла между векторами TF и ПОQF: ПО1 ПО22 11 cos | ||| Qkk Q kk l Tcc k Tll cc kk IJ IJ = == j== ∑ ∑∑ FF FF . (6) Если эта мера превышает некоторый порог cos j0, то текст Q будем считать элементом создаваемого динамического корпуса текстов Dt: 0{, cos cos }Dt Q Q Cf= | ∈j> j.
    (check this in PDF content)