The 6 references with contexts in paper Victor Kitov V., Виктор Китов Владимирович (2016) “ИССЛЕДОВАНИЕ ТОЧНОСТИ МЕТОДА ГРАДИЕНТНОГО БУСТИНГА СО СЛУЧАЙНЫМИ ПОВОРОТАМИ // ACCURACY ANALYSIS OF THE GRADIENT BOOSTING METHOD WITH RANDOM ROTATIONS” / spz:neicon:statecon:y:2016:i:4:p:22-26

1
Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. 2-ое изд. – Stanford, USA: Springer, 2009.
Total in-text references: 2
  1. In-text reference with the coordinate start=2416
    Prefix
    Существует множество прогнозирующих алгоритмов, накладывающих свои предположения о данных, таких как метод ближайших соседей, метод опорных векторов, линейная регрессия, логистическая регрессия, решающие деревья, нейросети и др. – см
    Exact
    [1]
    Suffix
    . Однако, поскольку прогнозируемые данные, скорее всего, имеют более сложные свойства, чем те предположения, которые делаются в рассматриваемых методах, то более выигрышной, с точки зрения точности, стратегией является прогнозирование не единственной моделью, а набором моделей, объединенных в композицию (другое название – ансамбль моделей), см. [2, 3].

  2. In-text reference with the coordinate start=11590
    Prefix
    Каждый набор данных случайно делится на обучающую выборку (50% объектов), валидационную выборку (25% объектов) и контрольную выборку (25% объектов). Параметр shrinkage всегда полагался равным 0.1, сэмплирование объектов на каждом шаге бустинга не использовалось (см. эти параметры в
    Exact
    [1]
    Suffix
    ), параметр M ≤ 500 оптимального числа базовых моделей выбирался таким образом, чтобы обеспечить наивысшую точность метода на валидационном множестве. С подобранным параметром M для каждого метода оценивалась его точность на контрольной выборке.

2
Abbott D. Why ensembles win data mining competitions. // Predictive Analytics Centre of Excellence Tech Talks, University of California, San Diego. http://pace.sdsc.edu/sites/pace/ files/PACE_Abbott_WhyModelEn semblesWinDataMiningCompetitio ns_20121114.pdf / 2012.
Total in-text references: 1
  1. In-text reference with the coordinate start=2767
    Prefix
    Однако, поскольку прогнозируемые данные, скорее всего, имеют более сложные свойства, чем те предположения, которые делаются в рассматриваемых методах, то более выигрышной, с точки зрения точности, стратегией является прогнозирование не единственной моделью, а набором моделей, объединенных в композицию (другое название – ансамбль моделей), см.
    Exact
    [2, 3]
    Suffix
    . В этом случае к данным применяется сразу несколько прогнозирующих моделей, называемых базовыми моделями, а потом результат определяется в виде агрегирования полученных прогнозов – в простейшем случае, в виде линейной комбинации.

3
Китов В.В. Практические аспекты машинного обучения. // Открытые системы. СУБД. No1 / 2016. c. 14–17.
Total in-text references: 2
  1. In-text reference with the coordinate start=2767
    Prefix
    Однако, поскольку прогнозируемые данные, скорее всего, имеют более сложные свойства, чем те предположения, которые делаются в рассматриваемых методах, то более выигрышной, с точки зрения точности, стратегией является прогнозирование не единственной моделью, а набором моделей, объединенных в композицию (другое название – ансамбль моделей), см.
    Exact
    [2, 3]
    Suffix
    . В этом случае к данным применяется сразу несколько прогнозирующих моделей, называемых базовыми моделями, а потом результат определяется в виде агрегирования полученных прогнозов – в простейшем случае, в виде линейной комбинации.

  2. In-text reference with the coordinate start=9625
    Prefix
    С одной стороны, это позволяет более гибко и более экономично (меньшим числом разбиений) описывать классы объектов, что может повысить точность прогнозирования. А с другой стороны, за счет большей гибкости, это может внести большую степень переобученности модели на обучающую выборку, что в итоге понизит качество прогнозирования новых данных – см.
    Exact
    [3]
    Suffix
    . Какой из данных факторов окажется более значимым, будет ясно из последующих экспериментов. 3. Эксперимент на модельных данных Изучим вопрос, как соотносится точность обычного градиентного бустинга и градиентного бустинга с поворотами на искусственно сгенерированных данных, про которые заранее известна зависимость между признаками и классами.

4
Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System. https://arxiv.org/abs/1603.02754. DOI: 10.1145/2939672.2939785.
Total in-text references: 1
  1. In-text reference with the coordinate start=3109
    Prefix
    В этом случае к данным применяется сразу несколько прогнозирующих моделей, называемых базовыми моделями, а потом результат определяется в виде агрегирования полученных прогнозов – в простейшем случае, в виде линейной комбинации. Одним из наиболее популярных ансамблевых методов прогнозирования является градиентный бустинг. По данным
    Exact
    [4]
    Suffix
    , реализация xgBoost данного метода использовалась в большинстве прогнозирующих алгоритмов, победивших в соревнованиях по машинному обучению на сайте kaggle.com в 2015 году. Ключом к успешному применению ансамблевых методов прогнозирования является разнообразие (diversity) базовых моделей, на базе которых строится финальный прогноз.

5
Blaser R., Fryzlewicz P. Random Rotation Ensembles // Journal of Machine Learning Research No17 / 2016. c. 1–26.
Total in-text references: 2
  1. In-text reference with the coordinate start=3726
    Prefix
    Очевидно, что если усреднять по идентичным моделям, то выигрыша по сравнению с применением одной базовой модели не будет. И наоборот, чем разнообразнее базовые модели, тем потенциально больше у них возможностей исправлять ошибки друг друга и уточнять финальный прогноз. В работе
    Exact
    [5]
    Suffix
    предложена идея генерации случайных поворотов, которые потом применяются к признакам прогнозируемых объектов перед обучением базовых моделей, в качестве которых выступают решающие деревья. Высказана гипотеза, что за счет различных поворотов базовые алгоритмы становятся более разнообразными, что в результате повышает точность полученной композиции моделей.

  2. In-text reference with the coordinate start=5082
    Prefix
    В разделе 3 дается описание эксперимента по проверке точности метода на различных модельных данных, и обсуждаются результаты. В разделе 4 дается заключение и варианты дальнейших исследований. 2. Градиентный бустинг со случайными поворотами Для расширения класса функций, моделируемых ансамблями деревьев, в работе
    Exact
    [5]
    Suffix
    предложен подход, согласно которому перед каждой настройкой базового алгоритма в ансамбле делается случайный поворот признакового пространства. В алгоритме бустинга сначала настраивается базовая модель F1(x), затем настраивается F2(x) так, чтобы максимально исправить ошибки первой модели, затем F3(x) так, чтобы максимально исправить ошибки первых двух моделей и т.д.

6
Ozols M. How to generate a random unitary matrix. http:// home.lu.lv/~sd20008/papers/essays/ Random%20unitary%20[paper].pdf / 2009.
Total in-text references: 1
  1. In-text reference with the coordinate start=6274
    Prefix
    Перед настройкой модели F1(x) производится случайный поворот x → R1(x), перед настройкой модели F2(x) производится случайный поворот x → R2(x) и т.д., см. схему метода на рис. 2. Поворот на шаге i осуществляется некоторой случайно сгенерированной матрицей поворота Ri, обзор методов генерирования таких матриц см. в
    Exact
    [6]
    Suffix
    . После настройки модели последовательность случайных поворотов R1, R2, ... Rm за поминается, и на этапах применения модели (прогнозирования) используется та же самая последовательность поворотов.