The 70 reference contexts in paper B. Knyazev A., V. Chernenkiy M., Б. Князев А., В. Черненький М. (2016) “Сверточное разреженное представление изображений для анализа статических и динамических образов // Convolutional Sparse Coding for Static and Dynamic Images Analysis” / spz:neicon:technomag:y:2014:i:1:p:664-695

  1. Start
    1641
    Prefix
    Ключевые слова: свертка, фильтры, Габор, параметрическое представление, разреженное представление, метод опорных векторов, рукописные цифр Введение Задачей метода разреженного представления (sparse coding) сигналов, сформулированная в
    Exact
    [1]
    Suffix
    , является минимизация функции (иногда называемой энергетической) по отношению к , где – входные данные1 (изображение, видео, аудио), – реконструированные данные, получаемые проекцией декодирующей матрицы на вектор ; – нормы ℓ-2 и ℓ-1 соответственно, – коэффициент регуляризации.
    (check this in PDF content)

  2. Start
    2961
    Prefix
    Баумана 664 функции, например, методом градиентного спуска, является матрица с максимальновозможным количеством нулевых значений благодаря компоненту (sparsity constraint). Столбцы в представляют собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео
    Exact
    [2]
    Suffix
    ), схожие с фильтрами Габора (Морле) [3,4] (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео) [2] и аудио сигналов [8].
    (check this in PDF content)

  3. Start
    3000
    Prefix
    Столбцы в представляют собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео [2]), схожие с фильтрами Габора (Морле)
    Exact
    [3,4]
    Suffix
    (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео) [2] и аудио сигналов [8].
    (check this in PDF content)

  4. Start
    3143
    Prefix
    Столбцы в представляют собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео [2]), схожие с фильтрами Габора (Морле) [3,4] (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических
    Exact
    [5-8]
    Suffix
    изображений, так и их последовательностей (видео) [2] и аудио сигналов [8]. Основные недостатки метода: избыточность получаемых векторов, низкая скорость оптимизации и необходимость разбиения сигнала на области некоторым способом.
    (check this in PDF content)

  5. Start
    3197
    Prefix
    собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео [2]), схожие с фильтрами Габора (Морле) [3,4] (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео)
    Exact
    [2]
    Suffix
    и аудио сигналов [8]. Основные недостатки метода: избыточность получаемых векторов, низкая скорость оптимизации и необходимость разбиения сигнала на области некоторым способом. Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69;
    (check this in PDF content)

  6. Start
    3219
    Prefix
    Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео) [2] и аудио сигналов
    Exact
    [8]
    Suffix
    . Основные недостатки метода: избыточность получаемых векторов, низкая скорость оптимизации и необходимость разбиения сигнала на области некоторым способом. Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные предст
    (check this in PDF content)

  7. Start
    3684
    Prefix
    Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные представления. Данные методы успешно конкурируют со сверточными нейронными сетями (CNN)
    Exact
    [11,12]
    Suffix
    (рис. 1,б), их расширениями [13,14] а также ограниченной машиной Больцмана (RBM) [15] – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. а) б) гв)) Рис. 1.
    (check this in PDF content)

  8. Start
    3721
    Prefix
    Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные представления. Данные методы успешно конкурируют со сверточными нейронными сетями (CNN) [11,12] (рис. 1,б), их расширениями
    Exact
    [13,14]
    Suffix
    а также ограниченной машиной Больцмана (RBM) [15] – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. а) б) гв)) Рис. 1.
    (check this in PDF content)

  9. Start
    3771
    Prefix
    были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные представления. Данные методы успешно конкурируют со сверточными нейронными сетями (CNN) [11,12] (рис. 1,б), их расширениями [13,14] а также ограниченной машиной Больцмана (RBM)
    Exact
    [15]
    Suffix
    – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. а) б) гв)) Рис. 1.
    (check this in PDF content)

  10. Start
    3866
    Prefix
    Данные методы успешно конкурируют со сверточными нейронными сетями (CNN) [11,12] (рис. 1,б), их расширениями [13,14] а также ограниченной машиной Больцмана (RBM) [15] – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например,
    Exact
    [16,17]
    Suffix
    ) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. а) б) гв)) Рис. 1. Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования [5]; б – некоторые фильтры сверточной сети [14]; в – фильтры машины Больцмана2; г – главные компоненты (PCA) [7].
    (check this in PDF content)

  11. Start
    4145
    Prefix
    Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. а) б) гв)) Рис. 1. Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования
    Exact
    [5]
    Suffix
    ; б – некоторые фильтры сверточной сети [14]; в – фильтры машины Больцмана2; г – главные компоненты (PCA) [7]. Нулевым значениям соответствуют серые пиксели, то есть 128 из 255. Примером неразреженного представления (dense coding) является матрица, получаемая из всей выборки вычитанием среднего и проекцией результата на собственные вектора ковариационной матрицы (метод главных компонент –
    (check this in PDF content)

  12. Start
    4185
    Prefix
    Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. а) б) гв)) Рис. 1. Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования [5]; б – некоторые фильтры сверточной сети
    Exact
    [14]
    Suffix
    ; в – фильтры машины Больцмана2; г – главные компоненты (PCA) [7]. Нулевым значениям соответствуют серые пиксели, то есть 128 из 255. Примером неразреженного представления (dense coding) является матрица, получаемая из всей выборки вычитанием среднего и проекцией результата на собственные вектора ковариационной матрицы (метод главных компонент – PCA) [18, с. 561; 19] (рис. 1,г).
    (check this in PDF content)

  13. Start
    4247
    Prefix
    Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования [5]; б – некоторые фильтры сверточной сети [14]; в – фильтры машины Больцмана2; г – главные компоненты (PCA)
    Exact
    [7]
    Suffix
    . Нулевым значениям соответствуют серые пиксели, то есть 128 из 255. Примером неразреженного представления (dense coding) является матрица, получаемая из всей выборки вычитанием среднего и проекцией результата на собственные вектора ковариационной матрицы (метод главных компонент – PCA) [18, с. 561; 19] (рис. 1,г).
    (check this in PDF content)

  14. Start
    5625
    Prefix
    Данные особенности можно считать недостатками, если целью является классификация образов инвариантная к их искажениям. Ограничением PCA также является вычислительные затраты на поиск ковариационной матрицы для больших изображений и выборок (другие недостатки описаны в
    Exact
    [8, с. 4]
    Suffix
    ). 4 I1 I2 I3 I3 2 0 I1 -2 -4 I2 1 5 9 13 17 21 25 29 33 37 41 45 Индекс размерности PCA а) б) Рис. 2. Демонстрация особенности методов представления изображения на основе минимизации среднеквадратичной ошибки реконструкции на примере метода главных компонент: а – поворот образа; б – значения в 45 размерностях PCA (по оси y – нормированное значение пикселей).
    (check this in PDF content)

  15. Start
    6885
    Prefix
    Одним из недостатков большинства методов анализа изображений, в том числе разреженного представления, является разбиение изображения на области (окна поиска – patches, ROIs) и использование скользящего окна
    Exact
    [20]
    Suffix
    . Общепринятая методика разбиения отсутствует, а полный перебор всех возможных областей даже для изображений 28×28 пикселей (из [11]) может представлять задачу, нерешаемую за требуемое время.
    (check this in PDF content)

  16. Start
    7019
    Prefix
    Одним из недостатков большинства методов анализа изображений, в том числе разреженного представления, является разбиение изображения на области (окна поиска – patches, ROIs) и использование скользящего окна [20]. Общепринятая методика разбиения отсутствует, а полный перебор всех возможных областей даже для изображений 28×28 пикселей (из
    Exact
    [11]
    Suffix
    ) может представлять задачу, нерешаемую за требуемое время. Более того, большинство получаемых откликов могут не являться признаковыми для класса или быть сильно коррелированы между собой.
    (check this in PDF content)

  17. Start
    8871
    Prefix
    Экспериментально, на примере изображений рукописных цифр, показано, что получаемый на выходе алгоритма вектор значений может использоваться для классификации образов. В данной работе, как и во многих работах по разреженному представлению, будем работать с изображениями базы MNIST
    Exact
    [11]
    Suffix
    , так как: база общедоступна, что упрощает проверку корректности полученных результатов; база представляет собой достаточно большой и разнообразный исследовательский материал с общим количеством 7×10 4 экземпляров (6×10 4 тренировочных и 1×10 4 тестируемых).
    (check this in PDF content)

  18. Start
    9458
    Prefix
    Баумана качественно показано, что также могут быть решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике
    Exact
    [21,22]
    Suffix
    , медицине [23] и безопасности [24]. Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1.
    (check this in PDF content)

  19. Start
    9477
    Prefix
    Баумана качественно показано, что также могут быть решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике [21,22], медицине
    Exact
    [23]
    Suffix
    и безопасности [24]. Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1.
    (check this in PDF content)

  20. Start
    9497
    Prefix
    Баумана качественно показано, что также могут быть решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике [21,22], медицине [23] и безопасности
    Exact
    [24]
    Suffix
    . Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1. Параметры функции Габора Прежде чем перейти к описанию разработанной модели, кратко рассмотрим наиболее обобщенное аналитическое определение фильтра Габора (более подробно в [3,4]), описание к
    (check this in PDF content)

  21. Start
    9687
    Prefix
    решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике [21,22], медицине [23] и безопасности [24]. Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в
    Exact
    [25]
    Suffix
    . 1. Параметры функции Габора Прежде чем перейти к описанию разработанной модели, кратко рассмотрим наиболее обобщенное аналитическое определение фильтра Габора (более подробно в [3,4]), описание которого потребуется далее.
    (check this in PDF content)

  22. Start
    9874
    Prefix
    Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1. Параметры функции Габора Прежде чем перейти к описанию разработанной модели, кратко рассмотрим наиболее обобщенное аналитическое определение фильтра Габора (более подробно в
    Exact
    [3,4]
    Suffix
    ), описание которого потребуется далее. Формально, фильтр Габора является комбинацией двух независимых функций (рис. 3,а): (1) где – функция Гаусса, – комплексная гармоническая функция.
    (check this in PDF content)

  23. Start
    11705
    Prefix
    Если положить , то функцию можно переписать в следующем виде: . Фурье-образ фильтра, определенного в (1), также является комбинацией двух аналогичных функций
    Exact
    [3]
    Suffix
    : (2) где и определяют ширину фильтра в частотной области по осям u и v соответственно (рис. 3,б), σu, σv – стандартные отклонения функции Гаусса.
    (check this in PDF content)

  24. Start
    12979
    Prefix
    Тогда, модулирующая функция, повернутая на угол θ, записывается как: (4) где , при этом заметим, что , а ось совпадает с модулирующей осью. Таким образом, строго говоря, фильтр Габора уникально определяется восьмью свободными параметрами ( , как и показано в
    Exact
    [3]
    Suffix
    . Формулы (3) и (4) использовалась для генерации фильтров на рис. 3, на котором показаны значения всех восьми параметров. Некоторые распространенные ограничения на свободные параметры. На практике некоторые свободные параметры фиксируют, мотивируя нейрофизиологическими ограничениями, полученными в ходе исследований клеток зрительной коры млекопитающих, а т
    (check this in PDF content)

  25. Start
    13438
    Prefix
    На практике некоторые свободные параметры фиксируют, мотивируя нейрофизиологическими ограничениями, полученными в ходе исследований клеток зрительной коры млекопитающих, а также вычислительной нагрузкой в случае «неограничения» вариаций фильтров. Так, в
    Exact
    [3]
    Suffix
    аргументируется, что угол поворота функции Гаусса в (3) в большой степени коррелирует с углом ориентации второго множителя θ в (4) (рис. 3,а). Примеры фильтров, у которых данные углы различаются, будут представлены далее (рис. 5,а).
    (check this in PDF content)

  26. Start
    13814
    Prefix
    Примеры фильтров, у которых данные углы различаются, будут представлены далее (рис. 5,а). Коэффициент , определяющий эллиптичность функции Гаусса (3), также меняется в относительно небольшом диапазоне (0,2 <γ < 0,9
    Exact
    [4]
    Suffix
    ) и иногда берется равным 0,5-0,6. Более того, при угол практически не влияет на конечный вид фильтра Габора. Отношение определяет количество всплесков и выбирается таким, чтобы было 2-5 основных всплесков.
    (check this in PDF content)

  27. Start
    14336
    Prefix
    Так как фильтр в основном используется для свертки с изображением, то координаты его центра также не влияют на результат. Поэтому в большинстве работ параметры и (или ) являются основными для формирования фильтров. Например, ограничиваются 5-9 значениями и 8 или 16 ориентациями , как в
    Exact
    [23,26]
    Suffix
    . В [27] использовали 68 трехмерных фильтров (37 ориентаций одного масштаба и 31– другого). Подчеркнем, что комбинация выражений (3) в (4) с приведенными выше допущениями, хотя и является наиболее распространенной формой, не является оригинальной и поэтому приводит к заведомо ограниченному набору фильтров.
    (check this in PDF content)

  28. Start
    14345
    Prefix
    Поэтому в большинстве работ параметры и (или ) являются основными для формирования фильтров. Например, ограничиваются 5-9 значениями и 8 или 16 ориентациями , как в [23,26]. В
    Exact
    [27]
    Suffix
    использовали 68 трехмерных фильтров (37 ориентаций одного масштаба и 31– другого). Подчеркнем, что комбинация выражений (3) в (4) с приведенными выше допущениями, хотя и является наиболее распространенной формой, не является оригинальной и поэтому приводит к заведомо ограниченному набору фильтров.
    (check this in PDF content)

  29. Start
    14814
    Prefix
    Подчеркнем, что комбинация выражений (3) в (4) с приведенными выше допущениями, хотя и является наиболее распространенной формой, не является оригинальной и поэтому приводит к заведомо ограниченному набору фильтров. Более того, часто используется только вещественная часть функции (4), тогда как именно комплексная форма обладает оптимальными свойствами
    Exact
    [28, с. 616]
    Suffix
    . Оптимальность фильтра. Оптимальный фильтр определяется как фильтр, обладающий «наилучшей» разрешающей способностью, т.е. наименьшей площадью, как в Наука и образование. МГТУ им. Н.Э. Баумана 669 пространственной, так и в частотной области.
    (check this in PDF content)

  30. Start
    15181
    Prefix
    Оптимальный фильтр определяется как фильтр, обладающий «наилучшей» разрешающей способностью, т.е. наименьшей площадью, как в Наука и образование. МГТУ им. Н.Э. Баумана 669 пространственной, так и в частотной области. Разрешающая способность ограничена принципом неопределенности, который в двумерном виде записывается как
    Exact
    [3, с. 3]
    Suffix
    : (5) где – эффективная ширина и длина фильтра в пространственной области (рис. 3,а); – эффективная ширина и длина фильтра в частотной области (рис. 3,б), которые пропорциональны среднеквадратичным отклонениям функций и соответственно.
    (check this in PDF content)

  31. Start
    15563
    Prefix
    ширина и длина фильтра в пространственной области (рис. 3,а); – эффективная ширина и длина фильтра в частотной области (рис. 3,б), которые пропорциональны среднеквадратичным отклонениям функций и соответственно. Комплексная форма (то есть (3), (4)) является оптимальным фильтром, так как значение теоретически не превышает (подробнее в
    Exact
    [3]
    Suffix
    ) независимо от параметров, но на практике может превышать ввиду дискретизации. Вещественная или мнимая части по отдельности не являются оптимальными, так как их Фурье-образ имеет зеркальную (отраженную от 0-ой частоты) составляющую с координатами ( или ( в зависимости от знака перед в (4).
    (check this in PDF content)

  32. Start
    17625
    Prefix
    Модель представления изображения 2.1 Генерация откликов без аналитической формы При использовании фильтра Габора в качестве ядра свертки с изображениями – классический подход, сходный с вейвлет-преобразованием
    Exact
    [4,23,26,27]
    Suffix
    , – фильтр обладает недостатками, затронутыми выше и отмеченными, например, в [29, с. 38]: - отсутствие однозначной методики выбора восьми свободных параметров; Наука и образование. МГТУ им. Н.Э. Баумана 670 - требование вычислительных ресурсов как для генерирования самого фильтра в соответствии с его аналитической формой, так и операций свертки и хранения полученных отклико
    (check this in PDF content)

  33. Start
    17714
    Prefix
    Модель представления изображения 2.1 Генерация откликов без аналитической формы При использовании фильтра Габора в качестве ядра свертки с изображениями – классический подход, сходный с вейвлет-преобразованием [4,23,26,27], – фильтр обладает недостатками, затронутыми выше и отмеченными, например, в
    Exact
    [29, с. 38]
    Suffix
    : - отсутствие однозначной методики выбора восьми свободных параметров; Наука и образование. МГТУ им. Н.Э. Баумана 670 - требование вычислительных ресурсов как для генерирования самого фильтра в соответствии с его аналитической формой, так и операций свертки и хранения полученных откликов, пропорциональных количеству и размеру используемых фильтров.
    (check this in PDF content)

  34. Start
    18439
    Prefix
    Как было отмечено выше, методом оптимизации энергетической функции могут быть получены паттерны, подобные фильтру Габора. Другой способ основан на схожести фильтра с производными функциями Гаусса (3-4 порядка, см. в
    Exact
    [28]
    Suffix
    ), причем порядок производной равен количеству пересечений функции нуля, то есть на 1 меньше количества всплесков (рис. 4,д). Отличия заключаются в конечности количества всплесков производной Гаусса и форме огибающей, что несущественно при дискретных вычислениях.
    (check this in PDF content)

  35. Start
    18975
    Prefix
    IIconv,1Iconv,2Iconv,3Iconv,4Iconv,n x z q x0,y0 M а) б) y N ... ... в) г) ... д) Рис. 4. Применение оператора свертки n-го порядка к: а – изображению лица; б – комбинации функций Хаара, таких как в
    Exact
    [20]
    Suffix
    ; в – изображению цифры [11]; г – абсолютные значения Фурье-образов (каждый пик или экстремум соответствует определенному фильтру Габора); д – производные n-го порядка функции Гаусса, схожие с функцией Габора.
    (check this in PDF content)

  36. Start
    19002
    Prefix
    IIconv,1Iconv,2Iconv,3Iconv,4Iconv,n x z q x0,y0 M а) б) y N ... ... в) г) ... д) Рис. 4. Применение оператора свертки n-го порядка к: а – изображению лица; б – комбинации функций Хаара, таких как в [20]; в – изображению цифры
    Exact
    [11]
    Suffix
    ; г – абсолютные значения Фурье-образов (каждый пик или экстремум соответствует определенному фильтру Габора); д – производные n-го порядка функции Гаусса, схожие с функцией Габора. На рисунках а-г размеры размеру I, так как после каждой j-ой итерации происходит уменьшения размера в 2 раза.
    (check this in PDF content)

  37. Start
    20025
    Prefix
    Также, для сравнения, приведем операцию производной n-ого порядка: (7) где значение каждого пикселя вычисляется как (рис. 4,д). Результатом применения оператора (6) к некоторому статистически нормализованному (см. в
    Exact
    [18, с. 567]
    Suffix
    ) изображению, например, лица или одного или комбинации вейвлетов Хаара, является изображение с периодической структурой, которое будем называть паттерном или откликом4. В зависимости от исходного изображения и порядка оператора можно наблюдать как отклики, схожие с одним из фильтров Габора, так и более сложные структуры.
    (check this in PDF content)

  38. Start
    27928
    Prefix
    Так как алгоритм представляет собой поиск пиков в частотной области (рис. 4,г), то извлекаемые паттерны соответствуют произвольным регионом в пространственной области. Методы разреженного кодирования позволяют извлечь похожие паттерны, но, как было отмечено ранее, они требуют разбиения изображения на регионы некоторым способом (например, 13×13 пикселей в
    Exact
    [7]
    Suffix
    ), а также длительное время для схождения энергетической функции. Вообще говоря, используя метод разреженного представления только в пространственной области, паттерны, идентичные представленным на рис. 5,а, могут быть найдены только полным перебором всех возможных областей изображения, что невыполнимо на практике. а)б)в)г)д) Рис. 5.
    (check this in PDF content)

  39. Start
    28361
    Prefix
    Вообще говоря, используя метод разреженного представления только в пространственной области, паттерны, идентичные представленным на рис. 5,а, могут быть найдены только полным перебором всех возможных областей изображения, что невыполнимо на практике. а)б)в)г)д) Рис. 5. Демонстрация результатов работы алгоритма: а, сверху – изображение из базы MNIST
    Exact
    [11]
    Suffix
    , снизу – некоторые отклики , полученные по разработанному алгоритму; б-д, сверху – сегментированные вручную части (паттерны) изображения; снизу – некоторые отклики, полученные по тому же алгоритму для данных частей.
    (check this in PDF content)

  40. Start
    33709
    Prefix
    . 3.2 Диапазон значений и корреляционные свойства откликов В данном эксперименте нас интересует, какие паттерны присутствуют в изображениях, для которых выполняется автоматизированный анализ, например, с целью классификации образов. Для данного эксперимента, а также для решения задачи в следующем пункте, была обработана выборка изображений рукописных цифр MNIST
    Exact
    [11]
    Suffix
    . По алгоритму, представленному в п. 0, было извлечено отклика из каждого изображения, что для всей тренировочной выборки соответствует чуть менее 23×60×10 3 откликам из-за того, что из некоторых экземпляров (обычно простых, таких как 1 и 7) возвращается менее 23 откликов (табл. 2, рис. 6).
    (check this in PDF content)

  41. Start
    36121
    Prefix
    Распределение значений откликов, полученных из изображений MNIST, в логарифмической шкале: а – ; б – γ; в, г – θ и β в полярных координатах совместно с длиной волны λ. В дополнении к этому, представленные количественные результаты в табл. 3 также согласуются с работами
    Exact
    [3,4]
    Suffix
    , которые ссылаются на исследования клеток зрительной Наука и образование. МГТУ им. Н.Э. Баумана 678 коры млекопитающих. Действительно, наблюдается корреляция параметров и (r = 0,22), углов и (r = -0,26), а значения в >99% случаев.
    (check this in PDF content)

  42. Start
    38640
    Prefix
    конкретных задач, например, задачи классификации образов. 3.3 Решение задачи классификации Задачами данного эксперимента являются 1) оценить возможности использования алгоритма, предложенного в п. 0, для классификации изображений; 2) получить/улучшить результаты, используя предопределенные фильтры Габора и 3) метод их комбинаций с локальным оператором минимума и максимума
    Exact
    [7]
    Suffix
    ; 4) сравнить результаты с данными предыдущих работ. В качестве тренировочной и тестовой выборки использовались Наука и образование. МГТУ им. Н.Э. Баумана 679 изображения рукописных цифр MNIST аналогично предыдущему эксперименту, однако могут быть использованы и другие изображения.
    (check this in PDF content)

  43. Start
    39037
    Prefix
    Баумана 679 изображения рукописных цифр MNIST аналогично предыдущему эксперименту, однако могут быть использованы и другие изображения. В качестве классификатор (или метода машинного обучения) использовалась машина опорных векторов (SVM)
    Exact
    [30]
    Suffix
    , и кросс-платформенная библиотека libsvm [31], которая ее реализует. Изначально, метод SVM являлся бинарным классификатором, но во многих работах были предложены и в libsvm реализованы расширения метода по принципу сравнения каждого с каждым (one-against-one, one-vs-one) и каждого со всеми остальными (one-vs-all, one-vs-rest) [18, с. 338].
    (check this in PDF content)

  44. Start
    39082
    Prefix
    Баумана 679 изображения рукописных цифр MNIST аналогично предыдущему эксперименту, однако могут быть использованы и другие изображения. В качестве классификатор (или метода машинного обучения) использовалась машина опорных векторов (SVM) [30], и кросс-платформенная библиотека libsvm
    Exact
    [31]
    Suffix
    , которая ее реализует. Изначально, метод SVM являлся бинарным классификатором, но во многих работах были предложены и в libsvm реализованы расширения метода по принципу сравнения каждого с каждым (one-against-one, one-vs-one) и каждого со всеми остальными (one-vs-all, one-vs-rest) [18, с. 338].
    (check this in PDF content)

  45. Start
    39379
    Prefix
    Изначально, метод SVM являлся бинарным классификатором, но во многих работах были предложены и в libsvm реализованы расширения метода по принципу сравнения каждого с каждым (one-against-one, one-vs-one) и каждого со всеми остальными (one-vs-all, one-vs-rest)
    Exact
    [18, с. 338]
    Suffix
    . В данной работе использовался вариант по умолчанию в libsvm – сравнение каждого с каждым. Для определения оптимальных параметров метода SVM (C, γ), а также количества главных компонент метода PCA (NPCA) и количества откликов ( ) метода, разработанного в данной работе, проводилась процедура перекрестного тестирования (или кросс-валидация, cross-validation) 18, с. 32], как
    (check this in PDF content)

  46. Start
    39791
    Prefix
    Для определения оптимальных параметров метода SVM (C, γ), а также количества главных компонент метода PCA (NPCA) и количества откликов ( ) метода, разработанного в данной работе, проводилась процедура перекрестного тестирования (или кросс-валидация, cross-validation) 18, с. 32], как и в других работах
    Exact
    [7,11,13,27]
    Suffix
    . Для этого использовались первые 10 4 тренировочных экземпляров, так как для большего количества процедура требовали вычислительных ресурсов, не всегда соизмеримых с улучшением точности.
    (check this in PDF content)

  47. Start
    40777
    Prefix
    Дополнительная обработка изображений, за исключением статистической нормализации (такой, как в шаге 1 алгоритма в п. 0), не осуществлялась6. Для линейной функции ошибка классификации ε составила 7,44%. Ошибка 1,41%, полученная для радиальной базисной функции (RBF), соответствует аналогичным работам
    Exact
    [7,11]
    Suffix
    , не смотря на независимую от других работ процедуру выбора оптимальных параметров (C, γ) (рис. 7,а). С применением других нелинейных функций ядра (полиноминальной, сигмоидальной), встроенных в библиотеку libsvm, проводились только ограниченные эксперименты.
    (check this in PDF content)

  48. Start
    41570
    Prefix
    , а не выбор наилучшей функции ядра. 6 При использовании других методов классификации, в частности метода k ближайших соседей, бинаризация изображений (порог 0,2) могла существенно (для базы MNIST это 1-2%) увеличить точность классификации. Наука и образование. МГТУ им. Н.Э. Баумана 680 Линейный SVM НашМетод SVM RBF
    Exact
    [13]
    Suffix
    МинМаксГабор(198,24x2) [24] 20 ε, % 18 16 14 12 10 8 6 4 2 0 0.3 1 2 5 10 20 40 60 ×103 Количество тренировочных изображений а) 7.25 14 ε, % 1.33 НашМетод ε, % 13 7.20 МинМаксГабор(198,24x2) 1.32 12 7.15 11 1.31 10 7.10 1.30 9 8 1.29 7.05 7 7×| |푚푎푥 1.28 7.00 6 100 125 150 175 200 225 250 275 300 325 350 NPCA 21 35 49 63 77 91 105 119 133 147 161 1
    (check this in PDF content)

  49. Start
    41589
    Prefix
    функции ядра. 6 При использовании других методов классификации, в частности метода k ближайших соседей, бинаризация изображений (порог 0,2) могла существенно (для базы MNIST это 1-2%) увеличить точность классификации. Наука и образование. МГТУ им. Н.Э. Баумана 680 Линейный SVM НашМетод SVM RBF [13] МинМаксГабор(198,24x2)
    Exact
    [24]
    Suffix
    20 ε, % 18 16 14 12 10 8 6 4 2 0 0.3 1 2 5 10 20 40 60 ×103 Количество тренировочных изображений а) 7.25 14 ε, % 1.33 НашМетод ε, % 13 7.20 МинМаксГабор(198,24x2) 1.32 12 7.15 11 1.31 10 7.10 1.30 9 8 1.29 7.05 7 7×| |푚푎푥 1.28 7.00 6 100 125 150 175 200 225 250 275 300 325 350 NPCA 21 35 49 63 77 91 105 119 133 147 161 175 189 203 217 б) в) t, м
    (check this in PDF content)

  50. Start
    42824
    Prefix
    Баумана 681 Фильтры Габора, компонентный анализ и метод опорных векторов. В данной части тестирования вначале исследовались возможности метода обработки изображений предопределенным набором фильтров Габора, как в
    Exact
    [4,26,23,27]
    Suffix
    . При использовании классического набора из 40 фильтров (5 масштабов и 8 ориентаций) получаем вектор из значений. Оптимизация функции опорных векторов для данных такой размерности и выборки из 60×10 3 экземпляров на практике трудноосуществима (по крайней мере, используя вычислительные ресурсы персонального компьютера) ввиду нелинейной сложности существующих ал
    (check this in PDF content)

  51. Start
    45281
    Prefix
    Фильтры Габора, локальный оператор минимума-максимума, компонентный анализ и метод опорных векторов. Отличие данного метода от предыдущего заключается в применении оператора , вычисляющего минимум и максимум в некоторой области изображения
    Exact
    [7]
    Suffix
    . Так как за счет такого оператора происходит понижение размерности на порядок, то возможно увеличение количества фильтров. При этом по нашим наблюдениям использование дополнительных фильтров лучше сказывается на точности, чем сохранение размерности откликов на фильтры.
    (check this in PDF content)

  52. Start
    45578
    Prefix
    Так как за счет такого оператора происходит понижение размерности на порядок, то возможно увеличение количества фильтров. При этом по нашим наблюдениям использование дополнительных фильтров лучше сказывается на точности, чем сохранение размерности откликов на фильтры. В
    Exact
    [7]
    Suffix
    с использованием 160 фильтров Габора и для областей размером 9×9 пикселей (9 областей для изображений цифр размером 28×28) была достигнута ошибка всего 0,71%, а Наука и образование. МГТУ им.
    (check this in PDF content)

  53. Start
    45950
    Prefix
    В [7] с использованием 160 фильтров Габора и для областей размером 9×9 пикселей (9 областей для изображений цифр размером 28×28) была достигнута ошибка всего 0,71%, а Наука и образование. МГТУ им. Н.Э. Баумана 682 с использованием 169 паттернов, полученных методом разреженного представления, и аналогичного оператора – 0,59%. Так как детали 160 фильтров в
    Exact
    [7]
    Suffix
    неизвестны, то необходимо было сконструировать набор фильтров Габора. Для этого экспериментальным путем были выбраны 3 масштаба σx, 4 масштаба σy, 7 ориентаций и 2 отношения σx/λ, , , т.е. всего 168 фильтров, в результате чего была получена ошибка 0,77%, что несколько хуже, чем в [7].
    (check this in PDF content)

  54. Start
    46224
    Prefix
    Для этого экспериментальным путем были выбраны 3 масштаба σx, 4 масштаба σy, 7 ориентаций и 2 отношения σx/λ, , , т.е. всего 168 фильтров, в результате чего была получена ошибка 0,77%, что несколько хуже, чем в
    Exact
    [7]
    Suffix
    . При этом оператор вычислялся для 16 областей размером 7×7 пикселей, иначе ошибка была больше. Далее удалось понизить ошибку до 0,72%, добавив 12 составных фильтров, то есть состоящих из суммы двух фильтров Габора (в этом случае комбинация параметров x0, y0 двух фильтров влияет на результат).
    (check this in PDF content)

  55. Start
    47731
    Prefix
    Мульти-классовая классификация методом SVM осуществляется на основе сравнения количества положительных значений расстояний от гиперплоскости, разделяющих классы, из возможных , где – количество классов
    Exact
    [18, с. 338]
    Suffix
    . Таким образом, помимо наилучшего выбора, можно было проанализировать второй и последующие кандидаты классов экземпляров. В данном эксперименте из 60 неправильно классифицированных (из всего 104 тестируемых экземпляров), только 15 экземпляров не оказались ближе к правильному классу при выборе второго кандидата.
    (check this in PDF content)

  56. Start
    48097
    Prefix
    В данном эксперименте из 60 неправильно классифицированных (из всего 104 тестируемых экземпляров), только 15 экземпляров не оказались ближе к правильному классу при выборе второго кандидата. Таким образом, модифицируя метод, предложенный в
    Exact
    [7]
    Suffix
    , удалось получить одни из лучших результатов классификации изображений MNIST на сегодняшний день, не смотря на то, что метод является одним из самых простых. Его недостаток в том, что выбор фильтров критично влияет на результат, поэтому они должны быть тщательно сконструированы с учетом ограничений вычислительных ресурсов и специфики конкретной задачи, что затру
    (check this in PDF content)

  57. Start
    51933
    Prefix
    Баумана 684 валидации), что говорит о преимуществе оператора свертки. Это может быть связано с потерей фазовых составляющих в случае использования автокорреляционной функции. Таблица 4. Сравнительная таблица полученных результатов для MNIST
    Exact
    [11]
    Suffix
    * Метод Tобр., мин Tобуч., мин C/γ N/NPCA , % Линейный SVM 0 54 4/-/- 784/- 7,44 Данная работа 1078 11 21,5/2-7 2842/175 3,99 RBF SVM [7] - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95
    (check this in PDF content)

  58. Start
    52059
    Prefix
    Таблица 4. Сравнительная таблица полученных результатов для MNIST [11]* Метод Tобр., мин Tобуч., мин C/γ N/NPCA , % Линейный SVM 0 54 4/-/- 784/- 7,44 Данная работа 1078 11 21,5/2-7 2842/175 3,99 RBF SVM
    Exact
    [7]
    Suffix
    - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разре
    (check this in PDF content)

  59. Start
    52252
    Prefix
    для MNIST [11]* Метод Tобр., мин Tобуч., мин C/γ N/NPCA , % Линейный SVM 0 54 4/-/- 784/- 7,44 Данная работа 1078 11 21,5/2-7 2842/175 3,99 RBF SVM [7] - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5
    Exact
    [11]
    Suffix
    - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42
    (check this in PDF content)

  60. Start
    52361
    Prefix
    ,5/2-7 2842/175 3,99 RBF SVM [7] - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72
    Exact
    [7]
    Suffix
    - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной ра
    (check this in PDF content)

  61. Start
    52402
    Prefix
    /- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование
    Exact
    [5]
    Suffix
    - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения
    (check this in PDF content)

  62. Start
    52490
    Prefix
    12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование
    Exact
    [7]
    Suffix
    - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации.
    (check this in PDF content)

  63. Start
    52534
    Prefix
    1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM
    Exact
    [11]
    Suffix
    - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации.
    (check this in PDF content)

  64. Start
    52576
    Prefix
    LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы
    Exact
    [13]
    Suffix
    - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации.
    (check this in PDF content)

  65. Start
    52625
    Prefix
    1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть
    Exact
    [14]
    Suffix
    - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации. В таблице указаны только работы, в которых не использовались дополнительные тренировочные данные.
    (check this in PDF content)

  66. Start
    52928
    Prefix
    операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации. В таблице указаны только работы, в которых не использовались дополнительные тренировочные данные. Так, например, в
    Exact
    [12]
    Suffix
    с помощью комбинации 35 сверточных сетей, обученной на выборке MNIST с добавлением искусственно искаженных экземпляров, получена ошибка всего 0,23%, что близко к результатам классификации образов человеком. 4.
    (check this in PDF content)

  67. Start
    53724
    Prefix
    Для сравнения, например, свертка изображения с 40 фильтрами занимает всего 8-10 мс (с использованием преобразования Фурье), что на 2 порядка быстрее. Тем не менее, время, требуемое для нашего метода, можно считать стандартным для многих современных методов (сверточная сеть в
    Exact
    [12]
    Suffix
    , ограниченная машина Больцмана обучается около двух дней 7 или неделю в [15, с. 8]). Производительность оптимизированного метода сверточного разреженного кодирования примерно соответствует нашему методу: в [10] 7 Информация с сайта http://www.cs.toronto.edu/~rsalakhu/DBM.html.
    (check this in PDF content)

  68. Start
    53801
    Prefix
    Тем не менее, время, требуемое для нашего метода, можно считать стандартным для многих современных методов (сверточная сеть в [12], ограниченная машина Больцмана обучается около двух дней 7 или неделю в
    Exact
    [15, с. 8]
    Suffix
    ). Производительность оптимизированного метода сверточного разреженного кодирования примерно соответствует нашему методу: в [10] 7 Информация с сайта http://www.cs.toronto.edu/~rsalakhu/DBM.html.
    (check this in PDF content)

  69. Start
    53936
    Prefix
    Тем не менее, время, требуемое для нашего метода, можно считать стандартным для многих современных методов (сверточная сеть в [12], ограниченная машина Больцмана обучается около двух дней 7 или неделю в [15, с. 8]). Производительность оптимизированного метода сверточного разреженного кодирования примерно соответствует нашему методу: в
    Exact
    [10]
    Suffix
    7 Информация с сайта http://www.cs.toronto.edu/~rsalakhu/DBM.html. Наука и образование. МГТУ им. Н.Э. Баумана 685 для изображения размером 50×50 пикселей требуется ~2,5 сек для сходимости энергетической функции.
    (check this in PDF content)

  70. Start
    55542
    Prefix
    В отличие от генеративных методов на основе минимизации ошибки реконструкции, данный метод представляет размерности, обладающие более явным физическим смыслом. Анализ последовательностей. В
    Exact
    [23]
    Suffix
    показаны временные диаграммы, используемые для классификации эмоциональных состояний по видеоизображению. С помощью разработанной модели получены аналогичные графики изменений параметров на рис. 9,а и параметров на рис. 9,б, вычисленные для видеоизображения с человеком, выполняющим жесты элементов лица и тела в четкой последовательности
    (check this in PDF content)