The 70 reference contexts in paper B. Knyazev A., V. Chernenkiy M., Б. Князев А., В. Черненький М. (2016) “Сверточное разреженное представление изображений для анализа статических и динамических образов // Convolutional Sparse Coding for Static and Dynamic Images Analysis” / spz:neicon:technomag:y:2014:i:1:p:664-695

  1. Start
    1687
    Prefix
    Ключевые слова: свертка, фильтры, Габор, параметрическое представление, разреженное представление, метод опорных векторов, рукописные цифр Введение Задачей метода разреженного представления (sparse coding) сигналов, сформулированная в
    Exact
    [1]
    Suffix
    , является минимизация функции (иногда называемой энергетической) по отношению к , где – входные данные1 (изображение, видео, аудио), – реконструированные данные, получаемые проекцией декодирующей матрицы на вектор ; – нормы ℓ-2 и ℓ-1 соответственно, – коэффициент регуляризации.
    (check this in PDF content)

  2. Start
    3008
    Prefix
    матриц; X∘Y – поэлементное произведение матриц. функции, например, методом градиентного спуска, является матрица с максимальновозможным количеством нулевых значений благодаря компоненту (sparsity constraint). Столбцы в представляют собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео
    Exact
    [2]
    Suffix
    ), схожие с фильтрами Габора (Морле) [3,4] (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео) [2] и аудио сигналов [8].
    (check this in PDF content)

  3. Start
    3046
    Prefix
    Столбцы в представляют собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео [2]), схожие с фильтрами Габора (Морле)
    Exact
    [3,4]
    Suffix
    (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео) [2] и аудио сигналов [8].
    (check this in PDF content)

  4. Start
    3190
    Prefix
    Столбцы в представляют собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео [2]), схожие с фильтрами Габора (Морле) [3,4] (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических
    Exact
    [5-8]
    Suffix
    изображений, так и их последовательностей (видео) [2] и аудио сигналов [8]. Основные недостатки метода: избыточность получаемых векторов, низкая скорость оптимизации и необходимость разбиения сигнала на области некоторым способом.
    (check this in PDF content)

  5. Start
    3245
    Prefix
    собой полосовые фильтры (ориентированные и локализованные в пространстве в случае изображений или в пространстве и времени в случае видео [2]), схожие с фильтрами Габора (Морле) [3,4] (рис. 1,а). Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео)
    Exact
    [2]
    Suffix
    и аудио сигналов [8]. Основные недостатки метода: избыточность получаемых векторов, низкая скорость оптимизации и необходимость разбиения сигнала на области некоторым способом. Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69;
    (check this in PDF content)

  6. Start
    3266
    Prefix
    Ранее на основе данной функции были получены одни из самых высоких результатов в задачах классификации как статических [5-8] изображений, так и их последовательностей (видео) [2] и аудио сигналов
    Exact
    [8]
    Suffix
    . Основные недостатки метода: избыточность получаемых векторов, низкая скорость оптимизации и необходимость разбиения сигнала на области некоторым способом. Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные предст
    (check this in PDF content)

  7. Start
    3733
    Prefix
    Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные представления. Данные методы успешно конкурируют со сверточными нейронными сетями (CNN)
    Exact
    [11,12]
    Suffix
    (рис. 1,б), их расширениями [13,14] а также ограниченной машиной Больцмана (RBM) [15] – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. гв)) а) б) Рис. 1.
    (check this in PDF content)

  8. Start
    3767
    Prefix
    Поэтому были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные представления. Данные методы успешно конкурируют со сверточными нейронными сетями (CNN) [11,12] (рис. 1,б), их расширениями
    Exact
    [13,14]
    Suffix
    а также ограниченной машиной Больцмана (RBM) [15] – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. гв)) а) б) Рис. 1.
    (check this in PDF content)

  9. Start
    3819
    Prefix
    были предложены несколько разновидностей данного метода, среди которых отметим аппроксимирующее (predictive sparse decomposition) [6, с. 16; 9] и сверточное (convolutional sparse coding) [6, с. 69; 10] разреженные представления. Данные методы успешно конкурируют со сверточными нейронными сетями (CNN) [11,12] (рис. 1,б), их расширениями [13,14] а также ограниченной машиной Больцмана (RBM)
    Exact
    [15]
    Suffix
    – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. гв)) а) б) Рис. 1.
    (check this in PDF content)

  10. Start
    3914
    Prefix
    Данные методы успешно конкурируют со сверточными нейронными сетями (CNN) [11,12] (рис. 1,б), их расширениями [13,14] а также ограниченной машиной Больцмана (RBM) [15] – другим генеративным методом (рис. 1,в). Некоторые другие интересные работы (например,
    Exact
    [16,17]
    Suffix
    ) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. гв)) а) б) Рис. 1. Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования [5]; б – некоторые фильтры сверточной сети [14]; в – фильтры машины Больцмана2; г – главные компоненты (PCA) [7].
    (check this in PDF content)

  11. Start
    4191
    Prefix
    Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. гв)) а) б) Рис. 1. Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования
    Exact
    [5]
    Suffix
    ; б – некоторые фильтры сверточной сети [14]; в – фильтры машины Больцмана2; г – главные компоненты (PCA) [7]. Нулевым значениям соответствуют серые пиксели, то есть 128 из 255. Примером неразреженного представления (dense coding) является матрица, получаемая из всей выборки вычитанием среднего и проекцией результата на собственные вектора ковариационной матрицы (метод главных компонент –
    (check this in PDF content)

  12. Start
    4231
    Prefix
    Некоторые другие интересные работы (например, [16,17]) сложно оценить объективно, так как не было найдено экспериментальных данных по их использованию на выборках открытого доступа. гв)) а) б) Рис. 1. Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования [5]; б – некоторые фильтры сверточной сети
    Exact
    [14]
    Suffix
    ; в – фильтры машины Больцмана2; г – главные компоненты (PCA) [7]. Нулевым значениям соответствуют серые пиксели, то есть 128 из 255. Примером неразреженного представления (dense coding) является матрица, получаемая из всей выборки вычитанием среднего и проекцией результата на собственные вектора ковариационной матрицы (метод главных компонент – PCA) [18, с. 561; 19] (рис. 1,г).
    (check this in PDF content)

  13. Start
    4293
    Prefix
    Паттерны, извлекаемые из изображений или являющиеся результатом обучения: а – «инверсные» фильтры разреженного кодирования [5]; б – некоторые фильтры сверточной сети [14]; в – фильтры машины Больцмана2; г – главные компоненты (PCA)
    Exact
    [7]
    Suffix
    . Нулевым значениям соответствуют серые пиксели, то есть 128 из 255. Примером неразреженного представления (dense coding) является матрица, получаемая из всей выборки вычитанием среднего и проекцией результата на собственные вектора ковариационной матрицы (метод главных компонент – PCA) [18, с. 561; 19] (рис. 1,г).
    (check this in PDF content)

  14. Start
    5673
    Prefix
    Данные особенности можно считать недостатками, если целью является классификация образов инвариантная к их искажениям. Ограничением PCA также является вычислительные затраты на поиск ковариационной матрицы для больших изображений и выборок (другие недостатки описаны в
    Exact
    [8, с. 4]
    Suffix
    ). I1 I3 I2 а) б) Рис. 2. Демонстрация особенности методов представления изображения на основе минимизации среднеквадратичной ошибки реконструкции на примере метода главных компонент: а – поворот образа; б – значения в 45 размерностях PCA (по оси y – нормированное значение пикселей).
    (check this in PDF content)

  15. Start
    6848
    Prefix
    Одним из недостатков большинства методов анализа изображений, в том числе разреженного представления, является разбиение изображения на области (окна поиска – patches, ROIs) и использование скользящего окна
    Exact
    [20]
    Suffix
    . Общепринятая методика разбиения отсутствует, а полный перебор всех возможных областей даже для изображений 28×28 пикселей (из [11]) может представлять задачу, нерешаемую за требуемое время.
    (check this in PDF content)

  16. Start
    6981
    Prefix
    Одним из недостатков большинства методов анализа изображений, в том числе разреженного представления, является разбиение изображения на области (окна поиска – patches, ROIs) и использование скользящего окна [20]. Общепринятая методика разбиения отсутствует, а полный перебор всех возможных областей даже для изображений 28×28 пикселей (из
    Exact
    [11]
    Suffix
    ) может представлять задачу, нерешаемую за требуемое время. Более того, большинство получаемых откликов могут не являться признаковыми для класса или быть сильно коррелированы между собой.
    (check this in PDF content)

  17. Start
    8919
    Prefix
    Экспериментально, на примере изображений рукописных цифр, показано, что получаемый на выходе алгоритма вектор значений может использоваться для классификации образов. В данной работе, как и во многих работах по разреженному представлению, будем работать с изображениями базы MNIST
    Exact
    [11]
    Suffix
    , так как: база общедоступна, что упрощает проверку корректности полученных результатов; база представляет собой достаточно большой и разнообразный исследовательский материал с общим количеством 7×10 4 экземпляров (6×10 4 тренировочных и 1×10 4 тестируемых).
    (check this in PDF content)

  18. Start
    9507
    Prefix
    Баумана качественно показано, что также могут быть решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике
    Exact
    [21,22]
    Suffix
    , медицине [23] и безопасности [24]. Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1.
    (check this in PDF content)

  19. Start
    9525
    Prefix
    Баумана качественно показано, что также могут быть решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике [21,22], медицине
    Exact
    [23]
    Suffix
    и безопасности [24]. Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1.
    (check this in PDF content)

  20. Start
    9545
    Prefix
    Баумана качественно показано, что также могут быть решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике [21,22], медицине [23] и безопасности
    Exact
    [24]
    Suffix
    . Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1. Параметры функции Габора Прежде чем перейти к описанию разработанной модели, кратко рассмотрим наиболее обобщенное аналитическое определение фильтра Габора (более подробно в [3,4]), описание к
    (check this in PDF content)

  21. Start
    9736
    Prefix
    решены актуальные практические задачи в области автоматизированного анализа последовательностей изображений, часто возникающие в робототехнике [21,22], медицине [23] и безопасности [24]. Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в
    Exact
    [25]
    Suffix
    . 1. Параметры функции Габора Прежде чем перейти к описанию разработанной модели, кратко рассмотрим наиболее обобщенное аналитическое определение фильтра Габора (более подробно в [3,4]), описание которого потребуется далее.
    (check this in PDF content)

  22. Start
    9922
    Prefix
    Одной из более конкретных целей работы является разработка модели описания изображения для последующего анализа их последовательностей по методике, представленной ранее в [25]. 1. Параметры функции Габора Прежде чем перейти к описанию разработанной модели, кратко рассмотрим наиболее обобщенное аналитическое определение фильтра Габора (более подробно в
    Exact
    [3,4]
    Suffix
    ), описание которого потребуется далее. Формально, фильтр Габора является комбинацией двух независимых функций (рис. 3,а): (1) где – функция Гаусса, – комплексная гармоническая функция.
    (check this in PDF content)

  23. Start
    11753
    Prefix
    Если положить , то функцию можно переписать в следующем виде: . Фурье-образ фильтра, определенного в (1), также является комбинацией двух аналогичных функций
    Exact
    [3]
    Suffix
    : (2) где и определяют ширину фильтра в частотной области по осям u и v соответственно (рис. 3,б), σu, σv – стандартные отклонения функции Гаусса.
    (check this in PDF content)

  24. Start
    13009
    Prefix
    Тогда, модулирующая функция, повернутая на угол θ, записывается как: (4) где , при этом заметим, что , а ось совпадает с модулирующей осью. Таким образом, строго говоря, фильтр Габора уникально определяется восьмью свободными параметрами ( , как и показано в
    Exact
    [3]
    Suffix
    . Формулы (3) и (4) использовалась для генерации фильтров на рис. 3, на котором показаны значения всех восьми параметров. Некоторые распространенные ограничения на свободные параметры. На практике некоторые свободные параметры фиксируют, мотивируя нейрофизиологическими ограничениями, полученными в ходе исследований клеток зрительной коры млекопитающих, а т
    (check this in PDF content)

  25. Start
    13486
    Prefix
    На практике некоторые свободные параметры фиксируют, мотивируя нейрофизиологическими ограничениями, полученными в ходе исследований клеток зрительной коры млекопитающих, а также вычислительной нагрузкой в случае «неограничения» вариаций фильтров. Так, в
    Exact
    [3]
    Suffix
    аргументируется, что угол поворота функции Гаусса в (3) в большой степени коррелирует с углом ориентации второго множителя θ в (4) (рис. 3,а). Примеры фильтров, у которых данные углы различаются, будут представлены далее (рис. 5,а).
    (check this in PDF content)

  26. Start
    13860
    Prefix
    Примеры фильтров, у которых данные углы различаются, будут представлены далее (рис. 5,а). Коэффициент , определяющий эллиптичность функции Гаусса (3), также меняется в относительно небольшом диапазоне (0,2 <γ < 0,9
    Exact
    [4]
    Suffix
    ) и иногда берется равным 0,5-0,6. Более того, при угол практически не влияет на конечный вид фильтра Габора. Отношение определяет количество всплесков и выбирается таким, чтобы было 2-5 основных всплесков.
    (check this in PDF content)

  27. Start
    14381
    Prefix
    Так как фильтр в основном используется для свертки с изображением, то координаты его центра также не влияют на результат. Поэтому в большинстве работ параметры и (или ) являются основными для формирования фильтров. Например, ограничиваются 5-9 значениями и 8 или 16 ориентациями , как в
    Exact
    [23,26]
    Suffix
    . В [27] использовали 68 трехмерных фильтров (37 ориентаций одного масштаба и 31– другого). Подчеркнем, что комбинация выражений (3) в (4) с приведенными выше допущениями, хотя и является наиболее распространенной формой, не является оригинальной и поэтому приводит к заведомо ограниченному набору фильтров.
    (check this in PDF content)

  28. Start
    14393
    Prefix
    Поэтому в большинстве работ параметры и (или ) являются основными для формирования фильтров. Например, ограничиваются 5-9 значениями и 8 или 16 ориентациями , как в [23,26]. В
    Exact
    [27]
    Suffix
    использовали 68 трехмерных фильтров (37 ориентаций одного масштаба и 31– другого). Подчеркнем, что комбинация выражений (3) в (4) с приведенными выше допущениями, хотя и является наиболее распространенной формой, не является оригинальной и поэтому приводит к заведомо ограниченному набору фильтров.
    (check this in PDF content)

  29. Start
    14862
    Prefix
    Подчеркнем, что комбинация выражений (3) в (4) с приведенными выше допущениями, хотя и является наиболее распространенной формой, не является оригинальной и поэтому приводит к заведомо ограниченному набору фильтров. Более того, часто используется только вещественная часть функции (4), тогда как именно комплексная форма обладает оптимальными свойствами
    Exact
    [28, с. 616]
    Suffix
    . Оптимальность фильтра. Оптимальный фильтр определяется как фильтр, обладающий «наилучшей» разрешающей способностью, т.е. наименьшей площадью, как в пространственной, так и в частотной области.
    (check this in PDF content)

  30. Start
    15229
    Prefix
    Оптимальный фильтр определяется как фильтр, обладающий «наилучшей» разрешающей способностью, т.е. наименьшей площадью, как в пространственной, так и в частотной области. Разрешающая способность ограничена принципом неопределенности, который в двумерном виде записывается как
    Exact
    [3, с. 3]
    Suffix
    : (5) где – эффективная ширина и длина фильтра в пространственной области (рис. 3,а); – эффективная ширина и длина фильтра в частотной области (рис. 3,б), которые пропорциональны среднеквадратичным отклонениям функций и соответственно.
    (check this in PDF content)

  31. Start
    15603
    Prefix
    ширина и длина фильтра в пространственной области (рис. 3,а); – эффективная ширина и длина фильтра в частотной области (рис. 3,б), которые пропорциональны среднеквадратичным отклонениям функций и соответственно. Комплексная форма (то есть (3), (4)) является оптимальным фильтром, так как значение теоретически не превышает (подробнее в
    Exact
    [3]
    Suffix
    ) независимо от параметров, но на практике может превышать ввиду дискретизации. Вещественная или мнимая части по отдельности не являются оптимальными, так как их Фурье-образ имеет зеркальную (отраженную от 0-ой частоты) составляющую с координатами ( или ( в зависимости от знака перед в (4).
    (check this in PDF content)

  32. Start
    17674
    Prefix
    Модель представления изображения 2.1 Генерация откликов без аналитической формы При использовании фильтра Габора в качестве ядра свертки с изображениями – классический подход, сходный с вейвлет-преобразованием
    Exact
    [4,23,26,27]
    Suffix
    , – фильтр обладает недостатками, затронутыми выше и отмеченными, например, в [29, с. 38]: - отсутствие однозначной методики выбора восьми свободных параметров; - требование вычислительных ресурсов как для генерирования самого фильтра в соответствии с его аналитической формой, так и операций свертки и хранения полученных откликов, пропорциональных количеству и размеру использ
    (check this in PDF content)

  33. Start
    17762
    Prefix
    Модель представления изображения 2.1 Генерация откликов без аналитической формы При использовании фильтра Габора в качестве ядра свертки с изображениями – классический подход, сходный с вейвлет-преобразованием [4,23,26,27], – фильтр обладает недостатками, затронутыми выше и отмеченными, например, в
    Exact
    [29, с. 38]
    Suffix
    : - отсутствие однозначной методики выбора восьми свободных параметров; - требование вычислительных ресурсов как для генерирования самого фильтра в соответствии с его аналитической формой, так и операций свертки и хранения полученных откликов, пропорциональных количеству и размеру используемых фильтров.
    (check this in PDF content)

  34. Start
    18487
    Prefix
    Как было отмечено выше, методом оптимизации энергетической функции могут быть получены паттерны, подобные фильтру Габора. Другой способ основан на схожести фильтра с производными функциями Гаусса (3-4 порядка, см. в
    Exact
    [28]
    Suffix
    ), причем порядок производной равен количеству пересечений функции нуля, то есть на 1 меньше количества всплесков (рис. 4,д). Отличия заключаются в конечности количества всплесков производной Гаусса и форме огибающей, что несущественно при дискретных вычислениях.
    (check this in PDF content)

  35. Start
    19022
    Prefix
    Однако сама функция Гаусса требует аналитической формы. ... ... ... IIconv,1Iconv,2Iconv,3Iconv,4Iconv,n а) б) д) x y z q x0,y0 M N в) г) ... ... Рис. 4. Применение оператора свертки n-го порядка к: а – изображению лица; б – комбинации функций Хаара, таких как в
    Exact
    [20]
    Suffix
    ; в – изображению цифры [11]; г – абсолютные значения Фурье-образов (каждый пик или экстремум соответствует определенному фильтру Габора); д – производные n-го порядка функции Гаусса, схожие с функцией Габора.
    (check this in PDF content)

  36. Start
    19048
    Prefix
    IIconv,1Iconv,2Iconv,3Iconv,4Iconv,n а) б) д) x y z q x0,y0 M N в) г) ... ... Рис. 4. Применение оператора свертки n-го порядка к: а – изображению лица; б – комбинации функций Хаара, таких как в [20]; в – изображению цифры
    Exact
    [11]
    Suffix
    ; г – абсолютные значения Фурье-образов (каждый пик или экстремум соответствует определенному фильтру Габора); д – производные n-го порядка функции Гаусса, схожие с функцией Габора. На рисунках а-г размеры размеру I, так как после каждой j-ой итерации происходит уменьшения размера в 2 раза.
    (check this in PDF content)

  37. Start
    20072
    Prefix
    Также, для сравнения, приведем операцию производной n-ого порядка: (7) где значение каждого пикселя вычисляется как (рис. 4,д). Результатом применения оператора (6) к некоторому статистически нормализованному (см. в
    Exact
    [18, с. 567]
    Suffix
    ) изображению, например, лица или одного или комбинации вейвлетов Хаара, является изображение с периодической структурой, которое будем называть паттерном или откликом4. В зависимости от исходного изображения и порядка оператора можно наблюдать как отклики, схожие с одним из фильтров Габора, так и более сложные структуры.
    (check this in PDF content)

  38. Start
    27977
    Prefix
    Так как алгоритм представляет собой поиск пиков в частотной области (рис. 4,г), то извлекаемые паттерны соответствуют произвольным регионом в пространственной области. Методы разреженного кодирования позволяют извлечь похожие паттерны, но, как было отмечено ранее, они требуют разбиения изображения на регионы некоторым способом (например, 13×13 пикселей в
    Exact
    [7]
    Suffix
    ), а также длительное время для схождения энергетической функции. Вообще говоря, используя метод разреженного представления только в пространственной области, паттерны, идентичные представленным на рис. 5,а, могут быть найдены только полным перебором всех возможных областей изображения, что невыполнимо на практике. а)б)в)г)д) Рис. 5.
    (check this in PDF content)

  39. Start
    28408
    Prefix
    Вообще говоря, используя метод разреженного представления только в пространственной области, паттерны, идентичные представленным на рис. 5,а, могут быть найдены только полным перебором всех возможных областей изображения, что невыполнимо на практике. а)б)в)г)д) Рис. 5. Демонстрация результатов работы алгоритма: а, сверху – изображение из базы MNIST
    Exact
    [11]
    Suffix
    , снизу – некоторые отклики , полученные по разработанному алгоритму; б-д, сверху – сегментированные вручную части (паттерны) изображения; снизу – некоторые отклики, полученные по тому же алгоритму для данных частей.
    (check this in PDF content)

  40. Start
    33757
    Prefix
    . 3.2 Диапазон значений и корреляционные свойства откликов В данном эксперименте нас интересует, какие паттерны присутствуют в изображениях, для которых выполняется автоматизированный анализ, например, с целью классификации образов. Для данного эксперимента, а также для решения задачи в следующем пункте, была обработана выборка изображений рукописных цифр MNIST
    Exact
    [11]
    Suffix
    . По алгоритму, представленному в п. 0, было извлечено отклика из каждого изображения, что для всей тренировочной выборки соответствует чуть менее 23×60×10 3 откликам из-за того, что из некоторых экземпляров (обычно простых, таких как 1 и 7) возвращается менее 23 откликов (табл. 2, рис. 6).
    (check this in PDF content)

  41. Start
    36168
    Prefix
    Распределение значений откликов, полученных из изображений MNIST, в логарифмической шкале: а – ; б – γ; в, г – θ и β в полярных координатах совместно с длиной волны λ. В дополнении к этому, представленные количественные результаты в табл. 3 также согласуются с работами
    Exact
    [3,4]
    Suffix
    , которые ссылаются на исследования клеток зрительной коры млекопитающих. Действительно, наблюдается корреляция параметров и (r = 0,22), углов и (r = -0,26), а значения в >99% случаев.
    (check this in PDF content)

  42. Start
    38688
    Prefix
    конкретных задач, например, задачи классификации образов. 3.3 Решение задачи классификации Задачами данного эксперимента являются 1) оценить возможности использования алгоритма, предложенного в п. 0, для классификации изображений; 2) получить/улучшить результаты, используя предопределенные фильтры Габора и 3) метод их комбинаций с локальным оператором минимума и максимума
    Exact
    [7]
    Suffix
    ; 4) сравнить результаты с данными предыдущих работ. В качестве тренировочной и тестовой выборки использовались изображения рукописных цифр MNIST аналогично предыдущему эксперименту, однако могут быть использованы и другие изображения.
    (check this in PDF content)

  43. Start
    39085
    Prefix
    В качестве тренировочной и тестовой выборки использовались изображения рукописных цифр MNIST аналогично предыдущему эксперименту, однако могут быть использованы и другие изображения. В качестве классификатор (или метода машинного обучения) использовалась машина опорных векторов (SVM)
    Exact
    [30]
    Suffix
    , и кросс-платформенная библиотека libsvm [31], которая ее реализует. Изначально, метод SVM являлся бинарным классификатором, но во многих работах были предложены и в libsvm реализованы расширения метода по принципу сравнения каждого с каждым (one-against-one, one-vs-one) и каждого со всеми остальными (one-vs-all, one-vs-rest) [18, с. 338].
    (check this in PDF content)

  44. Start
    39129
    Prefix
    В качестве тренировочной и тестовой выборки использовались изображения рукописных цифр MNIST аналогично предыдущему эксперименту, однако могут быть использованы и другие изображения. В качестве классификатор (или метода машинного обучения) использовалась машина опорных векторов (SVM) [30], и кросс-платформенная библиотека libsvm
    Exact
    [31]
    Suffix
    , которая ее реализует. Изначально, метод SVM являлся бинарным классификатором, но во многих работах были предложены и в libsvm реализованы расширения метода по принципу сравнения каждого с каждым (one-against-one, one-vs-one) и каждого со всеми остальными (one-vs-all, one-vs-rest) [18, с. 338].
    (check this in PDF content)

  45. Start
    39425
    Prefix
    Изначально, метод SVM являлся бинарным классификатором, но во многих работах были предложены и в libsvm реализованы расширения метода по принципу сравнения каждого с каждым (one-against-one, one-vs-one) и каждого со всеми остальными (one-vs-all, one-vs-rest)
    Exact
    [18, с. 338]
    Suffix
    . В данной работе использовался вариант по умолчанию в libsvm – сравнение каждого с каждым. Для определения оптимальных параметров метода SVM (C, γ), а также количества главных компонент метода PCA (NPCA) и количества откликов ( ) метода, разработанного в данной работе, проводилась процедура перекрестного тестирования (или кросс-валидация, cross-validation) 18, с. 32], как
    (check this in PDF content)

  46. Start
    39838
    Prefix
    Для определения оптимальных параметров метода SVM (C, γ), а также количества главных компонент метода PCA (NPCA) и количества откликов ( ) метода, разработанного в данной работе, проводилась процедура перекрестного тестирования (или кросс-валидация, cross-validation) 18, с. 32], как и в других работах
    Exact
    [7,11,13,27]
    Suffix
    . Для этого использовались первые 10 4 тренировочных экземпляров, так как для большего количества процедура требовали вычислительных ресурсов, не всегда соизмеримых с улучшением точности.
    (check this in PDF content)

  47. Start
    40824
    Prefix
    Дополнительная обработка изображений, за исключением статистической нормализации (такой, как в шаге 1 алгоритма в п. 0), не осуществлялась6. Для линейной функции ошибка классификации ε составила 7,44%. Ошибка 1,41%, полученная для радиальной базисной функции (RBF), соответствует аналогичным работам
    Exact
    [7,11]
    Suffix
    , не смотря на независимую от других работ процедуру выбора оптимальных параметров (C, γ) (рис. 7,а). С применением других нелинейных функций ядра (полиноминальной, сигмоидальной), встроенных в библиотеку libsvm, проводились только ограниченные эксперименты.
    (check this in PDF content)

  48. Start
    42156
    Prefix
    PCA (NPCA); в – зависимость ε от размера вектора I ,равного 7×| | ; г – суммарное время (t), потраченное на обработку тренировочной выборки и обучение и на обработку тестируемой выборки и тестирование в зависимости от размера тренировочной выборки. 0 2 4 6 8 10 12 14 16 18 20 0.3 1 2 5 10 20 40 60 ε, % Количество тренировочных изображений Линейный SVM НашМетод SVM RBF
    Exact
    [13]
    Suffix
    МинМаксГабор(198,24x2) [24] ×103 1.28 1.29 1.30 1.31 1.32 1.33 7.00 7.05 7.10 7.15 7.20 7.25 100 125 150 175 200 225 250 275 300 325 350 ε, % NPCA НашМетод МинМаксГабор(198,24x2) 6 7 8 9 10 11 12 13 14 21 35 49 63 77 91 105 119 133 147 161 175 189 203 217 ε, % 7×| |푚푎푥 0 0 0 0 1 10 100 1000 0.3 1.0 2.0 5.0 10.0 20.0 40.0 60.0 t, мин Количество тренировоч
    (check this in PDF content)

  49. Start
    42182
    Prefix
    ε от размера вектора I ,равного 7×| | ; г – суммарное время (t), потраченное на обработку тренировочной выборки и обучение и на обработку тестируемой выборки и тестирование в зависимости от размера тренировочной выборки. 0 2 4 6 8 10 12 14 16 18 20 0.3 1 2 5 10 20 40 60 ε, % Количество тренировочных изображений Линейный SVM НашМетод SVM RBF [13] МинМаксГабор(198,24x2)
    Exact
    [24]
    Suffix
    ×103 1.28 1.29 1.30 1.31 1.32 1.33 7.00 7.05 7.10 7.15 7.20 7.25 100 125 150 175 200 225 250 275 300 325 350 ε, % NPCA НашМетод МинМаксГабор(198,24x2) 6 7 8 9 10 11 12 13 14 21 35 49 63 77 91 105 119 133 147 161 175 189 203 217 ε, % 7×| |푚푎푥 0 0 0 0 1 10 100 1000 0.3 1.0 2.0 5.0 10.0 20.0 40.0 60.0 t, мин Количество тренировочных изображений Обучение (Лин
    (check this in PDF content)

  50. Start
    42873
    Prefix
    SVM) Обучение (SVM RBF) Тестирование (SVM RBF) Обучение (Габор) Тестирование (Габор) Обучение (НашМетод) Тестирование (НашМетод) ×103 Фильтры Габора, компонентный анализ и метод опорных векторов. В данной части тестирования вначале исследовались возможности метода обработки изображений предопределенным набором фильтров Габора, как в
    Exact
    [4,26,23,27]
    Suffix
    . При использовании классического набора из 40 фильтров (5 масштабов и 8 ориентаций) получаем вектор из значений. Оптимизация функции опорных векторов для данных такой размерности и выборки из 60×10 3 экземпляров на практике трудноосуществима (по крайней мере, используя вычислительные ресурсы персонального компьютера) ввиду нелинейной сложности существующих ал
    (check this in PDF content)

  51. Start
    45328
    Prefix
    Фильтры Габора, локальный оператор минимума-максимума, компонентный анализ и метод опорных векторов. Отличие данного метода от предыдущего заключается в применении оператора , вычисляющего минимум и максимум в некоторой области изображения
    Exact
    [7]
    Suffix
    . Так как за счет такого оператора происходит понижение размерности на порядок, то возможно увеличение количества фильтров. При этом по нашим наблюдениям использование дополнительных фильтров лучше сказывается на точности, чем сохранение размерности откликов на фильтры.
    (check this in PDF content)

  52. Start
    45627
    Prefix
    Так как за счет такого оператора происходит понижение размерности на порядок, то возможно увеличение количества фильтров. При этом по нашим наблюдениям использование дополнительных фильтров лучше сказывается на точности, чем сохранение размерности откликов на фильтры. В
    Exact
    [7]
    Suffix
    с использованием 160 фильтров Габора и для областей размером 9×9 пикселей (9 областей для изображений цифр размером 28×28) была достигнута ошибка всего 0,71%, а с использованием 169 паттернов, полученных методом разреженного представления, и аналогичного оператора – 0,59%.
    (check this in PDF content)

  53. Start
    45994
    Prefix
    В [7] с использованием 160 фильтров Габора и для областей размером 9×9 пикселей (9 областей для изображений цифр размером 28×28) была достигнута ошибка всего 0,71%, а с использованием 169 паттернов, полученных методом разреженного представления, и аналогичного оператора – 0,59%. Так как детали 160 фильтров в
    Exact
    [7]
    Suffix
    неизвестны, то необходимо было сконструировать набор фильтров Габора. Для этого экспериментальным путем были выбраны 3 масштаба σx, 4 масштаба σy, 7 ориентаций и 2 отношения σx/λ, , , т.е. всего 168 фильтров, в результате чего была получена ошибка 0,77%, что несколько хуже, чем в [7].
    (check this in PDF content)

  54. Start
    46272
    Prefix
    Для этого экспериментальным путем были выбраны 3 масштаба σx, 4 масштаба σy, 7 ориентаций и 2 отношения σx/λ, , , т.е. всего 168 фильтров, в результате чего была получена ошибка 0,77%, что несколько хуже, чем в
    Exact
    [7]
    Suffix
    . При этом оператор вычислялся для 16 областей размером 7×7 пикселей, иначе ошибка была больше. Далее удалось понизить ошибку до 0,72%, добавив 12 составных фильтров, то есть состоящих из суммы двух фильтров Габора (в этом случае комбинация параметров x0, y0 двух фильтров влияет на результат).
    (check this in PDF content)

  55. Start
    47766
    Prefix
    Мульти-классовая классификация методом SVM осуществляется на основе сравнения количества положительных значений расстояний от гиперплоскости, разделяющих классы, из возможных , где – количество классов
    Exact
    [18, с. 338]
    Suffix
    . Таким образом, помимо наилучшего выбора, можно было проанализировать второй и последующие кандидаты классов экземпляров. В данном эксперименте из 60 неправильно классифицированных (из всего 104 тестируемых экземпляров), только 15 экземпляров не оказались ближе к правильному классу при выборе второго кандидата.
    (check this in PDF content)

  56. Start
    48146
    Prefix
    В данном эксперименте из 60 неправильно классифицированных (из всего 104 тестируемых экземпляров), только 15 экземпляров не оказались ближе к правильному классу при выборе второго кандидата. Таким образом, модифицируя метод, предложенный в
    Exact
    [7]
    Suffix
    , удалось получить одни из лучших результатов классификации изображений MNIST на сегодняшний день, не смотря на то, что метод является одним из самых простых. Его недостаток в том, что выбор фильтров критично влияет на результат, поэтому они должны быть тщательно сконструированы с учетом ограничений вычислительных ресурсов и специфики конкретной задачи, что затру
    (check this in PDF content)

  57. Start
    51981
    Prefix
    При использовании автокорреляционной функции вместо (6) ошибка оказалась больше (~1% при кроссвалидации), что говорит о преимуществе оператора свертки. Это может быть связано с потерей фазовых составляющих в случае использования автокорреляционной функции. Таблица 4. Сравнительная таблица полученных результатов для MNIST
    Exact
    [11]
    Suffix
    * Метод Tобр., мин Tобуч., мин C/γ N/NPCA , % Линейный SVM 0 54 4/-/- 784/- 7,44 Данная работа 1078 11 21,5/2-7 2842/175 3,99 RBF SVM [7] - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95
    (check this in PDF content)

  58. Start
    52101
    Prefix
    Таблица 4. Сравнительная таблица полученных результатов для MNIST [11]* Метод Tобр., мин Tобуч., мин C/γ N/NPCA , % Линейный SVM 0 54 4/-/- 784/- 7,44 Данная работа 1078 11 21,5/2-7 2842/175 3,99 RBF SVM
    Exact
    [7]
    Suffix
    - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разре
    (check this in PDF content)

  59. Start
    52297
    Prefix
    для MNIST [11]* Метод Tобр., мин Tобуч., мин C/γ N/NPCA , % Линейный SVM 0 54 4/-/- 784/- 7,44 Данная работа 1078 11 21,5/2-7 2842/175 3,99 RBF SVM [7] - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5
    Exact
    [11]
    Suffix
    - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42
    (check this in PDF content)

  60. Start
    52398
    Prefix
    ,5/2-7 2842/175 3,99 RBF SVM [7] - - 1291,5/21, 5 784/- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72
    Exact
    [7]
    Suffix
    - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной ра
    (check this in PDF content)

  61. Start
    52446
    Prefix
    /- 1,42 RBF SVM 0 19 21,25/2-8,5 784/- 1,41 ~57 - 1/(1/N) 21964/300 1,15 140 12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование
    Exact
    [5]
    Suffix
    - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения
    (check this in PDF content)

  62. Start
    52535
    Prefix
    12 1/(1/N) 18496/300 1,11 - - 1/(1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование
    Exact
    [7]
    Suffix
    - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации.
    (check this in PDF content)

  63. Start
    52576
    Prefix
    1/N) 25432/- недостаточно памяти Сверточная сеть LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM
    Exact
    [11]
    Suffix
    - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации.
    (check this in PDF content)

  64. Start
    52618
    Prefix
    LeNet-5 [11] - - -/- - 0.95 - - 1/(1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы
    Exact
    [13]
    Suffix
    - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации.
    (check this in PDF content)

  65. Start
    52669
    Prefix
    1/N) 5120/- 0,77 - - 1/(1/N) 5760/- 0,72 [7] - - 31,5/21,5 2880/- 0,71 Разреженное кодирование [5] - - -/- -/- 0,62-0,64 104 1,4 2 2,75/2-10 9504/325 0,60 Разреженное кодирование [7] - - 93/2,5 3042/- 0,59 Другие варианты SVM [11] - - -/- -/- 0.56-1.1 Разреженные операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть
    Exact
    [14]
    Suffix
    - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации. В таблице указаны только работы, в которых не использовались дополнительные тренировочные данные.
    (check this in PDF content)

  66. Start
    52976
    Prefix
    операторы [13] - - -/- 42 «диска»/- 0,43 Сверточная нелинейная сеть [14] - - -/- -/- 0,39 *серым выделены методы, реализованные и тестируемые в данной работе, Tобр. – время обработки, Tобуч. – время обучения, N – размер вектора признаков, – ошибка классификации. В таблице указаны только работы, в которых не использовались дополнительные тренировочные данные. Так, например, в
    Exact
    [12]
    Suffix
    с помощью комбинации 35 сверточных сетей, обученной на выборке MNIST с добавлением искусственно искаженных экземпляров, получена ошибка всего 0,23%, что близко к результатам классификации образов человеком. 4.
    (check this in PDF content)

  67. Start
    53772
    Prefix
    Для сравнения, например, свертка изображения с 40 фильтрами занимает всего 8-10 мс (с использованием преобразования Фурье), что на 2 порядка быстрее. Тем не менее, время, требуемое для нашего метода, можно считать стандартным для многих современных методов (сверточная сеть в
    Exact
    [12]
    Suffix
    , ограниченная машина Больцмана обучается около двух дней 7 или неделю в [15, с. 8]). Производительность оптимизированного метода сверточного разреженного кодирования примерно соответствует нашему методу: в [10] 7 Информация с сайта http://www.cs.toronto.edu/~rsalakhu/DBM.html. для изображения размером 50×50 пикселей требуется ~2,5
    (check this in PDF content)

  68. Start
    53846
    Prefix
    Тем не менее, время, требуемое для нашего метода, можно считать стандартным для многих современных методов (сверточная сеть в [12], ограниченная машина Больцмана обучается около двух дней 7 или неделю в
    Exact
    [15, с. 8]
    Suffix
    ). Производительность оптимизированного метода сверточного разреженного кодирования примерно соответствует нашему методу: в [10] 7 Информация с сайта http://www.cs.toronto.edu/~rsalakhu/DBM.html. для изображения размером 50×50 пикселей требуется ~2,5 сек для сходимости энергетической функции.
    (check this in PDF content)

  69. Start
    53984
    Prefix
    Тем не менее, время, требуемое для нашего метода, можно считать стандартным для многих современных методов (сверточная сеть в [12], ограниченная машина Больцмана обучается около двух дней 7 или неделю в [15, с. 8]). Производительность оптимизированного метода сверточного разреженного кодирования примерно соответствует нашему методу: в
    Exact
    [10]
    Suffix
    7 Информация с сайта http://www.cs.toronto.edu/~rsalakhu/DBM.html. для изображения размером 50×50 пикселей требуется ~2,5 сек для сходимости энергетической функции.
    (check this in PDF content)

  70. Start
    55415
    Prefix
    В отличие от генеративных методов на основе минимизации ошибки реконструкции, данный метод представляет размерности, обладающие более явным физическим смыслом. Анализ последовательностей. В
    Exact
    [23]
    Suffix
    показаны временные диаграммы, используемые для классификации эмоциональных состояний по видеоизображению. С помощью разработанной модели получены аналогичные графики изменений параметров на рис. 9,а и параметров на рис. 9,б, вычисленные для видеоизображения с человеком, выполняющим жесты элементов лица и тела в четкой последовательности
    (check this in PDF content)