The 18 reference contexts in paper A. Hahalin S., E. Sycheva A., I. Kiselev A., T. Petrova D., V. Yablokov E., Yu. Berchun V., А. Хахалин С., В. Яблоков Е., Е. Сычёва А., И. Киселёв А., Т. Петрова Д., Ю. Берчун В. (2016) “Применение технологии CUDA в задаче об определении матрицы жесткости // Using CUDA Technology for Defining the Stiffness Matrix in the Subspace of Eigenvectors” / spz:neicon:technomag:y:2015:i:7:p:129-145

  1. Start
    1950
    Prefix
    С их помощью стало возможно решение более широкого круга задач на графических картах. В конце 2006 года компанией Nvidia была представлена одна из таких технологий – CUDA (Compute Unified Device Architecture)
    Exact
    [1]
    Suffix
    . Компания Nvidia не единственная, кто направил свои силы на GPGPU. Примерно в то же время AMD выпускает свой продукт AMD Close To Metal(CTM) – низкоуровневый программный интерфейс, нацеленный на вычисления общего назначения на картах компании.
    (check this in PDF content)

  2. Start
    2398
    Prefix
    Примерно в то же время AMD выпускает свой продукт AMD Close To Metal(CTM) – низкоуровневый программный интерфейс, нацеленный на вычисления общего назначения на картах компании. Данный продукт просуществовал недолго, и уже в декабре 2007 года был объявлен выпуск Stream SDK, дошедший до нашего времени как AMD APP SDK
    Exact
    [2]
    Suffix
    . Решения, выпущенные компаниями Nvidia и AMD, предназначены только для графических устройств собственного производства. В 2008 году некоммерческим консорциумом Khronos Group [3] был представлен новый стандарт OpenCL [4] - фреймворк ориентированный на GPGPU и не зависимый от аппаратного обеспечения.
    (check this in PDF content)

  3. Start
    2583
    Prefix
    Данный продукт просуществовал недолго, и уже в декабре 2007 года был объявлен выпуск Stream SDK, дошедший до нашего времени как AMD APP SDK [2]. Решения, выпущенные компаниями Nvidia и AMD, предназначены только для графических устройств собственного производства. В 2008 году некоммерческим консорциумом Khronos Group
    Exact
    [3]
    Suffix
    был представлен новый стандарт OpenCL [4] - фреймворк ориентированный на GPGPU и не зависимый от аппаратного обеспечения. Компания Microsoft так же приняла участие в данном направлении. Она разработала библиотеку C++ AMP [5], которая построена поверх DirectX 11 и предназначена для программирования гетерогенных (т.е. использующих одновременно вычислительные мощности,
    (check this in PDF content)

  4. Start
    2624
    Prefix
    Решения, выпущенные компаниями Nvidia и AMD, предназначены только для графических устройств собственного производства. В 2008 году некоммерческим консорциумом Khronos Group [3] был представлен новый стандарт OpenCL
    Exact
    [4]
    Suffix
    - фреймворк ориентированный на GPGPU и не зависимый от аппаратного обеспечения. Компания Microsoft так же приняла участие в данном направлении. Она разработала библиотеку C++ AMP [5], которая построена поверх DirectX 11 и предназначена для программирования гетерогенных (т.е. использующих одновременно вычислительные мощности, как центрального процессора, так и видеокарт
    (check this in PDF content)

  5. Start
    2812
    Prefix
    В 2008 году некоммерческим консорциумом Khronos Group [3] был представлен новый стандарт OpenCL [4] - фреймворк ориентированный на GPGPU и не зависимый от аппаратного обеспечения. Компания Microsoft так же приняла участие в данном направлении. Она разработала библиотеку C++ AMP
    Exact
    [5]
    Suffix
    , которая построена поверх DirectX 11 и предназначена для программирования гетерогенных (т.е. использующих одновременно вычислительные мощности, как центрального процессора, так и видеокарты) приложений.
    (check this in PDF content)

  6. Start
    3135
    Prefix
    Она разработала библиотеку C++ AMP [5], которая построена поверх DirectX 11 и предназначена для программирования гетерогенных (т.е. использующих одновременно вычислительные мощности, как центрального процессора, так и видеокарты) приложений. Одним из новых игроков в вычислениях общего назначения на графических устройствах является стандарт OpenACC
    Exact
    [6]
    Suffix
    . Он описывает набор директив компилятора, предназначенных для простого и быстрого создания гетерогенных программ. В настоящее время графические устройства применяются для высокопроизводительных параллельных вычислений в различных системах.
    (check this in PDF content)

  7. Start
    3453
    Prefix
    В настоящее время графические устройства применяются для высокопроизводительных параллельных вычислений в различных системах. Во многих суперкомпьютерах фирмы Cray, по состоянию на 2014 год
    Exact
    [7]
    Suffix
    , уже установлены, помимо чипов архитектуры x86-64, графические ускорители Nvidia Tesla. Применение GPU позволяет добиться многократного увеличения производительности в медицинских и в физических расчётах, в системах видеонаблюдения и во многих других направлениях [8].
    (check this in PDF content)

  8. Start
    3722
    Prefix
    Во многих суперкомпьютерах фирмы Cray, по состоянию на 2014 год [7], уже установлены, помимо чипов архитектуры x86-64, графические ускорители Nvidia Tesla. Применение GPU позволяет добиться многократного увеличения производительности в медицинских и в физических расчётах, в системах видеонаблюдения и во многих других направлениях
    Exact
    [8]
    Suffix
    . В данной статье основное внимание уделено повышению производительности расчета за счет применения вычислительных возможностей графических процессоров при решении задачи об определении собственных частот и форм колебаний конечно-элементных моделей с большим числом степеней свободы.
    (check this in PDF content)

  9. Start
    4980
    Prefix
    Программная модель архитектуры представляет собой набор библиотек и расширение языка, позволяющее удобно оперировать с возможностями графического устройства. И в отличие от шейдерных языков
    Exact
    [9]
    Suffix
    , используемых ранее для программирования на GPU, она несет в себе синтаксис, направленный на вычисления общего назначения. Технология CUDA основывается на концепции, что графическое устройство (далее устройство, device) является массивно-параллельным сопроцессором к центральному процессору (далее хост, host).
    (check this in PDF content)

  10. Start
    7111
    Prefix
    Эффективная, понятная и простая аналогия между программными функциями и их аппаратной реализацией, позволяет практически на прямую оперировать с устройством. Так, например, у программистов имеется возможность управлять содержимым, так называемой, разделяемой памяти (shared memory)
    Exact
    [10]
    Suffix
    , которая физически является частью мультипроцессора. Скорость обращения к разделяемой памяти такая же, как и к кэшу первого уровня, причем физически кэш и разделяемая память – одно и тоже, пропорция между этими двумя видами памяти может устанавливаться за счет настроек при инициализации видеокарты.
    (check this in PDF content)

  11. Start
    7573
    Prefix
    Скорость обращения к разделяемой памяти такая же, как и к кэшу первого уровня, причем физически кэш и разделяемая память – одно и тоже, пропорция между этими двумя видами памяти может устанавливаться за счет настроек при инициализации видеокарты. Более подробно с технологией Nvidia CUDA и её особенностями можно ознакомиться по официальной документации
    Exact
    [11]
    Suffix
    и книгам [12, 13]. Или же по небольшой, но описывающей многие особенности, статье [14]. Постановка задачи Как было упомянуто выше, основное внимание в статье уделено задаче механики деформированного твердого тела, а именно задаче по определению собственных частот колебаний конструкции на основе метода конечных элементов.
    (check this in PDF content)

  12. Start
    7586
    Prefix
    Скорость обращения к разделяемой памяти такая же, как и к кэшу первого уровня, причем физически кэш и разделяемая память – одно и тоже, пропорция между этими двумя видами памяти может устанавливаться за счет настроек при инициализации видеокарты. Более подробно с технологией Nvidia CUDA и её особенностями можно ознакомиться по официальной документации [11] и книгам
    Exact
    [12, 13]
    Suffix
    . Или же по небольшой, но описывающей многие особенности, статье [14]. Постановка задачи Как было упомянуто выше, основное внимание в статье уделено задаче механики деформированного твердого тела, а именно задаче по определению собственных частот колебаний конструкции на основе метода конечных элементов.
    (check this in PDF content)

  13. Start
    7661
    Prefix
    Более подробно с технологией Nvidia CUDA и её особенностями можно ознакомиться по официальной документации [11] и книгам [12, 13]. Или же по небольшой, но описывающей многие особенности, статье
    Exact
    [14]
    Suffix
    . Постановка задачи Как было упомянуто выше, основное внимание в статье уделено задаче механики деформированного твердого тела, а именно задаче по определению собственных частот колебаний конструкции на основе метода конечных элементов.
    (check this in PDF content)

  14. Start
    8052
    Prefix
    Постановка задачи Как было упомянуто выше, основное внимание в статье уделено задаче механики деформированного твердого тела, а именно задаче по определению собственных частот колебаний конструкции на основе метода конечных элементов. Одним из методов решения данной задачи является метод итераций в подпространстве, состоящий из нескольких этапов, подробно описанных в
    Exact
    [15, 16]
    Suffix
    . Одной из наиболее ресурсоемких стадий алгоритма является определение матрицы жесткости в подпространстве собственных форм (1), представляющая собой перемножение трех матриц, имеющих различную структуру и схему хранения.
    (check this in PDF content)

  15. Start
    9041
    Prefix
    В настоящей работе за основу взята реализация метод итераций в подпространстве для определения собственных частот и форм колебаний конечно-элементных моделей с большим числом степеней свободы, реализованный на CPU в программном комплексе UZOR 1.0, имеющего параллельную сетевую архитектуру клиент-сервер
    Exact
    [17, 18]
    Suffix
    .Этап вычисления проекции матрицы жесткости в рассматриваемой реализации выполняется в серверной части программы и занимает около 40-60% от всего времени выполнения 1 итерации алгоритма, в зависимости от характеристик конкретной конечно-элементной модели при осуществлении расчета на одном вычислительном узле.
    (check this in PDF content)

  16. Start
    10649
    Prefix
    С учетом специфики матричного умножения, заметим, что она хорошо подходит для распараллеливания, поэтому является допустимой для применения ресурсов графического процессора. Эффективность переноса вычисления операций линейной алгебры на GPU уже было показано в статьях
    Exact
    [19, 20]
    Suffix
    . Выбор Nvidia CUDA, в качестве технологии, для реализации рассматриваемого произведения, обусловлен аппаратными предпочтениями и эффективностью архитектуры [21]. При решении задачи необходимо учесть следующие особенности:  реализуемая операция является промежуточной в работе алгоритма по отысканию собственных частот;  размерности матриц велики (до 10 7 );  матрица жесткости K яв
    (check this in PDF content)

  17. Start
    10815
    Prefix
    Эффективность переноса вычисления операций линейной алгебры на GPU уже было показано в статьях [19, 20]. Выбор Nvidia CUDA, в качестве технологии, для реализации рассматриваемого произведения, обусловлен аппаратными предпочтениями и эффективностью архитектуры
    Exact
    [21]
    Suffix
    . При решении задачи необходимо учесть следующие особенности:  реализуемая операция является промежуточной в работе алгоритма по отысканию собственных частот;  размерности матриц велики (до 10 7 );  матрица жесткости K является симметричной и сильно разреженной, поэтому хранится в специализированных форматах (либо в виде глобальной матрицы жесткости, для которой хранятся ли
    (check this in PDF content)

  18. Start
    11234
    Prefix
    следующие особенности:  реализуемая операция является промежуточной в работе алгоритма по отысканию собственных частот;  размерности матриц велики (до 10 7 );  матрица жесткости K является симметричной и сильно разреженной, поэтому хранится в специализированных форматах (либо в виде глобальной матрицы жесткости, для которой хранятся лишь ненулевые элемент (например, CSR
    Exact
    [22]
    Suffix
    ), либо в виде матриц жесткости элементов. В работе рассмотрен второй вариант). Описание алгоритма Алгоритм основан на особенностях входных данных, которые поставляются из ранее упомянутой программы, выполняемой на CPU.
    (check this in PDF content)