Пгу кпд: Парогазовые установки — ПГУ

Парогазовые установки — ПГУ

Вы здесь

/ / Парогазовые установки* — ПГУ

Парогазовые установки — ПГУ — описание

Парогазовые установки производят электричество и тепловую энергию. Тепловая энергия используется для дополнительного производства электричества. Парогазовая установка состоит из двух отдельных блоков: паросилового и газотурбинного. Топливом ПГУ может служить как природный газ, так и продукты нефтехимической промышленности, например мазут. В парогазовых установках на одном валу с газовой турбиной находится первый генератор, который за счет вращения ротора вырабатывает электрический ток. Проходя через газовую турбину, продукты сгорания отдают ей лишь часть своей энергии и на выходе из турбины все ещё имеют высокую температуру. Далее продукты сгорания попадают в паросиловую установку, в котел-утилизатор, где нагревают водяной пар. Температуры продуктов сгорания достаточно для того, чтобы довести пар до состояния, необходимого для вращения паровой турбины (температура 500 градусов по Цельсию и давление 80 атмосфер). С паровой турбиной механически связан второй генератор.

Парогазовые установки — ПГУ — эффективность использования топлива

Общий электрический КПД парогазовой установки составляет ~58 — 64%. В стандартных газотурбинных установках КПД составляет ~ 35%. Парогазовые установки (ПГУ) — относительно новый тип электростанций, работающих на газе, жидком или твердом топливе. Парогазовые установки (ПГУ) предназначены для получения максимального количества электроэнергии.

Инжиниринг и строительство парогазовых установок

Проектирование, инжиниринг, строительство ПГУ осуществляют всемирно известные компании:

  • ABB
  • Alstom
  • Babcock-Hitachi
  • Siemens AG

Смотрите предложения российской IPP компании Новая Генерация!

*Парогазовые установки на английском языке называются combined-cycle power plant (CCPP)

Газотурбинные установки – ГТУ – производители и поставщики

На российском рынке сегодня представлены компании, поставляющие газовые турбины:

Capstone (Кэпстоун), General Electric (Дженерал Электрик), GE, Kawasaki (Кавасаки), MAN TURBO AG, Mitsubishi Heavy Industries, (Митсубиши Хэви Индастриз), OPRA (ОПРА), Rolls-Royce (Роллс-Ройс), Siemens (Сименс), Solar Turbines (Солар Турбайнз), Turbomach (Турбомах), микротурбинные установки /мини — турбины, Микротурбинные электростанции — установки Capstone — Calnetix, газовые турбины Dresser–Rand.

Газовые турбины — полезная информация:

  • Газовые электростанции: преимущества использования
  • Когенерация (первая часть)
  • Когенерация (вторая часть)
  • Тригенерация
  • Мини-ТЭЦ
  • Попутный нефтяной газ
  • Газовые теплоэлектростанции на различных видах топлива
  • Газовые генераторы
  • Турбогенераторы
  • Газовые электростанции — стоимость строительства «под ключ»
  • Лизинг газовых электростанций
  • Технические xарактеристики газовых микротурбин Capstone
  • Микротурбинные установки Capstone — реализованные проекты в России
  • Технические xарактеристики газотурбинных электростанций OPRA
  • Газотурбинные установки OPRA — реализованные проекты в России
  • Технические xарактеристики газовых микротурбин — электростанций Ingersoll Rand
  • Микротурбинные газовые генераторы CAPSTONE — C200
  • Газовые микротурбины С1000
  • Газотурбинные установки — системы забора воздуха
  • Газотурбинные установки – газопоршневые тепловые электростанции – проектирование и организация строительства
  • Домашние газовые микротурбинные электростанции
  • Микротурбины Ingersoll Rand – преимущества газовых электростанций нового поколения
  • Контейнеры для газотурбинных установок
  • Мобильные газотурбинные установки, передвижные электростанции
  • Расчет типичной ТЭЦ — ПГУ

Что такое Парогазовая электростанция (ПГЭС)?

AИ-95

0

AИ-98

0

29786

Парогазовая электростанция /установка ( ПГЭС /ПГУ) —  комбинированная электрогенерирующая станция с повышенным КПД.


Парогазовая установка (ПГУ) состоит из 2-х отдельных установок: паросиловой и газотурбинной. В газотурбинной установке турбину вращают газообразные продукты сгорания природного газа, мазута и других видов топлива .

На одном валу с турбиной находится 1-й генератор, который за счет вращения ротора вырабатывает электрический ток. Проходя через газовую турбину и отдавая ей часть своей энергии, продукты сгорания — дымовые газаы на выходе имеют температуру около 500 оС. С выхода из газовой турбины они попадают в паросиловую установку, в котел-утилизатор, где нагревают воду и образующийся водяной пар. Образующийся перегретый пар при давлении 100 атм используется в паровой турбине, которая приводит в действие 2-й электрогенератор.

Существуют парогазовые установки, у которых паровая и газовая турбины находятся на одном валу, в этом случае устанавливается только один генератор.


Парогазовые установки:

— позволяют достичь электрического КПД в диапазоне 58 — 64 %. У паросиловых установок КПД , например, находится в диапазоне 33-45 %, для газотурбинных установок — 28-42 %

-имеют низкая стоимость единицы установленной мощности

— потребляют меньше воды на единицу вырабатываемой электроэнергии по сравнению с паросиловыми установками

— более технологичны в возведении и могут быть установлены за 9-12 мес.

— компактны в сравнении с другими типами электростанций, могут быть установлены вблизи объекта энергопотребления, что сокращает затраты на транспортировку электроэнергии

— однако имеют более низкую единичную мощность оборудования (160-972 МВт на 1 блок), например, с ТЭС, которые имеют мощность блока до 1200 МВт и АЭС- 1200-1600 МВт.

-необходимость осуществлять фильтрацию воздуха, используемого для сжигания топлива, с одной стороны, удорожает технологию, с другой — делает ПГУ более экологичными.


Парогазовые установки (ПГУ) — относительно новый тип электростанций, пока используемый в западных странах чаще, особенно на электростанциях, использующих в качестве топлива природный газ.


Любопытно, что идею использования парогазового цикла взяли на вооружение специалисты BMW, предполагающие в перспективе использовать выхлопные газы автомобиля для работы небольшой паровой турбины. Этот проект выглядит не более экзотичным , чем использование, например, биотоплива.

Последние новости

Новости СМИ2

Произвольные записи из технической библиотеки

Используя данный сайт, вы даете согласие на использование файлов cookie, помогающих нам сделать его удобнее для вас. Подробнее.

Точность и эффективность расчета дозы Acuros XB на основе графического процессора (GPU) в системе планирования лечения Varian Eclipse

. 2019;44(3):219-225.

doi: 10.1016/j.meddos.2018.07.002.

Epub 2018 26 августа.

Трент Аланд
1
, Энтони Уолш
2
, Марк Джонс
2
, Анджелина Пиччини
2
, Эйми Девлин
2

Принадлежности

  • 1 ICON Group, Южный Брисбен, Квинсленд, Австралия; Школа химии, физики и машиностроения Квинслендского технологического университета, Брисбен, Квинсленд, Австралия. Электронный адрес: [email protected].
  • 2 ICON Group, Южный Брисбен, Квинсленд, Австралия.
  • PMID:

    30153966

  • DOI:

    10.1016/j.meddos.2018.07.002

Трент Аланд и др.

Мед Досим.

2019.

. 2019;44(3):219-225.

doi: 10.1016/j.meddos.2018.07.002.

Epub 2018 26 августа.

Авторы

Трент Аланд
1
, Энтони Уолш
2
, Марк Джонс
2
, Анджелина Пиччини
2
, Эйми Девлин
2

Принадлежности

  • 1 ICON Group, Южный Брисбен, Квинсленд, Австралия; Школа химии, физики и машиностроения Квинслендского технологического университета, Брисбен, Квинсленд, Австралия. Электронный адрес: [email protected].
  • 2 ICON Group, Южный Брисбен, Квинсленд, Австралия.
  • PMID:

    30153966

  • DOI:

    10.1016/j.meddos.2018.07.002

Абстрактный

Оценить с точки зрения дозиметрической точности и эффективности расчетов внедрение механизма расчета дозы Acuros XB на основе графического процессора (GPU) в версии 15.5 системы планирования лечения Varian Eclipse. Первоначальные расчеты на основе фантомов и 101 клинический случай были проанализированы с помощью специальной тестовой системы. Дозиметрические различия, основанные на параметрах гистограммы доза-объем и сравнении планов, сравнивались между расчетами на основе центрального процессора (ЦП) и ГП. Время расчета также сравнивалось между CPU и GPU, а также в режимах PLAN и FIELD. Дозиметрических различий между CPU и GPU обнаружено не было. Вычисления на основе ЦП варьировались от 25 до 533 секунд на план, уменьшаясь до 13-70 секунд для ГП. GPU оказался в 4,4 раза эффективнее CPU. Режим FIELD был до 1,3 раза эффективнее, чем режим PLAN. Для клинических случаев и используемой версии Eclipse дозиметрические различия между ЦП и ГП обнаружены не были. Исходя из этого, архитектура графического процессора была безопасно реализована и готова к клиническому использованию. Время вычислений на основе графического процессора было выше, чем на центральном процессоре, в среднем в 4,4 раза быстрее.


Ключевые слова:

АкуросXB; Алгоритм; Затмение; ГП.

Copyright © 2018 Американская ассоциация медицинских дозиметристов. Опубликовано Elsevier Inc. Все права защищены.

Похожие статьи

  • Дозиметрическое сравнение планов лечения спиральной томотерапией для тотального облучения костного мозга, созданных с использованием механизмов расчета дозы GPU и CPU.

    Налиховский А., Бурмейстер Дж.
    Налиховский А. и соавт.
    мед. физ. 2013 июль;40(7):071716. дои: 10.1118/1.4810936.
    мед. физ. 2013.

    PMID: 23822420

  • Оценка нового алгоритма генерации многокритериального плана оптимизации VMAT с поддержкой графического процессора.

    Сполдинг М., Уолш А., Аланд Т.
    Сполдинг М. и соавт.
    Мед Досим. 2020 Зима; 45(4):368-373. doi: 10.1016/j.meddos.2020.05.007. Epub 2020 12 июля.
    Мед Досим. 2020.

    PMID: 32669220

  • [Расчет быстрой дозы на основе CUDA в лучевой терапии].

    Ван С, Лю С, Хоу Ц.
    Ван Х и др.
    Шэн У И Сюэ Гун Ченг Сюэ За Чжи. 2011 Октябрь; 28 (5): 881-5.
    Шэн У И Сюэ Гун Ченг Сюэ За Чжи. 2011.

    PMID: 22097248

    Китайский язык.

  • Параллельный расчет дозы бимлета с помощью контекстов бимлета в распределенной среде с несколькими графическими процессорами.

    Неф Р., Оуян С., Нейлон Дж., Ян И., Шэн К.
    Неф Р. и др.
    мед. физ. 2019 авг; 46 (8): 3719-3733. doi: 10.1002/mp.13651. Epub 2019 30 июня.
    мед. физ. 2019.

    PMID: 31183871
    Бесплатная статья ЧВК.

  • Проверка механизма расчета дозы TomoTherapy на основе графического процессора.

    Чен К., Лу В., Чен Ю., Чен М., Хендерсон Д., Стерпин Э.
    Чен Кью и др.
    мед. физ. 2012 Апрель; 39 (4): 1877-86. дои: 10.1118/1.3693057.
    мед. физ. 2012.

    PMID: 22482609

Посмотреть все похожие статьи

Цитируется

  • Онлайн-адаптивная лучевая терапия рака предстательной железы Varian Ethos: первые результаты точности контурирования, качества плана лечения и времени лечения.

    Бирн М., Арчибальд-Херен Б., Ху Ю., Тэх А., Бесерминджи Р., Кай Э., Лю Г., Йейтс А., Райкен Дж., Коллетт Н., Аланд Т.
    Бирн М. и соавт.
    J Appl Clin Med Phys. 2022 янв; 23(1):e13479. doi: 10.1002/acm2.13479. Epub 2021 29 ноября.
    J Appl Clin Med Phys. 2022.

    PMID: 34846098
    Бесплатная статья ЧВК.

  • Валидация предварительно сконфигурированной модели луча Varian Ethos Acuros XB Beam Model для расчета доз при планировании лечения: дозиметрическое исследование.

    Ху Ю., Бирн М., Арчибальд-Херен Б., Коллетт Н., Лю Г., Аланд Т.
    Ху Ю и др.
    J Appl Clin Med Phys. 2020 дек;21(12):27-42. doi: 10.1002/acm2.13056. Epub 2020 17 октября.
    J Appl Clin Med Phys. 2020.

    PMID: 33068070
    Бесплатная статья ЧВК.

  • Deep DoseNet: глубокая нейронная сеть для точного дозиметрического преобразования между различными пространственными разрешениями и/или различными алгоритмами расчета дозы для прецизионной лучевой терапии.

    Донг П., Син Л.
    Донг П. и др.
    физ.-мед. биол. 2020 4 февраля; 65 (3): 035010. doi: 10.1088/1361-6560/ab652d.
    физ.-мед. биол. 2020.

    PMID: 31869825
    Бесплатная статья ЧВК.

термины MeSH

Документация по производительности глубокого обучения NVIDIA

Руководство пользователя по производительности графического процессора

(PDF)

Последнее обновление: 10 марта 2022 г.

В этом руководстве представлена ​​общая информация о структуре графического процессора, о том, как выполняются операции.
выполняются, а также общие ограничения операций глубокого обучения.

Когда вы рассуждаете о том, как
эффективно определенные слои или нейронные сети используют данный графический процессор.

В этом руководстве описаны:

  • Базовая структура графического процессора (основы архитектуры графического процессора)

  • Как операции делятся и выполняются параллельно (модель выполнения GPU)

  • Как оценить ограничения производительности с помощью арифметической интенсивности (Понимание производительности)

  • Свободные категории операций глубокого обучения и ограничения производительности, которые имеют тенденцию
    применять к каждому (категории операций DNN)

GPU представляет собой высокопараллельную архитектуру процессора, состоящую из обрабатывающих элементов.
и иерархия памяти. На высоком уровне графические процессоры NVIDIA ® состоят из ряда
Потоковые мультипроцессоры (SM), встроенный кэш-память L2 и DRAM с высокой пропускной способностью. Арифметика и прочее
инструкции выполняются SM; доступ к данным и коду осуществляется из DRAM через кэш L2. В качестве
например, графический процессор NVIDIA A100 содержит 108 SM, 40 МБ кэш-памяти второго уровня и до 2039Пропускная способность ГБ/с
от 80 ГБ памяти HBM2.

Рисунок 1. Упрощенное представление архитектуры графического процессора


Каждый SM имеет свои собственные планировщики инструкций и различные конвейеры выполнения инструкций.
Умножение-сложение — наиболее частая операция в современных нейронных сетях, выступающая в роли построения
блок для полносвязных и сверточных слоев, оба из которых можно рассматривать как
коллекция векторных скалярных произведений. В следующей таблице показано многократное добавление одного SM.
операций за такт для различных типов данных на новейших графических процессорах NVIDIA. Каждый
умножить-добавить состоит из двух операций, таким образом, можно было бы умножить пропускную способность в таблице на
2, чтобы получить количество FLOP за такт. Чтобы получить скорость FLOPS для GPU, нужно умножить их на
количество SM и тактовая частота SM. Например, графический процессор A100 с 108 SM и тактовой частотой 1,41 ГГц.
скорость имеет пиковую плотную пропускную способность 156 TF32 TFLOPS и 312 FP16 TFLOPS (пропускная способность, достигнутая
приложениями зависят от ряда факторов, обсуждаемых в этом документе).

Рисунок 2. Операции умножения-сложения за такт на SM

svg»>


Как показано на рисунке 2, операции FP16 могут выполняться в любом тензоре
Ядра или ядра NVIDIA CUDA ® . Кроме того, NVIDIA Turing™
Архитектура может выполнять операции INT8 либо в ядрах Tensor, либо в ядрах CUDA. Тензорные ядра
были введены в архитектуру графического процессора NVIDIA Volta™ для ускорения матричных
умножать и накапливать операции для машинного обучения и научных приложений. Эти
инструкции работают с небольшими матричными блоками (например, блоками 4×4). Обратите внимание, что тензорные ядра
может вычислять и накапливать продукты с большей точностью, чем входные данные. Например, во время
обучения с входными данными FP16, тензорные ядра могут вычислять продукты без потери точности и
накапливаются в FP32. Когда математические операции нельзя сформулировать в терминах матричных блоков, они
выполняются в других ядрах CUDA. Например, поэлементное сложение двух половинной точности
тензоры будут выполняться ядрами CUDA, а не тензорными ядрами.

Чтобы использовать свои параллельные ресурсы, графические процессоры одновременно выполняют множество потоков.

Существуют две концепции, важные для понимания того, как количество потоков связано с GPU.
производительность:

  1. GPU выполняют функции, используя двухуровневую иерархию потоков. Потоки заданной функции
    сгруппированы в равные по размеру блоки потоков , а набор блоков потоков
    запущен для выполнения функции.
  2. Графические процессоры

  3. скрывают зависимую задержку выполнения инструкций, переключаясь на выполнение других потоков.
    Таким образом, количество потоков, необходимых для эффективного использования графического процессора, намного выше, чем
    количество ядер или конвейеров инструкций.

Двухуровневая иерархия потоков является результатом того, что GPU имеют множество SM, каждый из которых, в свою очередь, имеет
конвейеры для выполнения многих потоков и позволяет своим потокам взаимодействовать через разделяемую память
и синхронизация. Во время выполнения блок потока помещается на SM для выполнения, что позволяет
потоки в блоке потоков для эффективного взаимодействия и синхронизации. Запуск функции
с одним блоком потока даст работу только одному SM, поэтому для полного использования
GPU с несколькими SM нужно запускать много блоков потоков. Поскольку SM может выполнять несколько
блоки потока одновременно, обычно требуется, чтобы количество блоков потока было несколько
раз больше, чем количество СМ. Это делается для того, чтобы свести к минимуму эффект «хвоста».
где в конце выполнения функции остается только несколько активных блоков потока, таким образом
недостаточное использование графического процессора в течение этого периода времени, как показано на рисунке 3.

Рисунок 3. Использование графического процессора с 8 SM, когда 12 блоков потоков с занятостью 1 блок/SM в
время запущены на исполнение. Здесь блоки выполняются в 2 волны, первая волна
использует 100% GPU, в то время как 2-я волна использует только 50%.


Мы используем термин волна для обозначения набора блоков потоков, которые выполняются одновременно. это
наиболее эффективно запускать функции, которые выполняются в несколько волн блоков потоков — меньший
процент времени тратится на хвостовую волну, сводя к минимуму эффект хвоста и, следовательно, необходимость
сделать что-нибудь об этом. Для высокопроизводительных графических процессоров обычно запускается только менее 300
блоки резьбы должны быть проверены на хвостовые эффекты.

Производительность функции на данном процессоре ограничена одним из следующих трех
факторы; пропускная способность памяти, математическая пропускная способность и задержка.

Рассмотрим упрощенную модель, в которой функция считывает ввод из памяти, выполняет математические операции.
операций, а затем записывает результат в память. Сказать

Время
время тратится на доступ к памяти,

Математика
время тратится на выполнение математических операций. Если мы далее предположим, что память и
математические части разных потоков могут перекрываться, общее время выполнения функции равно

макс. (Tmem, Tmath)
. Большее из двух значений времени показывает, что ограничивает производительность: если математическое время
длиннее, мы говорим, что функция равна математика ограничена , если время памяти больше, то оно
память ограничена .

Сколько времени тратится на память или математические операции, зависит как от алгоритма, так и от его
реализация, а также пропускная способность процессора. Время памяти равно количеству
байтов, к которым осуществляется доступ в памяти, деленное на пропускную способность памяти процессора. Математическое время равно
количество операций, деленное на математическую пропускную способность процессора. Таким образом, на данном процессоре
данный алгоритм математически ограничен, если

Tmath > Tmem
который может быть выражен как

#ops / BWmath > #bytes / BWmem

С помощью простой алгебры неравенство можно преобразовать в

#ops / #bytes > BWmath / BWmem

Левая часть, соотношение операций реализации алгоритма и количество байтов
к которому осуществляется доступ, называется арифметической интенсивностью алгоритма . Правая сторона, т.
отношение вычислительной мощности процессора и пропускной способности памяти иногда называют соотношением 90 208 операций:байт 90 209.
Таким образом, алгоритм является математически ограниченным на данном процессоре, если арифметические операции алгоритма
интенсивность выше, чем соотношение операций/байтов процессора. И наоборот, алгоритм — это память.
ограничивается, если его арифметическая интенсивность ниже 9 процессорной0244 операций:байт
соотношение.

Рассмотрим несколько конкретных примеров из глубоких нейронных сетей, перечисленных в таблице 1 ниже. За
В этих примерах мы сравним арифметическую интенсивность алгоритма с соотношением операций:байт на
графический процессор NVIDIA Volta V100. V100 имеет пиковую математическую скорость 125 FP16 Tensor TFLOPS.
пропускная способность памяти ок. 900 ГБ/с, а пропускная способность встроенного L2 3,1 ТБ/с, что дает ему
соотношение операций:байт от 40 до 139, в зависимости от источника данных операции (на кристалле или
внешняя память).

Таблица 1. Примеры нейросетевых операций с их арифметическими интенсивностями. Ограничители
предположим данные FP16 и графический процессор NVIDIA V100.
Операция Арифметическая интенсивность Обычно ограничивается…
Линейный слой (4096 выходов, 1024 входа, размер пакета 512) 315 ​​ФЛОПС/Б арифметика
Линейный слой (4096 выходов, 1024 входа, размер пакета 1) 1 ФЛОПС/Б память
Максимальное объединение с окном 3×3 и единичным шагом 2,25 флопс/б память
Активация ReLU 0,25 флопс/байт память
Нормализация слоя < 10 ФЛОПС/Б память

Как видно из таблицы, многие общие операции имеют низкую арифметическую интенсивность — иногда только
выполнение одной операции для каждого двухбайтового элемента, прочитанного из памяти и записанного в память. Обратите внимание, что
этот тип анализа является упрощением, так как мы считаем только алгоритмический
используемые операции. На практике функции также содержат инструкции для операций, не
явно выраженные в алгоритме, такие как инструкции доступа к памяти, вычисление адреса
инструкции, инструкции управления потоком и так далее.

Анализ арифметической интенсивности и соотношения операций:байтов предполагает, что рабочая нагрузка достаточно высока.
большой, чтобы насытить конвейеры вычислений и памяти данного процессора. Однако, если нагрузка
недостаточно большой или не имеет достаточного параллелизма, процессор будет
используется недостаточно, и производительность будет ограничена задержкой. Например, рассмотрим запуск
один поток, который будет обращаться к 16 байтам и выполнять 16000 математических операций. В то время как
арифметическая интенсивность составляет 1000 FLOPS/B, а выполнение должно быть математически ограничено на графическом процессоре V100,
создание только одного потока значительно недоиспользует GPU, оставляя почти все его математические вычисления.
конвейеры и ресурсы выполнения простаивают. Кроме того, арифметический расчет интенсивности
предполагает, что входы и выходы доступны из памяти ровно один раз. Это не является чем-то необычным для
реализации алгоритма для многократного чтения входных элементов, что эффективно
снизить арифметическую напряженность. Таким образом, арифметическая интенсивность является приближением первого порядка;
информацию профилировщика следует использовать, если требуется более точный анализ.

Хотя современные нейронные сети состоят из множества слоев, их операции
на три основные категории в зависимости от характера вычислений.

5.1. Элементарные операции

Элементарные операции могут быть унарными или бинарными; ключ в том, что слои в
эта категория выполняет математические операции над каждым элементом независимо от всех остальных
элементы тензора.

Например, уровень ReLU возвращает max(0,
x ) для каждого x дюймов
входной тензор. Точно так же поэлементное сложение двух тензоров вычисляет каждую выходную сумму
значение независимо от других сумм. Слои в этой категории включают в себя большинство нелинейностей
(сигмоид, танх и т. д.), масштаб, смещение, сложение и другие. Эти слои, как правило, ограничены памятью,
поскольку они выполняют несколько операций на каждый доступный байт. Подробнее об активации см.
частности, можно найти в пределах Активации в разделе Оптимизация
Руководство пользователя слоев, привязанных к памяти
.

5.2. Операции редукции

Операции редукции производят значения, вычисленные для диапазона значений входного тензора.

Например, объединяющие слои вычисляют значения для некоторых окрестностей во входном тензоре. Партия
нормализация вычисляет среднее значение и стандартное отклонение по тензору, прежде чем использовать их в
операции для каждого выходного элемента. Помимо слоев объединения и нормализации, SoftMax
также относится к разряду сокращений. Типичные операции редукции имеют низкую арифметическую сложность.
интенсивность и, таким образом, память ограничена. Дополнительную информацию об объединении слоев можно найти в разделе
Раздел «Объединение » в разделе «Оптимизация ».
Руководство пользователя слоев, привязанных к памяти
.

5.3. Операции со скалярным произведением

Операции в этой категории могут быть выражены как скалярные произведения элементов из двух
тензоры, обычно тензор веса (обучаемый параметр) и тензор активации.

К ним относятся полносвязные слои, возникающие сами по себе и являющиеся строительными блоками
рекуррентные клетки и клетки внимания. Полносвязные слои естественным образом выражаются как матрично-векторные.
и матрица-матрица умножается. Свертки также могут быть выражены в виде коллекций
скалярные произведения — один вектор представляет собой набор параметров для данного фильтра, другой
«развернутая» область активации, к которой применяется этот фильтр. Поскольку фильтры применяются
в нескольких местах свертки также можно рассматривать как матрица-вектор или матрица-матрица
операции умножения (см. Алгоритмы свертки в Оптимизация
Руководство пользователя сверточных слоев
для более подробной информации).

Операции в категории скалярного произведения могут быть математически ограничены, если соответствующие матрицы
достаточно большой. Однако для меньших размеров эти операции ограничиваются памятью.
Например, полносвязный слой применяется к одному вектору (тензор для мини-пакета
размер 1)) ограничен памятью.

Чтобы приблизительно определить, что ограничивает производительность конкретной функции на данном графическом процессоре,
можно предпринять следующие шаги:

  • Найдите количество SM на GPU и определите соотношение операций:байт для
    ГП.
  • Вычислите арифметическую интенсивность алгоритма.
  • Определите, достаточно ли параллелизма для насыщения графического процессора, оценив
    количество и размер блоков резьбы. Если количество блоков потоков не менее примерно 4x
    больше, чем количество SM, а блоки потоков состоят из нескольких сотен потоков каждый,
    тогда, вероятно, имеется достаточный параллелизм.

    • Руководство по конкретному типу слоя обеспечивает более интуитивное представление о распараллеливании
      (см. Оптимизация линейных / полносвязных слоев пользователя
      Руководство
      , Оптимизация сверточных слоев
      Руководство
      и Оптимизация повторяющихся слоев
      направляющая
      ; Оптимизация пользовательских слоев, привязанных к памяти
      Направляющая
      также может быть полезной, хотя, естественно, ожидается, что такие слои
      быть ограниченным в памяти).

      Пгу кпд: Парогазовые установки — ПГУ