Введение

Intel® Omni-Path Architecture (Intel® OPA) спроектирована для получения исключительной производительности при установке без настроек. Однако у вас имеется возможность дальнейшего тюнинга своей производительности для получения лучшего соответствия потребностям вашей системы.

Данный документ описывает установки BIOS и параметры, которые показаны для улучшения производительности, либо чтобы сделать производительность более согласованной в архитектуре Intel® Omni-Path. Если вы заинтересованы в проведении эталонного тестирования производительности своей системы, эти советы могут помочь вам получить лучшую производительность.

Для получения подробностей по прочей документации линейки продуктов Intel® Omni-Path обратитесь к Библиотеке документации Intel® Omni-Path в данном документе.

Используемые термины

приводимая ниже таблица перечисляет все сокращения и аббревиатуры, применяемые в данном документе.

Таблица 1-1. Терминология
Термин Пояснение

none

Не позволяет совсем никакого доступа

ACPI

Advanced Configuration and Power Interface (усовершенствованный интерфейс конфигурирования системы и управления энергопитанием)

BIOS

Basic Input/Output System (базовая система ввода/ вывода)

CPU

Central Processing Unit (центральный процессор)

FM

Intel® Omni-Path Fabric Suite Fabric Manager (Комплект Диспетчера инфраструктуры Intel® Omni-Path)

GCC

GNU Compiler Collection (набор компиляторов GNU)

HFI

Host Fabric Interface (интерфейс инфраструктуры хоста)

HPC

High-Performance Computing (Высокопроизводительные вычисления)

HPL

High-Performance Linpack (Высокопроизводительный Linpack)

HT

Intel® Hyper Threading (Многопоточная обработка Intel®)

IFS

Intel® Omni-Path Fabric Suite (комплект инфраструктуры Intel® Omni-Path)

IMB

Intel® MPI Benchmarks (эталонные тесты Intel® MPI)

IPoFabric

Internet Protocol over Fabric (протокол сетевого уровня поверх инфраструктуры)

IPoIB

Internet Protocol over InfiniBand* (протокол сетевого уровня поверх InfiniBand*)

IRQ

Interrupt Request (запрос на прерывание)

MPI

Mesage Passing Interface (Интерфейс передачи сообщений)

MTU

Maximum Transmission Unit (максимальный размер передаваемого блока данных)

NUMA

Non-Uniform Memory Access (архитектура неоднородного доступа к памяти)

OFED

OpenFabrics Enterprise Distribution* (корпоративный дистрибутив OpenFabrics)

OFI

OpenFabrics Interface (взаимодействие OpenFabrics)

OMB

OSU Micro Benchmarks (эталонное тестирование OSU Micro)

OPA

Intel® Omni-Path Architecture (архитектура Intel® Omni-Path)

OS

Operating System (операционная система)

OSU

Ohio State University (государственный университет Огайо)

PPN

Processes per Node (число процессов на узел)

PSM2

Performance Scaled Messaging 2 (обмен сообщениями с производительным масштабированием 2)

QCD

Quantum Chromodynamics (квантовая хромодинамика)

QP

Queue Pair (пара очередей)

RDMA

Remote Direct Memory Access (удалённый прямой доступ к памяти)

RPS

Receive Packet Steering (управление принимаемыми пакетами)

SDMA

Send Direct Memory Access (прямой доступ к памяти на отправку)

SMP

Symmetric Multiprocessing (симметричная многопроцессорная обработка)

TBB

Intel® Threading Building Blocks (блоки построеня потоков Intel®)

TCP

Transmission Control Protocol (протокол управления передачей)

THP

Transparent Huge Pages (прозрачные большие страницы)

TID

Thread ID (идентификатор потока)

TMI

Tag Matching Interface (интерфейс соответствия тегов)

UD

Unreliable Datagram (датаграмма без подтверждения)

VL

Virtual Lane (виртуальный лейн)

VM

Virtual Machine (виртуальная машина)

VT

Intel® Virtualization Technology (технология виртуализации Intel®)

Перечень настроек производительности

Приводимая далее таблица предоставляет перечень всех инструкция тюнинга, находящихся в данном Руководстве пользователя.

Выбор размера 8KB MTU в тесте ib_write_bw

Таблица 1-2. Перечень тюнинга производительности
Настройка Раздел

Установка рекомендуемых настроек BIOS

Распределённые аппаратные прерывания по процессорам через irqbalance

irqbalance

Работа ЦПУ на его максимальной турбированной частоте (драйвер Intel P-State)

Применение драйвера Intel P-State

Включение ACPI CPUfreq Driver и управляющего устройства cpupower

Применение драйвера ACPI CPUfreq и управляющего устройства cpupower

Установка значения тактовой частоты ЦПУ и управляющего устройства мощностью для снижения разброса производительности run-to-run

Применение драйвера ACPI CPUfreq и управляющего устройства cpupower

Работа ЦПУ на его максимальной турбированной частоте (драйвер acpi_cpufreq)

Применение драйвера ACPI CPUfreq и управляющего устройства cpupower

Удаление intel_iommu из файла grub

Не включайте intel_iommu

Установка значения THP в "always"

Прозрачность Huge Pages

JСмягчение фрагментации памяти

Обработка фрагментации памяти

Получение списка текущих значения параметров модуля

Текущие значения параметров модуля

Установка или изменение значений параметров драйвера HFI1

Установка параметров драйвера HFI1

Исполнение MPIs поверх библиотеки PSM2

Производительность MPI

Проверка того что вы применяете библиотеку PSM2

Установки библиотеки Intel® MPI

Уменьшение времени запуска MPI при работе с большим числом узлов при использовании Intel® MPI 5.x

Установки библиотеки Intel® MPI

Тестирование Intel® MPI 2017 с поддержкой OFI

Intel® MPI 2017: новая поддержка OFI как инфраструктуры

Закрепление уровня MPI за сокетом

Эталонное тестирование Intel® или OSU Micro

Тюнинг производительности HPL

Тюнинг производительности High-Performance Linpack

Загрузка предварительно скомпилированного исполняемого кода HPL найденного в Intel® Parallel Studio XE

Выбор исполняемых модулей HPL и MPI

Проверка того, что вы применяете PSM2 на программном уровне

Флаги MPI и соответствующие параметры/ синтаксис задания

Тюнинг достижения наилучшего результата HPL

Рекомендуемая процедура достижения наилучшего результата HPL

Установка параметра rcvhdrcnt для LS-DYNA*

Тюнинг производительности приложений MPI

Снижение уровня шума ОС и оборудования для улучшения коллективного масштабирования MPI

Руководства коллективного масштабирования MPI для больших кластеров

Настройка контекста в узле (семейство продуктов Intel® Xeon Phi™ x200)

Установка параметров драйвера для продуктов семейства Intel® Xeon Phi™ x200

Настройка максимального числа контекстов в узле для максимального ранга 288 MPI (семейство продуктов Intel® Xeon Phi™ x200)

Установка параметров драйвера для продуктов семейства Intel® Xeon Phi™ x200

Установка тюнинга улучшения полосы пропускания сообщений от 1 до 8 кБ в дорогостоящих процессах узла

Тюнинг улучшения полосы пропускания сообщений от 1 до 8 кБ в дорогостоящих процессах узла

Ускорение производительности некоторых приложений QCD

Тюнинг улучшения производительности в приложениях QCD

Получение максимальной производительности и наилучшей латентности в устройствах GPU с включённым CUDA

Тюнинг GPUDirect* RDMA для эталонного тестирования и приложений MPI

Установки тюнинга на основе обычных вариантов применения GPUDirect*

Тюнинг GPUDirect* RDMA для эталонного тестирования и приложений MPI

Включение ускоренного RDMA

Ускорение RDMA

Применение ускоренного RDMA

Ускорение RDMA

Тюнинг эвристического адаптивного кэширования Memcpy

Улучшение одновременного исполнения параллельной файловой системы

Улучшение масштабирования параллельной файловой системы при помощи очередей приёма ядра

Улучшение одновременного исполнения параллельной файловой системы

Применение Lustre* версии 2.8 или выше, либо Intel® Enterprise Edition для ПО Lustre* версии 3.0

Lustre

Применение ускоренного RDMA с параллельной файловой системой IBM Spectrum Scale

Тюнинг IBM Spectrum Scale (ранее GPFS) для Intel® OmniPath

Производительность RDMA

Включение 8K MTU вручную

Настройка режима подключения IPoFabric

Автоматическое включение 8K MTU

Настройка режима подключения IPoFabric

Установка режима датаграмм (UD)

Настройка режима датаграмм IPoFabric

Увеличение значения MTU в режиме датаграмм (UD)

Настройка режима датаграмм IPoFabric

Улучшение производительности IPoFabric для большого числа клиентов (процессоры Intel® Xeon®)

Тюнинг RPS для узлов процессора Intel® Xeon®

Улучшение пропускной способности при использовании множества потоков обмена IPoFabric (IPoIB) в узле (семейство продуктов Intel® Xeon Phi™ x200 Product).

Тюнинг RPS и GSO для узлов семейства продукции Intel® Xeon Phi™ x200

Улучшение производительности обмена IPoFabric посредством параметров TCP

Тюнинг параметра TCP для производительности IPoFabric

Идентификация назначений взаимозависимости для механизмов SDMA

Назначение взаимозависимости IRQ драйвера

Настройка соответствия процессов MPI механизмам SDMA

Установка соответствия процессов MPI механизмам SDMA