Введение

Содержание

Используемые термины
Перечень настроек производительности

Intel^® Omni-Path Architecture (Intel^® OPA) спроектирована для получения исключительной производительности при установке без настроек. Однако у вас имеется возможность дальнейшего тюнинга своей производительности для получения лучшего соответствия потребностям вашей системы.

Данный документ описывает установки BIOS и параметры, которые показаны для улучшения производительности, либо чтобы сделать производительность более согласованной в архитектуре Intel^® Omni-Path. Если вы заинтересованы в проведении эталонного тестирования производительности своей системы, эти советы могут помочь вам получить лучшую производительность.

Для получения подробностей по прочей документации линейки продуктов Intel^® Omni-Path обратитесь к Библиотеке документации Intel^® Omni-Path в данном документе.

Используемые термины

приводимая ниже таблица перечисляет все сокращения и аббревиатуры, применяемые в данном документе.

Таблица 1-1. Терминология
Термин	Пояснение
`none`	Не позволяет совсем никакого доступа
`ACPI`	Advanced Configuration and Power Interface (усовершенствованный интерфейс конфигурирования системы и управления энергопитанием)
`BIOS`	Basic Input/Output System (базовая система ввода/ вывода)
`CPU`	Central Processing Unit (центральный процессор)
`FM`	Intel^® Omni-Path Fabric Suite Fabric Manager (Комплект Диспетчера инфраструктуры Intel^® Omni-Path)
`GCC`	GNU Compiler Collection (набор компиляторов GNU)
`HFI`	Host Fabric Interface (интерфейс инфраструктуры хоста)
`HPC`	High-Performance Computing (Высокопроизводительные вычисления)
`HPL`	High-Performance Linpack (Высокопроизводительный Linpack)
`HT`	Intel^® Hyper Threading (Многопоточная обработка Intel^®)
`IFS`	Intel^® Omni-Path Fabric Suite (комплект инфраструктуры Intel^® Omni-Path)
`IMB`	Intel^® MPI Benchmarks (эталонные тесты Intel^® MPI)
`IPoFabric`	Internet Protocol over Fabric (протокол сетевого уровня поверх инфраструктуры)
`IPoIB`	Internet Protocol over InfiniBand* (протокол сетевого уровня поверх InfiniBand*)
`IRQ`	Interrupt Request (запрос на прерывание)
`MPI`	Mesage Passing Interface (Интерфейс передачи сообщений)
`MTU`	Maximum Transmission Unit (максимальный размер передаваемого блока данных)
`NUMA`	Non-Uniform Memory Access (архитектура неоднородного доступа к памяти)
`OFED`	OpenFabrics Enterprise Distribution* (корпоративный дистрибутив OpenFabrics)
`OFI`	OpenFabrics Interface (взаимодействие OpenFabrics)
`OMB`	OSU Micro Benchmarks (эталонное тестирование OSU Micro)
`OPA`	Intel^® Omni-Path Architecture (архитектура Intel^® Omni-Path)
`OS`	Operating System (операционная система)
`OSU`	Ohio State University (государственный университет Огайо)
`PPN`	Processes per Node (число процессов на узел)
`PSM2`	Performance Scaled Messaging 2 (обмен сообщениями с производительным масштабированием 2)
`QCD`	Quantum Chromodynamics (квантовая хромодинамика)
`QP`	Queue Pair (пара очередей)
`RDMA`	Remote Direct Memory Access (удалённый прямой доступ к памяти)
`RPS`	Receive Packet Steering (управление принимаемыми пакетами)
`SDMA`	Send Direct Memory Access (прямой доступ к памяти на отправку)
`SMP`	Symmetric Multiprocessing (симметричная многопроцессорная обработка)
`TBB`	Intel^® Threading Building Blocks (блоки построеня потоков Intel^®)
`TCP`	Transmission Control Protocol (протокол управления передачей)
`THP`	Transparent Huge Pages (прозрачные большие страницы)
`TID`	Thread ID (идентификатор потока)
`TMI`	Tag Matching Interface (интерфейс соответствия тегов)
`UD`	Unreliable Datagram (датаграмма без подтверждения)
`VL`	Virtual Lane (виртуальный лейн)
`VM`	Virtual Machine (виртуальная машина)
`VT`	Intel^® Virtualization Technology (технология виртуализации Intel^®)

Перечень настроек производительности

Приводимая далее таблица предоставляет перечень всех инструкция тюнинга, находящихся в данном Руководстве пользователя.

Выбор размера 8KB MTU в тесте ib_write_bw

Таблица 1-2. Перечень тюнинга производительности
Настройка	Раздел
Установка рекомендуемых настроек BIOS	Семейства процессоров Intel^® Xeon® E5 v3 и v4 Семейства процессоров Intel^® Xeon® Scalable Семейства продукции Intel^® Xeon Phi™ x200
Распределённые аппаратные прерывания по процессорам через irqbalance	irqbalance
Работа ЦПУ на его максимальной турбированной частоте (драйвер Intel P-State)	Применение драйвера Intel P-State
Включение ACPI CPUfreq Driver и управляющего устройства cpupower	Применение драйвера ACPI CPUfreq и управляющего устройства cpupower
Установка значения тактовой частоты ЦПУ и управляющего устройства мощностью для снижения разброса производительности run-to-run	Применение драйвера ACPI CPUfreq и управляющего устройства cpupower
Работа ЦПУ на его максимальной турбированной частоте (драйвер acpi_cpufreq)	Применение драйвера ACPI CPUfreq и управляющего устройства cpupower
Удаление `intel_iommu` из файла grub	Не включайте intel_iommu
Установка значения `THP` в "`always`"	Прозрачность Huge Pages
JСмягчение фрагментации памяти	Обработка фрагментации памяти
Получение списка текущих значения параметров модуля	Текущие значения параметров модуля
Установка или изменение значений параметров драйвера HFI1	Установка параметров драйвера HFI1
Исполнение MPIs поверх библиотеки PSM2	Производительность MPI
Проверка того что вы применяете библиотеку PSM2	Установки библиотеки Intel^® MPI
Уменьшение времени запуска MPI при работе с большим числом узлов при использовании Intel^® MPI 5.x	Установки библиотеки Intel^® MPI
Тестирование Intel^® MPI 2017 с поддержкой OFI	Intel^® MPI 2017: новая поддержка OFI как инфраструктуры
Закрепление уровня MPI за сокетом	Эталонное тестирование Intel^® или OSU Micro
Тюнинг производительности HPL	Тюнинг производительности High-Performance Linpack
Загрузка предварительно скомпилированного исполняемого кода HPL найденного в Intel^® Parallel Studio XE	Выбор исполняемых модулей HPL и MPI
Проверка того, что вы применяете PSM2 на программном уровне	Флаги MPI и соответствующие параметры/ синтаксис задания
Тюнинг достижения наилучшего результата HPL	Рекомендуемая процедура достижения наилучшего результата HPL
Установка параметра `rcvhdrcnt` для LS-DYNA*	Тюнинг производительности приложений MPI
Снижение уровня шума ОС и оборудования для улучшения коллективного масштабирования MPI	Руководства коллективного масштабирования MPI для больших кластеров
Настройка контекста в узле (семейство продуктов Intel^® Xeon Phi™ x200)	Установка параметров драйвера для продуктов семейства Intel^® Xeon Phi™ x200
Настройка максимального числа контекстов в узле для максимального ранга 288 MPI (семейство продуктов Intel^® Xeon Phi™ x200)	Установка параметров драйвера для продуктов семейства Intel^® Xeon Phi™ x200
Установка тюнинга улучшения полосы пропускания сообщений от 1 до 8 кБ в дорогостоящих процессах узла	Тюнинг улучшения полосы пропускания сообщений от 1 до 8 кБ в дорогостоящих процессах узла
Ускорение производительности некоторых приложений QCD	Тюнинг улучшения производительности в приложениях QCD
Получение максимальной производительности и наилучшей латентности в устройствах GPU с включённым CUDA	Тюнинг GPUDirect* RDMA для эталонного тестирования и приложений MPI
Установки тюнинга на основе обычных вариантов применения GPUDirect*	Тюнинг GPUDirect* RDMA для эталонного тестирования и приложений MPI
Включение ускоренного RDMA	Ускорение RDMA
Применение ускоренного RDMA	Ускорение RDMA
Тюнинг эвристического адаптивного кэширования Memcpy	Улучшение одновременного исполнения параллельной файловой системы
Улучшение масштабирования параллельной файловой системы при помощи очередей приёма ядра	Улучшение одновременного исполнения параллельной файловой системы
Применение Lustre* версии 2.8 или выше, либо Intel^® Enterprise Edition для ПО Lustre* версии 3.0	Lustre
Применение ускоренного RDMA с параллельной файловой системой IBM Spectrum Scale	Тюнинг IBM Spectrum Scale (ранее GPFS) для Intel^® OmniPath
Производительность RDMA
Включение 8K MTU вручную	Настройка режима подключения IPoFabric
Автоматическое включение 8K MTU	Настройка режима подключения IPoFabric
Установка режима датаграмм (UD)	Настройка режима датаграмм IPoFabric
Увеличение значения MTU в режиме датаграмм (UD)	Настройка режима датаграмм IPoFabric
Улучшение производительности IPoFabric для большого числа клиентов (процессоры Intel^® Xeon®)	Тюнинг RPS для узлов процессора Intel^® Xeon^®
Улучшение пропускной способности при использовании множества потоков обмена IPoFabric (IPoIB) в узле (семейство продуктов Intel^® Xeon Phi™ x200 Product).	Тюнинг RPS и GSO для узлов семейства продукции Intel^® Xeon Phi™ x200
Улучшение производительности обмена IPoFabric посредством параметров TCP	Тюнинг параметра TCP для производительности IPoFabric
Идентификация назначений взаимозависимости для механизмов SDMA	Назначение взаимозависимости IRQ драйвера
Настройка соответствия процессов MPI механизмам SDMA	Установка соответствия процессов MPI механизмам SDMA