Введение
Intel® Omni-Path Architecture (Intel® OPA) спроектирована для получения исключительной производительности при установке без настроек. Однако у вас имеется возможность дальнейшего тюнинга своей производительности для получения лучшего соответствия потребностям вашей системы.
Данный документ описывает установки BIOS и параметры, которые показаны для улучшения производительности, либо чтобы сделать производительность более согласованной в архитектуре Intel® Omni-Path. Если вы заинтересованы в проведении эталонного тестирования производительности своей системы, эти советы могут помочь вам получить лучшую производительность.
Для получения подробностей по прочей документации линейки продуктов Intel® Omni-Path обратитесь к Библиотеке документации Intel® Omni-Path в данном документе.
приводимая ниже таблица перечисляет все сокращения и аббревиатуры, применяемые в данном документе.
Термин | Пояснение |
---|---|
|
Не позволяет совсем никакого доступа |
|
Advanced Configuration and Power Interface (усовершенствованный интерфейс конфигурирования системы и управления энергопитанием) |
|
Basic Input/Output System (базовая система ввода/ вывода) |
|
Central Processing Unit (центральный процессор) |
|
Intel® Omni-Path Fabric Suite Fabric Manager (Комплект Диспетчера инфраструктуры Intel® Omni-Path) |
|
GNU Compiler Collection (набор компиляторов GNU) |
|
Host Fabric Interface (интерфейс инфраструктуры хоста) |
|
High-Performance Computing (Высокопроизводительные вычисления) |
|
High-Performance Linpack (Высокопроизводительный Linpack) |
|
Intel® Hyper Threading (Многопоточная обработка Intel®) |
|
Intel® Omni-Path Fabric Suite (комплект инфраструктуры Intel® Omni-Path) |
|
Intel® MPI Benchmarks (эталонные тесты Intel® MPI) |
|
Internet Protocol over Fabric (протокол сетевого уровня поверх инфраструктуры) |
|
Internet Protocol over InfiniBand* (протокол сетевого уровня поверх InfiniBand*) |
|
Interrupt Request (запрос на прерывание) |
|
Mesage Passing Interface (Интерфейс передачи сообщений) |
|
Maximum Transmission Unit (максимальный размер передаваемого блока данных) |
|
Non-Uniform Memory Access (архитектура неоднородного доступа к памяти) |
|
OpenFabrics Enterprise Distribution* (корпоративный дистрибутив OpenFabrics) |
|
OpenFabrics Interface (взаимодействие OpenFabrics) |
|
OSU Micro Benchmarks (эталонное тестирование OSU Micro) |
|
Intel® Omni-Path Architecture (архитектура Intel® Omni-Path) |
|
Operating System (операционная система) |
|
Ohio State University (государственный университет Огайо) |
|
Processes per Node (число процессов на узел) |
|
Performance Scaled Messaging 2 (обмен сообщениями с производительным масштабированием 2) |
|
Quantum Chromodynamics (квантовая хромодинамика) |
|
Queue Pair (пара очередей) |
|
Remote Direct Memory Access (удалённый прямой доступ к памяти) |
|
Receive Packet Steering (управление принимаемыми пакетами) |
|
Send Direct Memory Access (прямой доступ к памяти на отправку) |
|
Symmetric Multiprocessing (симметричная многопроцессорная обработка) |
|
Intel® Threading Building Blocks (блоки построеня потоков Intel®) |
|
Transmission Control Protocol (протокол управления передачей) |
|
Transparent Huge Pages (прозрачные большие страницы) |
|
Thread ID (идентификатор потока) |
|
Tag Matching Interface (интерфейс соответствия тегов) |
|
Unreliable Datagram (датаграмма без подтверждения) |
|
Virtual Lane (виртуальный лейн) |
|
Virtual Machine (виртуальная машина) |
|
Intel® Virtualization Technology (технология виртуализации Intel®) |
Приводимая далее таблица предоставляет перечень всех инструкция тюнинга, находящихся в данном Руководстве пользователя.
Настройка | Раздел |
---|---|
Установка рекомендуемых настроек BIOS |
|
Распределённые аппаратные прерывания по процессорам через irqbalance |
|
Работа ЦПУ на его максимальной турбированной частоте (драйвер Intel P-State) |
|
Включение ACPI CPUfreq Driver и управляющего устройства cpupower |
Применение драйвера ACPI CPUfreq и управляющего устройства cpupower |
Установка значения тактовой частоты ЦПУ и управляющего устройства мощностью для снижения разброса производительности run-to-run |
Применение драйвера ACPI CPUfreq и управляющего устройства cpupower |
Работа ЦПУ на его максимальной турбированной частоте (драйвер acpi_cpufreq) |
Применение драйвера ACPI CPUfreq и управляющего устройства cpupower |
Удаление |
|
Установка значения |
|
JСмягчение фрагментации памяти |
|
Получение списка текущих значения параметров модуля |
|
Установка или изменение значений параметров драйвера HFI1 |
|
Исполнение MPIs поверх библиотеки PSM2 |
|
Проверка того что вы применяете библиотеку PSM2 |
|
Уменьшение времени запуска MPI при работе с большим числом узлов при использовании Intel® MPI 5.x |
|
Тестирование Intel® MPI 2017 с поддержкой OFI |
|
Закрепление уровня MPI за сокетом |
|
Тюнинг производительности HPL |
|
Загрузка предварительно скомпилированного исполняемого кода HPL найденного в Intel® Parallel Studio XE |
|
Проверка того, что вы применяете PSM2 на программном уровне |
|
Тюнинг достижения наилучшего результата HPL |
Рекомендуемая процедура достижения наилучшего результата HPL |
Установка параметра |
|
Снижение уровня шума ОС и оборудования для улучшения коллективного масштабирования MPI |
Руководства коллективного масштабирования MPI для больших кластеров |
Настройка контекста в узле (семейство продуктов Intel® Xeon Phi™ x200) |
Установка параметров драйвера для продуктов семейства Intel® Xeon Phi™ x200 |
Настройка максимального числа контекстов в узле для максимального ранга 288 MPI (семейство продуктов Intel® Xeon Phi™ x200) |
Установка параметров драйвера для продуктов семейства Intel® Xeon Phi™ x200 |
Установка тюнинга улучшения полосы пропускания сообщений от 1 до 8 кБ в дорогостоящих процессах узла |
Тюнинг улучшения полосы пропускания сообщений от 1 до 8 кБ в дорогостоящих процессах узла |
Ускорение производительности некоторых приложений QCD |
|
Получение максимальной производительности и наилучшей латентности в устройствах GPU с включённым CUDA |
Тюнинг GPUDirect* RDMA для эталонного тестирования и приложений MPI |
Установки тюнинга на основе обычных вариантов применения GPUDirect* |
Тюнинг GPUDirect* RDMA для эталонного тестирования и приложений MPI |
Включение ускоренного RDMA |
|
Применение ускоренного RDMA |
|
Тюнинг эвристического адаптивного кэширования Memcpy |
Улучшение одновременного исполнения параллельной файловой системы |
Улучшение масштабирования параллельной файловой системы при помощи очередей приёма ядра |
Улучшение одновременного исполнения параллельной файловой системы |
Применение Lustre* версии 2.8 или выше, либо Intel® Enterprise Edition для ПО Lustre* версии 3.0 |
|
Применение ускоренного RDMA с параллельной файловой системой IBM Spectrum Scale |
|
Включение 8K MTU вручную |
|
Автоматическое включение 8K MTU |
|
Установка режима датаграмм (UD) |
|
Увеличение значения MTU в режиме датаграмм (UD) |
|
Улучшение производительности IPoFabric для большого числа клиентов (процессоры Intel® Xeon®) |
|
Улучшение пропускной способности при использовании множества потоков обмена IPoFabric (IPoIB) в узле (семейство продуктов Intel® Xeon Phi™ x200 Product). |
Тюнинг RPS и GSO для узлов семейства продукции Intel® Xeon Phi™ x200 |
Улучшение производительности обмена IPoFabric посредством параметров TCP |
|
Идентификация назначений взаимозависимости для механизмов SDMA |
|
Настройка соответствия процессов MPI механизмам SDMA |