Высокопроизводительные вычисления Больших данных
Copyright © 2022 Massachusetts Institute of Technology
|
Данный документ предоставляется по лицензии Creative Commons Attribution 3.0 License, за исключением разделов со специальными оговорками. |
Первое издание на английском языке: август 2022
Все права защищены. Никакая часть этой книги не может быть воспроизведена, в какой- либо форме с помощью любых электронных или механических средств (включая фотокопирование, запись или хранение информации без письменного разрешения издателя.
MIT Press выражает благодарность анонимным рецензентам, предоставившим комментарии к черновикам данной книги. Щедрая работа академических экспертов необходима для установления авторитета качества наших публикаций. Мы с благодарностью признаём вклад этих не указанных в титрах читателей.
Опубликовано The MIT Press
Cambridge, Massachusetts
US
One Broadway
12th Floor
Cambridge, MA 02142
UK
Unit 57710
PO Box 6945
London W1A 6US UK
ISBN 9780262046855
2022-08-02
Мы благодарны нашим ученикам и сотрудникам Адитье Бхату, Раджарши Бисвасу, Шашанк Гугнани, Юджи Хуи, Нусрату Исламу, Хасибу Джаведу, Арджуну Кашьяпу, Куналу Кулкарни, Тяньси Ли, Юке Ли, Хао Ци, доктору Васи-ур-Рахману, Хайян Ши и Цзе Чжан за их совместную научную работу в течение последних десяти лет. Мы искренне благодарим Шашанк Гугнани, Хасибу Джаведу, Арджуну Кашьяпу, Юке Ли, Хао Ци и Хайян Ши за их вклад в этот сборник и за корректуру нескольких версий данной рукописи. Особая благодарность Мари Ли, Кейт Элвелл и Элизабет Суэйзи из MIT Press за их существенную помощь в публикации этой книги. Кроме того, мы обязаны Национальному научному фонду (NSF) за несколько грантов (например, IIS-1447804, OAC-1636846, CCF-1822987, OAC-2007991, OAC-2112606 и CCF-2132049). Эта книга была бы невозможна без такой поддержки.
Наконец, мы посвящаем эту книгу нашим любящим семьям (П. С. Панда, С. М. Панда, Дебашри Пати, Абха Панда, Цзунхе Лу, Хайинг Ю, Шерри Пэн, Ада Лу, Аливия Лу, Алан Лу, доктор Р. Шивашанкар, Г. С. Ушарани, и Манджу Г. Сиддаппа) за их любовь и понимание во время длительного процесса написания этой книги в течение последних пяти лет.
Дхабалешвар К. Панда, Сяойи Лу и Дипти Шанкар
19 марта 2022
Углублённый обзор новой области, объединяющей высокопроизводительные вычисления, обработку Больших данных и глубокое обучение.
За последнее десятилетие экспоненциальный взрыв данных, известных как Большие данные, изменил наши понимание и применение мощности данных. Новая область высокопроизводительных вычислений Больших данных, объединяющая высокопроизводительные вычисления (HPC), обработку Больших данных и Глубинное обучение, направлена на решение проблем, связанных с крупномасштабной обработкой данных. Эта книга предлагает подробный обзор высокопроизводительных вычислений Больших данных и связанных с ними технических вопросов, подходов и решений.
Книга охватывает основные концепции и необходимые базовые знания, включая структуры обработки данных, системы хранения и аппаратные возможности; предлагает подробное обсуждение технических вопросов ускорения вычислений Больших данных с точки зрения вычислений, взаимодействия, памяти и хранения, проектирования кода, характеристики рабочей нагрузки и сравнительного анализа, а также развёртывания системы и управления ею; также исследует эталонное тестирование и рабочие нагрузки для оценки систем промежуточного программного обеспечения Больших данных. В ней подробно обсуждаются вычислительные системы и приложения для Больших данных с высокопроизводительными сетевыми, вычислительными технологиями и технологиями хранения, включая самые современные разработки для систем обработки и хранения данных. Наконец, в книге рассматриваются некоторые передовые темы исследований в области высокопроизводительных вычислений Больших данных, в том числе разработка высокопроизводительных стеков глубинного обучения на основе Больших данных (DLoBD), а также технологий Облачных решений высокопроизводительных вычислений.
Глава 2. Модели и системы параллельного программирования
Глава 3. Параллельные и распределённые системы хранения
Глава 4. Архитектура и тенденции HPC
Глава 5. Возможности и проблемы ускорения вычислений Больших данных
Глава 6. Эталонное тестирование систем Больших данных
Глава 8. Ускорение при помощи многоядерных технологий и дополнительных вычислительных устройств
Глава 9. Ускорение при помощи технологий высокопроизводительного хранения
Глава 10. Глубинное обучение на основе Больших данных
Глава 11. Проектирование с применением технологий Облачных решений
Глава 12. Передовые исследования в области высокопроизводительных вычислений Больших данных
Об авторах
Дхабалешвар К. Панда профессор и почётный научный сотрудник в области вычислительных наук и инженерии в Университете штата Огайо.
Сяойи Лу доцент кафедры компьютерных наук и инженерии Калифорнийского университета в Мерседе.
Тайлер Леонхардт работает инженером-программистом в команде PowerShell около 2 лет, а в Microsoft — почти 3 года. Участник команды PowerShell.
Дипти Шанкар в настоящее время работает в SAP в Германии.
Об обложке
- Вводная часть
- Глава 1. Введение
- Глава 2. Модели и системы параллельного программирования
- Глава 3. Параллельные и распределённые системы хранения
- Глава 4. Архитектура и тенденции HPC
- Глава 5. Возможности и проблемы ускорения вычислений Больших данных
- Обзор
- C1: Проблемы вычислений
- C2: Проблемы взаимодействия и перемещения данных
- C3: Проблемы управления памятью и хранением
- C4: Проблемы совместной разработки систем и приложений Больших данных
- C5: Проблемы снятия характеристик и эталонного тестирования рабочей нагрузки Больших данных
- C6: Проблемы развёртывания и управления
- Выводы
- Глава 6. Эталонное тестирование систем Больших данных
- Глава 7. Ускорение RDMA
- Глава 8. Ускорение при помощи многоядерных технологий и дополнительных вычислительных устройств
- Глава 9. Ускорение при помощи технологий высокопроизводительного хранения
- Глава 10. Глубинное обучение на основе Больших данных
- Глава 11. Проектирование с применением технологий Облачных решений
- Глава 12. Передовые исследования в области высокопроизводительных вычислений Больших данных
- Дополнение A. Ссылки
- Указатель