算力珠璣:鯤鵬昇騰應(yīng)用開發(fā)案例詳解
定 價:89.9 元
當(dāng)前圖書已被 1 所學(xué)校薦購過!
查看明細
- 作者:林新華 王一超 管海兵
- 出版時間:2025/10/1
- ISBN:9787115682062
- 出 版 社:人民郵電出版社
- 中圖法分類:TP301.6
- 頁碼:234
- 紙張:
- 版次:01
- 開本:小16開
本書聚焦于鯤鵬與昇騰計算生態(tài),旨在通過通用計算(科學(xué)計算、工程計算)及人工智能計算領(lǐng)域的10個應(yīng)用案例,介紹基于鯤鵬平臺和昇騰平臺進行應(yīng)用開發(fā),以及如何將現(xiàn)有的計算應(yīng)用向鯤鵬平臺和昇騰平臺進行代碼移植和優(yōu)化。書中案例涵蓋鯤鵬遷移工具(如畢昇編譯器)、昇騰AI框架(如CANN和MindSpore),強調(diào)應(yīng)用性能優(yōu)化實踐。
本書包括“鯤鵬篇”和“昇騰篇”兩個部分,其中“鯤鵬篇”包含5章,覆蓋通用計算的5個應(yīng)用案例(如分子動力學(xué)模擬等);“昇騰篇”包含5章,介紹人工智能計算領(lǐng)域的5個應(yīng)用案例(如模型訓(xùn)練與模型推理等)。每章對應(yīng)一個應(yīng)用案例,每個應(yīng)用案例包含應(yīng)用背景、核心算法、代碼移植方法及性能優(yōu)化策略等內(nèi)容,呈現(xiàn)應(yīng)用開發(fā)和遷移的實踐。
本書適合鯤鵬與昇騰開發(fā)者、高性能計算工程師、計算機相關(guān)專業(yè)的學(xué)生及教師閱讀。
(1)聚焦鯤鵬昇騰生態(tài):圍繞“鯤鵬昇騰科教創(chuàng)新卓越中心”,對科學(xué)計算、工程計算及人工智能計算領(lǐng)域的 10 大案例應(yīng)用進行深度解析,體現(xiàn)了書籍在鯤鵬昇騰技術(shù)生態(tài)下的實踐深度,為讀者提供多領(lǐng)域的實際應(yīng)用參考。
(2)從移植到優(yōu)化實戰(zhàn):詳細講解核心算法、代碼遷移及性能提升的實戰(zhàn)過程,覆蓋技術(shù)落地的關(guān)鍵環(huán)節(jié),助力讀者從技術(shù)遷移到性能優(yōu)化全流程掌握實戰(zhàn)能力。
(3)適配多元讀者:明確面向高校師生、科研人員、高性能計算工程師、IT 從業(yè)者等群體,精準(zhǔn)定位受眾,便于不同領(lǐng)域的讀者判斷其參考價值。
林新華,上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任、計算機學(xué)院博士生導(dǎo)師,全球計算聯(lián)盟(GCC)高性能計算產(chǎn)業(yè)發(fā)展委員會主任、上海高專委主任、CCF 高專委常委。主要研究方向為高性能計算與 AI4S。
王一超,上海交通大學(xué)網(wǎng)絡(luò)信息中心計算業(yè)務(wù)部副主任、高級工程師,分別于 2019 年和 2022 年入選上海交通大學(xué)卓越計劃。
管海兵,上海交通大學(xué)副校長、教授。長期從事并行與分布式計算領(lǐng)域的教學(xué)和科研工作,曾獲國家杰出青年科學(xué)基金、教育部 “長江學(xué)者獎勵計劃” 特聘教授、國家萬人計劃科技創(chuàng)新領(lǐng)軍人才等國家級人才計劃。
第 一部分 鯤鵬篇
第 1章 隨機分批Ewald算法結(jié)合LAMMPS在鯤鵬處理器上的高性能實現(xiàn) 3
1.1 應(yīng)用簡介:LAMMPS-RBE 3
1.2 研發(fā)團隊簡介:上海交通大學(xué)快速算法與高性能計算實驗室 5
1.3 分子模擬理論與算法設(shè)計 6
1.4 軟件編譯技巧 9
1.5 進程級并行:MPI并行編程 10
1.6 數(shù)據(jù)級并行:NEON向量化 13
1.7 實空間優(yōu)化方法 16
1.8 計算結(jié)果與計算效率 19
1.9 總結(jié) 22
參考文獻 23
第 2章 多體構(gòu)型氣動仿真軟件在鯤鵬處理器上的高性能實現(xiàn) 25
2.1 應(yīng)用簡介:SuperMan多體構(gòu)型仿真軟件 25
2.2 多體構(gòu)型氣動仿真算法設(shè)計 28
2.3 軟件編譯步驟 30
2.4 面向鯤鵬平臺的優(yōu)化 31
2.4.1 遷移至鯤鵬平臺 31
2.4.2 編譯選項優(yōu)化 32
2.4.3 單節(jié)點內(nèi)優(yōu)化 33
2.4.4 負載均衡優(yōu)化 39
2.5 應(yīng)用案例 40
2.6 總結(jié) 43
參考文獻 43
第3章 PPCG和CheFSI本征值求解器在鯤鵬處理器上面向第 一性原理計算軟件的
高性能實現(xiàn) 46
3.1 應(yīng)用簡介:PPCG和CheFSI本征值特征求解器 46
3.1.1 基于DFT的第 一性原理計算 46
3.1.2 Quantum ESPRESSO-PPCG和CP2K-CheFSI 48
3.2 研發(fā)團隊簡介:中國科學(xué)技術(shù)大學(xué)楊金龍院士課題組 50
3.3 算法簡介 50
3.3.1 PPCG算法 50
3.3.2 CheFSI算法 54
3.4 本征值求解器中的模塊化并行設(shè)計 58
3.5 并行移植 63
3.5.1 編譯方法與優(yōu)化策略 63
3.5.2 PPCG與Quantum ESPRESSO的對接 64
3.5.3 CheFSI與CP2K的對接 66
3.6 計算結(jié)果與計算效率 67
3.6.1 PPCG對角化庫 68
3.6.2 CheFSI對角化庫 69
3.7 總結(jié) 71
參考文獻 71
第4章 RELION在鯤鵬處理器上的高性能實現(xiàn)和算法優(yōu)化 73
4.1 應(yīng)用簡介:RELION 73
4.2 算法介紹 74
4.3 軟件編譯 75
4.3.1 加載環(huán)境 75
4.3.2 應(yīng)用編譯 75
4.4 應(yīng)用算例 76
4.4.1 算例介紹 76
4.4.2 性能分析 77
4.5 優(yōu)化方法 78
4.5.1 進程并行優(yōu)化 78
4.5.2 熱點多線程使能 79
4.5.3 熱點訪存優(yōu)化 79
4.5.4 應(yīng)用計算優(yōu)化 80
4.5.5 通信優(yōu)化 81
4.6 實機優(yōu)化效果 81
4.6.1 性能對比 81
4.6.2 結(jié)果精度對比 82
4.7 總結(jié) 83
參考文獻 83
第5章 NEMO在鯤鵬處理器上的高性能實現(xiàn)和算法優(yōu)化 84
5.1 應(yīng)用簡介:NEMO 84
5.2 算法簡介 85
5.3 軟件編譯運行 86
5.3.1 安裝依賴庫 86
5.3.2 軟件目錄結(jié)構(gòu) 86
5.3.3 配置編譯選項 86
5.3.4 編譯選項優(yōu)化 87
5.3.5 設(shè)置算例 87
5.3.6 編譯NEMO 87
5.3.7 運行NEMO 87
5.4 性能優(yōu)化 87
5.4.1 NEMO初始性能分析 87
5.4.2 線程級并行 88
5.4.3 數(shù)據(jù)級并行 90
5.4.4 訪存優(yōu)化 91
5.4.5 去除冗余計算 93
5.4.6 混合精度 94
5.5 實機優(yōu)化效果 94
5.5.1 測試平臺 94
5.5.2 算例及運行結(jié)果 94
5.6 總結(jié) 95
參考文獻 96
第二部分 昇騰篇
第6章 面向聯(lián)合故障診斷的集群聯(lián)邦學(xué)習(xí)框架在昇騰處理器上的遷移與優(yōu)化 99
6.1 應(yīng)用簡介:數(shù)據(jù)隱私約束下的多風(fēng)場風(fēng)機聯(lián)合故障診斷 99
6.2 研發(fā)團隊簡介:上海交通大學(xué)機械與動力工程學(xué)院李艷婷教授
課題組 102
6.3 CFL框架設(shè)計 102
6.3.1 輕量級多尺度可分離殘差網(wǎng)絡(luò) 103
6.3.2 CFL流程 104
6.4 模型遷移技巧 107
6.4.1 模型基本情況 108
6.4.2 遷移可行性分析 109
6.4.3 模型遷移適配 110
6.5 性能精度調(diào)試 112
6.5.1 訓(xùn)練精度調(diào)試 112
6.5.2 通用性能調(diào)優(yōu) 113
6.5.3 訓(xùn)練數(shù)據(jù)采集 113
6.5.4 定制性能調(diào)優(yōu) 115
6.6 實例驗證 116
6.6.1 LMSRN模型的診斷性能評估 117
6.6.2 CFL框架的聯(lián)合診斷性能評估 119
6.7 總結(jié) 122
參考文獻 123
第7章 Open-Sora Plan視頻生成大模型在昇騰處理器上的高性能實現(xiàn) 126
7.1 應(yīng)用簡介:Open-Sora Plan 126
7.2 研發(fā)團隊簡介:北京大學(xué)深圳研究生院-兔展智能聯(lián)合實驗室 128
7.3 視頻生成模型與訓(xùn)練策略 129
7.3.1 去噪器結(jié)構(gòu) 129
7.3.2 多數(shù)據(jù)桶訓(xùn)練 132
7.3.3 自適應(yīng)梯度裁剪 133
7.3.4 數(shù)據(jù)篩選 134
7.4 模型訓(xùn)練與推理部署 136
7.4.1 環(huán)境準(zhǔn)備 136
7.4.2 權(quán)重下載及轉(zhuǎn)換 137
7.4.3 數(shù)據(jù)集準(zhǔn)備和處理 138
7.4.4 并行策略 138
7.4.5 開啟并行策略下的模型預(yù)訓(xùn)練 140
7.4.6 推理 142
7.5 模型移植結(jié)果 142
7.5.1 整體適配架構(gòu) 142
7.5.2 基于昇騰平臺和Mindspeed-MM框架軟硬件的調(diào)優(yōu)結(jié)果 143
7.5.3 視頻生成結(jié)果示例 144
7.6 總結(jié) 145
參考文獻 145
第8章 基于昇騰處理器的小鼠全腦神經(jīng)元重建平臺 147
8.1 應(yīng)用簡介:小鼠全腦神經(jīng)元重建平臺 147
8.2 研發(fā)團隊簡介:浙江大學(xué)求是高等研究院鄭能干教授課題組 150
8.3 TB級全腦神經(jīng)元圖像重建 151
8.3.1 全腦圖像數(shù)據(jù)介紹 151
8.3.2 全腦圖像數(shù)據(jù)預(yù)處理 151
8.3.3 神經(jīng)元重建算法庫 154
8.3.4 全腦圖像計算服務(wù)平臺 155
8.4 全腦TB級的大規(guī)模圖像并行處理 157
8.5 昇思模型訓(xùn)練策略 160
8.5.1 基于靜態(tài)圖模式的訓(xùn)練與推理 160
8.5.2 高并行數(shù)據(jù)管道構(gòu)建 162
8.5.3 神經(jīng)元三維重建模型的完整訓(xùn)練流程 164
8.6 全腦重建結(jié)果的效果展示 165
8.6.1 平臺各功能界面展示 166
8.6.2 全腦重建結(jié)果去噪 167
8.6.3 多類方法的重建結(jié)果分析與展示 169
8.7 總結(jié) 171
參考文獻 172
第9章 船臉識別不規(guī)則表達式計算場景在昇騰NPU上的高性能實現(xiàn) 174
9.1 應(yīng)用簡介:船臉識別 174
9.2 研發(fā)團隊簡介:華南理工大學(xué)計算機科學(xué)與工程學(xué)院陸璐團隊 178
9.3 模型關(guān)鍵算子實現(xiàn) 178
9.3.1 BatchNorm2d算子的設(shè)計與優(yōu)化 178
9.3.2 select算子的設(shè)計與優(yōu)化 180
9.3.3 SiLU算子的設(shè)計與優(yōu)化 181
9.3.4 MaxPool2d算子的設(shè)計與優(yōu)化 181
9.3.5 Upsample算子的設(shè)計與優(yōu)化 183
9.3.6 clip_by_value算子的設(shè)計與優(yōu)化 185
9.4 自定義算子替換與性能結(jié)果分析 186
9.4.1 替換開關(guān) 187
9.4.2 核心算子替換實現(xiàn) 187
9.4.3 計算結(jié)果與計算效率 189
9.5 總結(jié) 194
參考文獻 195
第 10章 在鯤鵬-昇騰平臺上面向稀疏模型的本地CPU/NPU異構(gòu)推理加速 197
10.1 應(yīng)用簡介 197
10.2 研發(fā)團隊簡介:清華大學(xué)MadSys課題組 200
10.3 CPU/NPU異構(gòu)并行算法設(shè)計 201
10.4 基于鯤鵬CPU的優(yōu)化方法 206
10.4.1 總體思路:MoE卸載與NUMA感知并行 206
10.4.2 NUMA本地加載和張量并行切分 206
10.4.3 線程池與任務(wù)調(diào)度 209
10.4.4 矩陣乘內(nèi)核優(yōu)化 214
10.4.5 性能小結(jié) 219
10.5 基于昇騰NPU的優(yōu)化方法 220
10.5.1 總體思路:W8A8量化、算子融合與圖下沉 220
10.5.2 量化與算子融合 221
10.5.3 圖下沉技術(shù) 222
10.5.4 IFA-Attention的異步圖更新 226
10.6 性能評測與分析 229
10.6.1 實驗環(huán)境與測試流程 229
10.6.2 端到端性能測試 230
10.6.3 昇騰NPU微觀性能剖析 231
10.7 總結(jié) 232
參考文獻 233