AIGC與智能體開(kāi)發(fā)實(shí)戰(zhàn):基于開(kāi)源大模型+Serverless API
定 價(jià):79 元
- 作者:韓澤耀 孫國(guó)梁 張寅
- 出版時(shí)間:2025/11/1
- ISBN:9787115685254
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP18
- 頁(yè)碼:244
- 紙張:
- 版次:01
- 開(kāi)本:小16開(kāi)
本書(shū)聚焦 AIGC 與智能體編程開(kāi)發(fā)實(shí)戰(zhàn),圍繞開(kāi)源大模型與API調(diào)用展開(kāi)。本書(shū)分為10章,從基礎(chǔ)理論到實(shí)際開(kāi)發(fā),全面講解基于開(kāi)源大模型與Serverless API的智能應(yīng)用開(kāi)發(fā)。第1~3章介紹Serverless API、大模型應(yīng)用架構(gòu)和開(kāi)發(fā)環(huán)境搭建;第 4~6 章以流行的開(kāi)源模型(如DeepSeek、Stable Diffusion、Whisper 等)為基礎(chǔ),逐步指導(dǎo)讀者掌握文本生成、圖像生成、語(yǔ)音處理的 API 開(kāi)發(fā)技能;第 7、8 章深入多模態(tài)應(yīng)用開(kāi)發(fā),如視頻生成與跨模態(tài)交互;第9、10 章講述 AI Agent、檢索增強(qiáng)生成(RAG)與微調(diào)技術(shù)的高階實(shí)踐,以及企業(yè)案例與未來(lái)趨勢(shì)。
本書(shū)以實(shí)戰(zhàn)為核心,案例豐富、通俗易懂,適合對(duì) AIGC 與智能體編程開(kāi)發(fā)感興趣,具備基礎(chǔ)編程知識(shí)的開(kāi)發(fā)者、創(chuàng)業(yè)者以及技術(shù)愛(ài)好者快速上手并應(yīng)用于實(shí)際工作或教學(xué)中。
1.首創(chuàng)性與系統(tǒng)性:首次系統(tǒng)化講解“開(kāi)源大模型+AIGC+Serverless API”的開(kāi)發(fā)實(shí)戰(zhàn),這在市場(chǎng)上具有獨(dú)特性,能夠滿(mǎn)足讀者對(duì)這一新興結(jié)合領(lǐng)域系統(tǒng)知識(shí)的需求。
2.實(shí)用性強(qiáng):理論與實(shí)踐緊密結(jié)合,案例真實(shí)、代碼詳盡,以實(shí)戰(zhàn)為核心,讀者可以快速上手并將所學(xué)應(yīng)用于實(shí)際工作或教學(xué)中,對(duì)于提升讀者的實(shí)操能力具有很強(qiáng)的幫助。
3.受眾廣泛:適合多層次讀者,從初學(xué)者到資深開(kāi)發(fā)者均可快速掌握,無(wú)論是人工智能開(kāi)發(fā)者、軟件工程師、高校師生,還是企業(yè)技術(shù)人員、AI技術(shù)初學(xué)者等,都能從書(shū)中獲得相應(yīng)的知識(shí)和技能。
4.市場(chǎng)優(yōu)勢(shì)顯著:填補(bǔ)了市場(chǎng)上關(guān)于AIGC應(yīng)用開(kāi)發(fā)實(shí)戰(zhàn)專(zhuān)著的空白,具有較強(qiáng)的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),能夠在競(jìng)爭(zhēng)激烈的市場(chǎng)中脫穎而出。
5.配套資源豐富:提供視頻、配套PPT、代碼及開(kāi)發(fā)環(huán)境配置指南,為讀者的學(xué)習(xí)提供了便利和支持,增強(qiáng)了讀者的學(xué)習(xí)體驗(yàn)。
韓澤耀
浙江大學(xué)信息與電子工程學(xué)系微電子系統(tǒng)設(shè)計(jì)專(zhuān)業(yè)博士,《AIGC從入門(mén)到實(shí)戰(zhàn)》作者。曾在碩博連讀期間入選清華大學(xué)計(jì)算機(jī)系EDA課題組、中國(guó)科學(xué)院高速高性能FX型處理機(jī)課題組。曾就職于華為技術(shù)有限公司、上海交通大學(xué)、阿爾卡特朗訊、貝爾實(shí)驗(yàn)室等。在無(wú)線(xiàn)通信系統(tǒng)、信號(hào)處理、算法設(shè)計(jì)與實(shí)現(xiàn)等領(lǐng)域擁有二十余年產(chǎn)業(yè)化研發(fā)經(jīng)驗(yàn),同時(shí)具備人工智能教育方向的一線(xiàn)創(chuàng)業(yè)與產(chǎn)品化實(shí)踐經(jīng)歷。目前致力于算法應(yīng)用創(chuàng)新與AI編程開(kāi)發(fā),重點(diǎn)推進(jìn)AI Infra x AIGC/Al Agent的工程化實(shí)踐與應(yīng)用生態(tài)協(xié)同發(fā)展。
孫國(guó)梁
沐曦集成電路(上海)股份有限公司首席產(chǎn)品官、高級(jí)副總裁,清華大學(xué)車(chē)輛及運(yùn)載學(xué)院機(jī)械工程博士。人工智能、芯片設(shè)計(jì)、電子系統(tǒng)及智算中心建設(shè)專(zhuān)家,擁有數(shù)十項(xiàng)個(gè)人發(fā)明專(zhuān)利與二十年系統(tǒng)及芯片開(kāi)發(fā)經(jīng)驗(yàn)。具備大型算力芯片、GPU算力集群、人工智能項(xiàng)目及電子系統(tǒng)設(shè)計(jì)的深厚技術(shù)積累,以及豐富國(guó)內(nèi)外市場(chǎng)運(yùn)作經(jīng)驗(yàn),曾主導(dǎo)多項(xiàng)國(guó)內(nèi)外大型標(biāo)桿性項(xiàng)目并取得圓滿(mǎn)成功。
張寅
浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授,博士生導(dǎo)師。主要從事數(shù)據(jù)智能、多智能體、AIGC技術(shù)與系統(tǒng)領(lǐng)域的研究。
第 1章
快速入門(mén) AIGC 與 Serverless API 開(kāi)發(fā) / 1
1.1 AIGC 演進(jìn)與開(kāi)源大模型生態(tài) / 2
1.1.1 AIGC:智能時(shí)代的內(nèi)容生產(chǎn)革命 / 2
1.1.2 AIGC 的發(fā)展歷程 / 3
1.1.3 AIGC/UGC/PGC 三類(lèi)常見(jiàn)內(nèi)容生成對(duì)比分析 / 3
1.1.4 主流 AIGC 技術(shù)類(lèi)別與典型大模型簡(jiǎn)介 / 4
1.1.5 部署開(kāi)源大模型及輸出 API 對(duì)開(kāi)發(fā)者的意義 / 7
1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10
1.2.1 Serverless 的定義與特征剖析 / 10
1.2.2 Serverless API 與傳統(tǒng)架構(gòu)的對(duì)比分析 / 11
1.2.3 OpenAI 兼容 API 的定義與核心要素 / 13
1.2.4 OpenAI 兼容 API 的典型落地路徑 / 13
1.3 開(kāi)源大模型與 Serverless API 架構(gòu)融合的實(shí)際意義 / 14
1.3.1 Serverless API 架構(gòu)解決開(kāi)源大模型部署難題 / 15
1.3.2 開(kāi)源生態(tài)與 Serverless API 的協(xié)同效應(yīng) / 15
1.3.3 國(guó)內(nèi)外主流開(kāi)源大模型 Token/API 服務(wù)平臺(tái) / 16
1.4 基于 API 調(diào)用開(kāi)發(fā)在大模型編程開(kāi)發(fā)中的層級(jí) / 17
1.4.1 大模型應(yīng)用開(kāi)發(fā)的層次架構(gòu) / 17
1.4.2 API 層級(jí)調(diào)用架構(gòu)在應(yīng)用開(kāi)發(fā)場(chǎng)景中的對(duì)比圖示 / 19
1.4.3 API 調(diào)用開(kāi)發(fā)的平臺(tái)和入口 / 20
1.5 本章小結(jié) / 22
第 2 章
快速理解 AIGC 與 API 開(kāi)發(fā)的基礎(chǔ)技術(shù)棧 / 23
2.1 快速入門(mén) HTTP 協(xié)議中的 RESTful API / 24
2.1.1 RESTful API 和 CRUD(增刪改查)的對(duì)應(yīng)關(guān)系 / 24
2.1.2 HTTP requests 庫(kù)和兼容 OpenAI SDK 調(diào)用方式對(duì)比 / 26
2.2 標(biāo)準(zhǔn)化的 API 調(diào)用流程以及簡(jiǎn)單錯(cuò)誤快速處理 / 28
2.2.1 API 調(diào)用的基礎(chǔ)規(guī)范與流程 / 28
2.2.2 API 調(diào)用簡(jiǎn)單代碼示例 / 29
2.2.3 常見(jiàn) API 錯(cuò)誤與快速排錯(cuò)技巧 / 29
2.3 常見(jiàn) AIGC API 的調(diào)用參數(shù)講解 / 32
2.3.1 API 調(diào)用請(qǐng)求常用參數(shù)快速解析 / 32
2.3.2 常見(jiàn) API 響應(yīng)數(shù)據(jù)基礎(chǔ)字段介紹 / 35
2.4 AI 輔助開(kāi)發(fā)工具與平臺(tái)快速認(rèn)知 / 36
2.4.1 AI 輔助開(kāi)發(fā)工具和平臺(tái)的作用 / 36
2.4.2 AI 輔助編碼類(lèi)工具 / 37
2.4.3 AI 輔助平臺(tái)類(lèi)工具 / 38
2.5 本章小結(jié) / 38
第 3 章
初步設(shè)置和使用 API 之實(shí)戰(zhàn)入門(mén) / 40
3.1 注冊(cè)與登錄以及如何獲得 API Key / 41
3.1.1 Gitee AI 平臺(tái)介紹 / 41
3.1.2 注冊(cè) Gitee AI 賬號(hào) / 42
3.1.3 創(chuàng)建 API 密鑰 / 43
3.1.4 使用 API 密鑰獲取 Token / 44
3.2 開(kāi)始使用 Serverless API / 45
3.2.1 選擇模型和創(chuàng)建訪(fǎng)問(wèn)令牌 / 46
3.2.2 測(cè)試模型 API / 48
3.2.3 查看 API 文檔和示例代碼 / 50
3.2.4 cURL 命令行工具的常見(jiàn)用法舉例 / 51
3.3 常見(jiàn)問(wèn)題與解決方案 / 53
3.3.1 賬號(hào)和訪(fǎng)問(wèn)問(wèn)題 / 53
3.3.2 算力券和資源包問(wèn)題 / 54
3.4 本章小結(jié) / 54
第 4 章
基于 Serverless API 實(shí)現(xiàn)大模型編程初步 / 56
4.1 目標(biāo):調(diào)用模型接口,得到返回的交互結(jié)果 / 57
4.2 步驟:配置環(huán)境、安裝庫(kù)與獲取 API Key / 57
4.2.1 創(chuàng)建項(xiàng)目并安裝依賴(lài) / 58
4.2.2 獲取 Gitee Serverless API 的 API Key / 58
4.2.3 API Key 的 3 種管理方式 / 58
4.3 過(guò)程:核心代碼(包括錯(cuò)誤示例)詳解 / 59
4.4 成功:正確示例及代碼演示 / 60
4.5 改進(jìn):生成中文響應(yīng)結(jié)果 / 65
4.6 精進(jìn):簡(jiǎn)練中文回饋內(nèi)容 / 66
4.7 本章小結(jié) / 66
第 5 章
多種模態(tài) API 原子能力初級(jí)實(shí)戰(zhàn) / 68
5.1 開(kāi)發(fā)環(huán)境配置與依賴(lài)庫(kù)安裝 / 69
5.1.1 Python 環(huán)境配置 / 70
5.1.2 安裝必要的依賴(lài)庫(kù) / 71
5.1.3 配置 API 訪(fǎng)問(wèn)憑證 / 73
5.2 實(shí)現(xiàn) Instruct 與 Chat 的文本生成 Hello World / 75
5.2.1 Instruct 模型與 Chat 模型的區(qū)別 / 75
5.2.2 使用 Instruct 模型生成 Hello World / 76
5.2.3 使用 Chat 模型生成 Hello World / 79
5.2.4 Instruct 與 Chat 模型的選擇建議 / 81
5.3 實(shí)現(xiàn) Stable Diffusion 的文生圖 Hello World / 82
5.3.1 Gitee AI 平臺(tái)的 Stable Diffusion 模型簡(jiǎn)介 / 82
5.3.2 配置 Stable Diffusion API / 83
5.3.3 使用 Stable Diffusion 生成第 一張圖像 / 83
5.3.4 調(diào)整生成參數(shù)提升圖像質(zhì)量 / 86
5.4 實(shí)現(xiàn) Whisper 的語(yǔ)音識(shí)別 Hello World / 87
5.4.1 Gitee AI 平臺(tái)的 Whisper 模型簡(jiǎn)介 / 87
5.4.2 配置語(yǔ)音識(shí)別 API / 87
5.4.3 使用 Gitee AI 平臺(tái)的 Whisper API 進(jìn)行語(yǔ)音識(shí)別 / 87
5.4.4 使用本地音頻文件進(jìn)行語(yǔ)音識(shí)別 / 90
5.4.5 實(shí)時(shí)語(yǔ)音識(shí)別 / 92
5.5 本章小結(jié) / 95
第 6 章
多種模態(tài) API 調(diào)用及編排進(jìn)階實(shí)戰(zhàn) / 96
6.1 實(shí)現(xiàn) DeepSeek+Stable Diffusion 的圖像生成優(yōu)化 / 97
6.1.1 DeepSeek 模型優(yōu)化機(jī)制 / 97
6.1.2 API 編排實(shí)現(xiàn)協(xié)同 AIGC 圖像生成 / 99
6.1.3 參數(shù)優(yōu)化與問(wèn)題排查 / 103
6.2 實(shí)現(xiàn) Wan2.1-T2V 的文生視頻 / 104
6.2.1 視頻生成模型簡(jiǎn)介 / 104
6.2.2 使用 Wan2.1-T2V 生成視頻 / 105
6.2.3 視頻生成參數(shù)調(diào)優(yōu) / 111
6.3 實(shí)現(xiàn) Hunyuan3D-2 的圖生 3D / 111
6.3.1 Hunyuan 3D 生成模型簡(jiǎn)介 / 111
6.3.2 使用 Hunyuan3D-2 生成 3D 模型 / 111
6.3.3 使用 Open3D 查看和處理 3D 模型 / 116
6.4 API 調(diào)用常見(jiàn)錯(cuò)誤與調(diào)試進(jìn)階 / 118
6.4.1 常見(jiàn)錯(cuò)誤類(lèi)型 / 119
6.4.2 API 調(diào)用調(diào)試技巧 / 119
6.4.3 實(shí)現(xiàn)請(qǐng)求重試和錯(cuò)誤處理 / 120
6.4.4 API 調(diào)用性能優(yōu)化 / 123
6.5 本章小結(jié) / 124
第 7 章
輔助生成代碼、打造多種形態(tài)及踐行 Vibe Coding / 126
7.1 主流開(kāi)源代碼輔助生成大模型 / 127
7.1.1 回顧開(kāi)源大語(yǔ)言模型的發(fā)展與意義 / 127
7.1.2 DeepSeek-V3/R1 模型回顧 / 128
7.1.3 CodeGeeX 模型詳解 / 128
7.1.4 新一代開(kāi)源 Coder 與數(shù)學(xué) / 證明模型的發(fā)展 / 129
7.1.5 模型性能對(duì)比與選擇建議 / 130
7.2 用文本 / 代碼生成大模型 API 構(gòu)建不同生成形態(tài)的工具 / 132
7.2.1 文本 / 代碼生成工具的基本架構(gòu) / 132
7.2.2 智能對(duì)話(huà)工具的實(shí)現(xiàn)(命令行) / 132
7.2.3 文本摘要工具的實(shí)現(xiàn)(Web 網(wǎng)頁(yè)端) / 134
7.2.4 文本續(xù)寫(xiě)工具的實(shí)現(xiàn)(API) / 136
7.3 AI 代碼輔助工具實(shí)戰(zhàn) / 140
7.3.1 AI 代碼輔助工具概述 / 140
7.3.2 GitHub Copilot 使用實(shí)戰(zhàn) / 141
7.3.3 Cline AI 代碼助手使用實(shí)戰(zhàn) / 143
7.3.4 Trae AI 代碼助手使用實(shí)戰(zhàn) / 144
7.3.5 Cursor 編譯器使用實(shí)戰(zhàn) / 145
7.3.6 通義靈碼代碼助手使用實(shí)戰(zhàn) / 146
7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置與實(shí)踐 / 148
7.4.1 VSCode 中 AI 編程助手的選擇 / 148
7.4.2 VSCode 中配置 Cline 第三方 API 的詳細(xì)步驟 / 148
7.4.3 實(shí)用 VSCode 擴(kuò)展組合推薦 / 150
7.4.4 常見(jiàn)問(wèn)題與解決方案 / 150
7.5 如何提升 AI 代碼生成的質(zhì)量 / 151
7.5.1 面向代碼生成的提示詞工程技巧 / 151
7.5.2 行業(yè)案例分析 / 153
7.6 本章小結(jié) / 154
第 8 章
圖像生成與視覺(jué)識(shí)別 API 開(kāi)發(fā)進(jìn)階實(shí)戰(zhàn) / 156
8.1 圖像生成、圖像識(shí)別、圖像理解、圖像處理技術(shù)簡(jiǎn)介 / 157
8.1.1 圖像生成技術(shù)簡(jiǎn)介 / 157
8.1.2 圖像識(shí)別技術(shù)簡(jiǎn)介 / 158
8.1.3 圖像描述 / 理解和視覺(jué)問(wèn)答技術(shù)簡(jiǎn)介 / 159
8.1.4 圖像增強(qiáng)及圖像超分技術(shù)簡(jiǎn)介 / 159
8.2 基于 Gitee 平臺(tái)的 Serverless-API 實(shí)現(xiàn)圖片生成及風(fēng)格遷移 / 160
8.2.1 Serverless 架構(gòu)在圖像處理中的應(yīng)用 / 161
8.2.2 基于 Gitee 平臺(tái) Stable Diffusion 的圖像生成 API 實(shí)現(xiàn) / 161
8.2.3 Kolors 中文圖像生成 API 實(shí)現(xiàn) / 166
8.2.4 基于 Kolors 的圖像風(fēng)格遷移 API 實(shí)現(xiàn) / 169
8.3 通過(guò)圖像識(shí)別和圖像理解技術(shù)構(gòu)建應(yīng)用 / 173
8.3.1 InternVL 圖像理解 / 173
8.3.2 3 個(gè) AI 1.0 時(shí)代的圖像識(shí)別開(kāi)源項(xiàng)目 / 174
8.4 Real-ESRGAN 圖像超分模型與傳統(tǒng) PIL 構(gòu)建應(yīng)用 / 177
8.4.1 兩者在實(shí)現(xiàn)和解決問(wèn)題上的差別和關(guān)系 / 177
8.4.2 用 Real-ESRGAN 大模型實(shí)現(xiàn)超分的應(yīng)用 / 179
8.4.3 傳統(tǒng)基于 PIL 實(shí)現(xiàn)的圖像處理開(kāi)源項(xiàng)目 / 180
8.5 本章小結(jié) / 184
第 9 章
音頻處理與視頻生成 API 進(jìn)階開(kāi)發(fā)實(shí)戰(zhàn) / 186
9.1 音頻識(shí)別模型和語(yǔ)音合成模型解析 / 187
9.1.1 音頻識(shí)別技術(shù)的發(fā)展與原理 / 187
9.1.2 Whisper 語(yǔ)音識(shí)別模型解析 / 187
9.1.3 Fish Speech 語(yǔ)音合成模型解析 / 188
9.1.4 ChatTTS 語(yǔ)音合成模型解析 / 188
9.1.5 語(yǔ)音識(shí)別、語(yǔ)音合成模型對(duì)比與選擇建議 / 189
9.2 Serverless API 實(shí)現(xiàn)音頻識(shí)別與語(yǔ)音合成 / 190
9.2.1 Serverless 架構(gòu)在音頻處理中的應(yīng)用 / 190
9.2.2 基于 Whisper 的音頻識(shí)別 API 實(shí)現(xiàn) / 191
9.2.3 基于 ChatTTS、Fish Speech 的語(yǔ)音合成 API 實(shí)現(xiàn) / 196
9.3 視頻生成模型解析與 API 實(shí)現(xiàn) / 200
9.3.1 視頻生成技術(shù)的發(fā)展與原理 / 200
9.3.2 Wan2.1-T2V 模型解釋 / 200
9.3.3 基于 Wan2.1-T2V 的視頻生成 API 實(shí)現(xiàn) / 200
9.4 音視頻 API 的實(shí)際應(yīng)用案例 / 204
9.4.1 基于錄音 +Whisper+GUI 實(shí)現(xiàn)實(shí)時(shí)會(huì)議轉(zhuǎn)錄系統(tǒng) / 204
9.4.2 基于 Whisper+ChatTTS/Fish Speech 實(shí)現(xiàn)多語(yǔ)言配音系統(tǒng) / 209
9.4.3 基于 Wan2.1-T2V 實(shí)現(xiàn)節(jié)日祝福語(yǔ)視頻生成器 / 213
9.5 本章小結(jié) / 217
第 10 章
跨模態(tài)開(kāi)發(fā)與應(yīng)用集成實(shí)戰(zhàn) / 219
10.1 多模態(tài)大模型概述 / 220
10.1.1 多模態(tài)大模型定義和特點(diǎn) / 220
10.1.2 多模態(tài)大模型的主要架構(gòu) / 220
10.1.3 主流多模態(tài)大模型對(duì)比 / 222
10.2 跨模態(tài)數(shù)據(jù)處理與融合技術(shù) / 223
10.2.1 跨模態(tài)數(shù)據(jù)處理的關(guān)鍵技術(shù) / 223
10.2.2 Python 實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)處理與融合 / 225
10.3 基于跨模態(tài)大模型的應(yīng)用開(kāi)發(fā) / 228
10.3.1 跨模態(tài)應(yīng)用場(chǎng)景分析 / 228
10.3.2 多模態(tài) RAG 系統(tǒng) / 229
10.3.3 應(yīng)用開(kāi)發(fā)實(shí)戰(zhàn)案例 / 230
10.4 多模態(tài)大模型應(yīng)用的挑戰(zhàn)與展望 / 235
10.4.1 當(dāng)前面臨的挑戰(zhàn) / 236
10.4.2 未來(lái)發(fā)展趨勢(shì) / 236
10.4.3 實(shí)踐建議 / 237
10.5 本章小結(jié) / 237
附錄 A
“興智杯”全國(guó)人工智能創(chuàng)新應(yīng)用大賽參賽報(bào)名及算力獲取 / 238
A1 獲取和兌換“興智杯”大賽算力券 / 239
A1.1 “興智杯”大賽簡(jiǎn)介 / 239
A1.2 算力券的獲取方式 / 239
A1.3 算力券的兌換流程 / 239
A2 “興智杯”大賽使用算力券購(gòu)買(mǎi) Serverless API / 241
A2.1 沐曦模型資源包介紹 / 241
A2.2 購(gòu)買(mǎi)沐曦模型資源包的詳細(xì)步驟 / 242
A2.3 查看購(gòu)買(mǎi)記錄和資源使用情況 / 244