《AI語音與音樂生成》結(jié)合33個(gè)典型案例,從AI語音與音樂生成的發(fā)展歷史、基本原理、平臺與工具、場景應(yīng)用、綜合實(shí)戰(zhàn)5方面詳細(xì)介紹其核心知識、主流工具、操作技巧和應(yīng)用實(shí)踐等,從而幫助讀者系統(tǒng)掌握AI語音與音樂生成的相關(guān)知識,并給相關(guān)企業(yè)解決真實(shí)場景問題提供參考!禔I語音與音樂生成》提供配套教學(xué)視頻、案例素材、提示詞文件、語音類工作流文件、教學(xué)PPT和軟件安裝文件等超值配套資源,幫助讀者高效、直觀地學(xué)習(xí)。
《AI語音與音樂生成》共19章,分為5篇。第1篇AI語音概論,系統(tǒng)介紹AI語音發(fā)展歷史、AI語音技術(shù)引發(fā)的社會爭議和AI語音未來展望;第2篇音頻技術(shù)原理,主要介紹語音識別、語音合成和音樂生成的基本原理等;第3篇AI語音平臺與工具,主要介紹國內(nèi)綜合語音平臺、國外綜合語音平臺、常用的專業(yè)化語音平臺、重要的開源AI語音模型等;第4篇AI語音場景應(yīng)用,主要介紹聲音處理、聲音識別、語音合成和音樂生成4種常見的AI語音場景應(yīng)用;第5篇AI語音綜合應(yīng)用實(shí)戰(zhàn),首先介紹AI語音類工作流,然后介紹如何綜合使用前面章節(jié)介紹的工具、模型和技巧,帶領(lǐng)讀者進(jìn)行應(yīng)用實(shí)踐,從而完成AI翻唱、文案配音、 復(fù)活親人和郭老師說英語4個(gè)熱門AI語音綜合應(yīng)用實(shí)戰(zhàn)案例。
《AI語音與音樂生成》內(nèi)容豐富,講解深入淺出,案例典型、適合自媒體創(chuàng)作、音樂創(chuàng)作、游戲配音和影視配音等相關(guān)領(lǐng)域的從業(yè)者與愛好者閱讀,也適合高等院校和培訓(xùn)機(jī)構(gòu)作為AI語音類課程的教材或培訓(xùn)用書。
可學(xué)AI團(tuán)隊(duì)傾力打造,詳解AI語音與音樂生成的核心知識與場景應(yīng)用
只講干貨,重在實(shí)踐提升,通過33個(gè)典型案例快速提高讀者的實(shí)際動(dòng)手能力
國內(nèi)知名游戲音樂公司小旭音樂創(chuàng)始人盧小旭點(diǎn)評并推薦
采用圖書 教學(xué)視頻 拓展學(xué)習(xí) 答疑解惑的立體教學(xué)方式
贈(zèng)送教學(xué)視頻、案例素材、提示詞、教學(xué)PPT等超值資源
提供QQ書友群、B站和公眾號等完善的售后服務(wù)渠道
本書特色:
輕松上手:通過圖書 教學(xué)視頻 拓展學(xué)習(xí) 答疑解惑的立體教學(xué)方式,帶領(lǐng)讀者輕松上手。
內(nèi)容全面:涵蓋AI語音的發(fā)展歷史、基本原理、平臺與工具、場景應(yīng)用和綜合實(shí)戰(zhàn)等,涉及31個(gè)AI語音類在線平臺與工具、16個(gè)開源AI語音模型、4種常用ComfyUI語音工作流,幫助讀者一站式掌握AI語音與音樂生成的相關(guān)知識。
技術(shù)新穎:緊跟技術(shù)發(fā)展趨勢,基于當(dāng)前流行的工具、平臺和模型進(jìn)行講解,以確保技術(shù)的新穎性和時(shí)效性。
圖文并茂:結(jié)合230多幅圖講解核心知識點(diǎn)和應(yīng)用實(shí)戰(zhàn)案例,直觀地展現(xiàn)AI語音與音樂生成的基本原理和實(shí)際效果。
實(shí)踐性強(qiáng):詳解33個(gè)類型豐富、由易到難的典型應(yīng)用案例,涵蓋AI語音與音樂生成的各種常見場景應(yīng)用,幫助讀者快速提高實(shí)際動(dòng)手能力。
舉一反三:針對同一功能或場景應(yīng)用,提供多種實(shí)現(xiàn)思路,幫助讀者融會貫通,從而達(dá)到舉一反三的效果。
資料超值:提供大量的超值配套學(xué)習(xí)資源,幫助讀者高效、直觀地學(xué)習(xí)。
服務(wù)完善:提供QQ書友群、電子郵箱、B站和公眾號等多種服務(wù)渠道,為讀者的學(xué)習(xí)保駕護(hù)航。
以AIGC(人工智能生成內(nèi)容)為代表的人工智能浪潮正在以前所未有的速度席卷各行各業(yè)。各種新模型層出不窮,基于新模型的新應(yīng)用場景不斷涌現(xiàn)。AI語音與音樂作為AIGC的重要應(yīng)用場景正在深刻地影響著人們的日常生活。從智能家居控制到自動(dòng)駕駛,從數(shù)字人口播到跨語種溝通,從音樂生成到文案配音等,AI語音與音樂正在逐漸成為人們生活的一部分?梢哉f,AI語音與音樂生成已經(jīng)成為音視頻領(lǐng)域的創(chuàng)作者、音樂從業(yè)者、智能產(chǎn)品開發(fā)者、游戲從業(yè)者以及大中專院校影視動(dòng)畫與音樂等相關(guān)專業(yè)的師生必須掌握的基本技能。
為了幫助AIGC從業(yè)者全面、系統(tǒng)、深入地學(xué)習(xí)繪畫、語音和視頻等生成與處理技術(shù),可學(xué)AI團(tuán)隊(duì)于2023年便開始組織人員籌劃相關(guān)圖書的寫作和出版事宜,并于2024年先后出版了《AI繪畫大師之道:輕松入門》和《AI繪畫全場景案例應(yīng)用與實(shí)踐》。這兩部圖書上市后均獲得了廣大讀者的好評。為了幫助讀者更加系統(tǒng)地學(xué)習(xí)AIGC相關(guān)技術(shù),可學(xué)AI團(tuán)隊(duì)經(jīng)過調(diào)研,計(jì)劃進(jìn)一步推出《AIGC繪畫與音視頻生成:ComfyUI工作流應(yīng)用與實(shí)踐》《AI語音與音樂生成:原理、工具與應(yīng)用實(shí)踐》《AI視頻生成:原理、工具與應(yīng)用實(shí)踐》《AI繪畫與視頻生成模型微調(diào):原理、工具與應(yīng)用實(shí)踐》等圖書,這些圖書組成AIGC技術(shù)探索叢書供讀者閱讀。
本書為AIGC技術(shù)探索叢書中的《AI語音與音樂生成:原理、工具與應(yīng)用實(shí)踐》分冊,詳細(xì)介紹AI語音與音樂生成的主流工具、操作技巧和應(yīng)用實(shí)踐,以及聲音處理、語音識別、語音合成和音樂生成等相關(guān)應(yīng)用。通過閱讀本書,讀者可以全面、系統(tǒng)、深入地掌握AI語音與音樂生成涉及的核心技術(shù)、工具、模型、技巧與場景應(yīng)用等。
本書特色
? 輕松上手:通過圖書 教學(xué)視頻 拓展學(xué)習(xí) 答疑解惑的立體教學(xué)方式,帶領(lǐng)讀者輕松上手。
? 內(nèi)容全面:涵蓋AI語音的發(fā)展歷史、基本原理、平臺與工具、場景應(yīng)用和綜合實(shí)戰(zhàn)等,涉及31個(gè)AI語音類在線平臺與工具、16個(gè)開源AI語音模型、4種常用的ComfyUI語音工作流,幫助讀者一站式掌握AI語音與音樂生成的相關(guān)知識。
? 技術(shù)新穎:緊跟技術(shù)發(fā)展趨勢,基于當(dāng)前流行的工具、平臺和模型進(jìn)行講解,以確保技術(shù)的新穎性和時(shí)效性。
? 圖文并茂:結(jié)合230多幅圖講解核心知識點(diǎn)和應(yīng)用實(shí)戰(zhàn)案例,直觀地展現(xiàn)AI語音與音樂生成的基本原理和實(shí)際效果。
? 實(shí)踐性強(qiáng):詳解33個(gè)類型豐富、由易到難的典型應(yīng)用案例,涵蓋AI語音與音樂生成的各種常見場景應(yīng)用,幫助讀者快速提高實(shí)際動(dòng)手能力。
? 舉一反三:針對同一功能或場景應(yīng)用,提供多種實(shí)現(xiàn)思路,幫助讀者融會貫通,從而達(dá)到舉一反三的效果。
? 資料超值:提供大量的超值配套學(xué)習(xí)資源,幫助讀者高效、直觀地學(xué)習(xí)。
? 服務(wù)完善:提供QQ書友群、電子郵箱、B站和公眾號等多種服務(wù)渠道,為讀者的學(xué)習(xí)保駕護(hù)航。
本書內(nèi)容
第1篇 AI語音概論
第1章介紹AI語音的發(fā)展歷史與現(xiàn)狀,讓讀者對其發(fā)展有基本的了解。
第2章介紹AI語音技術(shù)引發(fā)的社會爭議,包括AI語音電信詐騙、數(shù)字人復(fù)活和AI語音作品版權(quán)3個(gè)話題,讓讀者了解AI語音技術(shù)發(fā)展帶來的一些爭議。
第3章從AI音樂和語音交互兩個(gè)方面展望AI語音的未來。
第2篇 音頻技術(shù)原理
第4章介紹語音識別的技術(shù)原理,包括傳統(tǒng)語音識別系統(tǒng)的構(gòu)成與工作流程,以及端到端語音系統(tǒng)的構(gòu)成與工作流程等。
第5章介紹語音合成的算法原理與框架,包括基于規(guī)則、數(shù)據(jù)、統(tǒng)計(jì)參數(shù)和深度學(xué)習(xí)的語音合成方法,以及語音合成流程和聲音模型訓(xùn)練等。
第6章介紹音樂生成原理,包括常用的生成模型、Transformer模型、DiT模型、AI音樂模型訓(xùn)練流程,以及通過提示詞控制音樂生成效果的方法等。
第3篇 AI語音平臺與工具
第7章介紹國內(nèi)綜合性語音平臺,包括百度語音、訊飛開放語音、華為云語音、阿里云語音四大平臺,以及騰訊云、有道智云和火山引擎等其他語音平臺。
第8章介紹國外綜合語音平臺,包括Microsoft Azure語音平臺、Google Cloud語音平臺及其他語音平臺。
第9章介紹常用的專業(yè)化語音平臺,包括文本轉(zhuǎn)語音、音樂生成、音頻處理、綜合工具箱4種類型的專業(yè)平臺與工具。
第10章介紹語音識別、語音合成、聲音轉(zhuǎn)換和音樂生成等重要的開源AI語音模型的部署過程與使用方法。
第4篇 AI語音場景應(yīng)用
第11章介紹聲音處理工具及其應(yīng)用,包括UVR5、聲音降噪、音頻切割和音頻分離等。
第12章介紹聲音識別場景應(yīng)用,包括語音識別、語種識別、聲紋識別、情感識別、語音喚醒、聲音分析和音樂分析等。在每個(gè)場景應(yīng)用中,首先總結(jié)相關(guān)應(yīng)用的行業(yè)前景,然后通過具體案例展示其實(shí)際效果。
第13章介紹語音合成場景應(yīng)用,包括文字轉(zhuǎn)語音、聲音克隆、語音替換、音色替換、實(shí)時(shí)變聲等。在每個(gè)場景應(yīng)用中,首先總結(jié)相關(guān)應(yīng)用的行業(yè)前景,然后通過具體案例展示其實(shí)際效果。
第14章介紹音樂生成的相關(guān)知識,包括提示詞基礎(chǔ)、文生音樂、通過圖像生成音樂或音效、通過參考音樂生成新的音樂等。
第5篇 AI語音綜合應(yīng)用實(shí)戰(zhàn)
第15章介紹AI語音類工作流的相關(guān)知識,包括文字轉(zhuǎn)語音、數(shù)字人口播、語音克隆和音樂生成等。
第16~19章介紹如何綜合使用前面章節(jié)介紹的工具、模型和技巧進(jìn)行應(yīng)用實(shí)踐,從而完成AI翻唱、文案配音、親人復(fù)活和郭老師說英語4個(gè)熱門AI語音綜合應(yīng)用實(shí)戰(zhàn)案例。
讀者對象
本書讀者對象如下:
? 音視頻領(lǐng)域的自媒體從業(yè)者;
? 數(shù)字人和直播行業(yè)的從業(yè)者;
? 配音、音樂創(chuàng)作等音樂行業(yè)的從業(yè)者;
? 對AI語音和音樂感興趣的程序員和工程師;
? 高等院校音樂、播音和主持等專業(yè)的師生;
? 相關(guān)培訓(xùn)機(jī)構(gòu)的學(xué)員。
配套資源獲取方式
本書贈(zèng)送以下超值配套資源:
? 教學(xué)視頻;
? 案例素材;
? 提示詞文件;
? 語音類工作流文件;
? 教學(xué)PPT;
? 軟件安裝文件。
上述配套資源有兩種獲取方式:一是關(guān)注微信公眾號(見書),回復(fù)數(shù)字50自動(dòng)獲取下載鏈接;二是在清華大學(xué)出版社網(wǎng)站上搜索到本書,然后在本書頁面上找到資源下載欄目,單擊網(wǎng)絡(luò)資源按鈕進(jìn)行下載。另外,讀者也可以在B站上(見書)在線觀看本書配套教學(xué)視頻。
意見反饋
AI語音與音樂生成正在持續(xù)高速發(fā)展中,其功能迭代日新月異。盡管本書在寫作中已盡力保持內(nèi)容的時(shí)效性與新穎性,但鑒于技術(shù)的快速變化和作者認(rèn)知的局限性,書中難免存在一些未盡完善之處或細(xì)微疏漏,敬請各位讀者批評與指正,筆者會及時(shí)進(jìn)行調(diào)整和修改,您的寶貴意見是我們不斷進(jìn)步的動(dòng)力。讀者可以通過本書QQ書友群或電子郵箱(見書)聯(lián)系我們,也可關(guān)注微信公眾號(見書),了解AIGC的相關(guān)進(jìn)展信息。讀者也可關(guān)注微信公眾號(見書),回復(fù)數(shù)字50自動(dòng)獲取QQ書友群號等信息。
致謝
感謝秦天琪、萇欣睿、夏小康、王佑琳、朱美霞、張洋和王浩銘等人在本書寫作期間給予筆者團(tuán)隊(duì)的支持與幫助!
感謝歐振旭在本書出版過程中給予筆者的大力支持與幫助!
感謝清華大學(xué)出版社參與本書出版的所有人員!是你們一絲不茍的精神,才使得本書得以高質(zhì)量出版。
感謝妻子瓊和女兒朵朵在漫長且艱難的寫作過程中給予筆者的無私支持,謝謝你們!
王雙
2025年5月
王雙:博士,畢業(yè)于中國科學(xué)院大學(xué),F(xiàn)任教于武漢紡織大學(xué),兼任可學(xué)AI的顧問。自2017年起教授人工智能的相關(guān)課程,對PINN和AIGC的相關(guān)理論與應(yīng)用有深入的研究,熟練掌握AIGC的相關(guān)原理、工具與開發(fā)技巧,熟悉AIGC的各種場景應(yīng)用,主持開發(fā)了高校AIGC實(shí)訓(xùn)中心平臺。已為多所高等院校提供AIGC相關(guān)課程、師資、平臺綜合解決方案。主持編寫并出版了《AI繪畫大師之道:輕松入門》《AI繪畫全場景案例應(yīng)用與實(shí)踐》《AIGC繪畫與音視頻生成:ComfyUI工作流應(yīng)用與實(shí)踐》等圖書。
尹子成:現(xiàn)任可學(xué)AI高級研發(fā)工程師。兼任智能語音和生成式音樂負(fù)責(zé)人,從事AI語音與音樂課程開發(fā)、應(yīng)用開發(fā)與技術(shù)測試,理論基礎(chǔ)扎實(shí),經(jīng)驗(yàn)豐富。
白玉棋:現(xiàn)任可學(xué)AI高級研發(fā)工程師,專注于ComfyUI工作流研發(fā),能為特定的AIGC任務(wù)開發(fā)復(fù)雜的工作流。授課經(jīng)驗(yàn)豐富,已經(jīng)為武昌理工學(xué)院、東湖學(xué)院和武漢交通職業(yè)學(xué)院等多所院校的師生授課。
張珈毓:現(xiàn)任可學(xué)AI研發(fā)工程師,負(fù)責(zé)文案撰寫、語音教程編寫、開源模型測試等,代碼編寫能力較強(qiáng),能熟練使用各類開源語音模型與工具。
何媛媛:博士,畢業(yè)于中國科學(xué)院大學(xué)。現(xiàn)任教于武漢紡織大學(xué),兼任可學(xué)AI的顧問。自2024年起研究AIGC,并專注于生成式3D,熟悉Nerf、Guassians Splatting等3D重建算法,致力于探索AI 3D的推廣與應(yīng)用。
第1篇 AI語音概論
第1章 AI語音簡史 2
1.1 緩慢進(jìn)步時(shí)期 4
1.2 快速發(fā)展時(shí)期 7
1.3 突破爆發(fā)時(shí)期 10
第2章 AI語音技術(shù)引發(fā)的社會爭議 12
2.1 AI語音電詐 12
2.1.1 AI語音電詐防不勝防 12
2.1.2 詐騙2億港元的視頻會議 13
2.2 利用AI語音復(fù)活親人 14
2.3 AI語音產(chǎn)品版權(quán)之爭 16
2.3.1 AI生成的內(nèi)容有版權(quán)嗎 16
2.3.2 第一例AI聲音侵權(quán)案 17
2.3.3 孫某某的無奈 18
第3章 AI語音未來展望 20
3.1 AI音樂讓聽覺更自由 20
3.2 語音交互迎接智能新世界 21
第2篇 音頻技術(shù)原理
第4章 語音識別原理 24
4.1 傳統(tǒng)語音識別系統(tǒng)的構(gòu)成 25
4.2 傳統(tǒng)語音識別流程 28
4.3 端到端語音識別系統(tǒng)的構(gòu)成 32
4.4 端到端語音識別流程 35
第5章 語音合成原理 38
5.1 語音合成基礎(chǔ) 38
5.1.1 基于規(guī)則的語音合成方法 39
5.1.2 基于數(shù)據(jù)的語音合成方法 40
5.1.3 基于統(tǒng)計(jì)參數(shù)的語音合成方法 41
5.1.4 基于深度學(xué)習(xí)的語音合成方法 42
5.2 語音合成技術(shù)框架 43
5.2.1 語音合成流程簡介 43
5.2.2 聲音模型訓(xùn)練 45
第6章 音樂生成原理 50
6.1 音樂生成基礎(chǔ) 50
6.1.1 常用的生成模型 51
6.1.2 Transformer模型 55
6.1.3 DiT模型 57
6.1.4 AI音樂模型訓(xùn)練流程 58
6.2 如何通過提示詞控制音樂生成效果 60
第3篇 AI語音平臺與工具
第7章 國內(nèi)綜合語音平臺 64
7.1 百度語音平臺 64
7.2 訊飛開放語音平臺 65
7.3 華為云語音平臺 68
7.4 阿里云語音平臺 70
7.5 其他語音平臺 71
第8章 國外綜合語音平臺 73
8.1 Microsoft Azure語音平臺 73
8.2 Google Cloud語音平臺 74
8.3 其他語音平臺 75
第9章 常用的專業(yè)化語音平臺 76
9.1 文本轉(zhuǎn)語音類在線平臺 76
9.1.1 Fish Audio在線平臺 76
9.1.2 TTS Online平臺 78
9.1.3 訊飛智作在線平臺 79
9.1.4 Murf在線平臺 80
9.1.5 其他在線平臺 82
9.2 音樂生成類在線平臺 83
9.2.1 Suno在線平臺 83
9.2.2 Udio在線平臺 84
9.2.3 Stable Audio在線平臺 87
9.2.4 Audio box在線平臺 89
9.2.5 其他在線平臺 89
9.3 音頻處理類在線平臺 90
9.3.1 Vocal Remover在線平臺 90
9.3.2 LALAL.AI在線平臺 91
9.3.3 UVR5在線平臺 93
9.3.4 其他在線平臺 94
9.4 綜合類在線平臺 94
9.4.1 Dubbing X在線平臺 94
9.4.2 魔音工坊在線平臺 96
9.4.3 Myedit在線平臺 97
9.4.4 Eleven Lab在線平臺 98
9.5 多模態(tài)語音平臺 100
第10章 重要的開源AI語音模型 102
10.1 環(huán)境搭建 102
10.1.1 本地部署 102
10.1.2 云端部署 103
10.1.3 常見問題 104
10.1.4 環(huán)境安裝 105
10.2 語音識別開源模型 108
10.2.1 Faster-whisper語音識別模型 108
10.2.2 FunASR語音識別模型 110
10.2.3 SenseVoice語音識別模型 111
10.3 語音合成開源模型 113
10.3.1 GPT-SOVITS聲音克隆模型 113
10.3.2 Bert-VITS2語音合成模型 115
10.3.3 CosyVoice語音合成模型 117
10.3.4 Chat TTS語音合成模型 119
10.3.5 Fish Speech文本轉(zhuǎn)語音模型 121
10.3.6 其他語音合成工具 123
10.4 聲音轉(zhuǎn)換開源模型 124
10.4.1 RVC實(shí)時(shí)變聲模型 124
10.4.2 So-VITS歌聲轉(zhuǎn)換模型 126
10.5 音樂生成開源模型 129
10.5.1 AudioCraft音樂生成模型 129
10.5.2 AudioLDM-2多功能音樂生成模型 129
第4篇 AI語音場景應(yīng)用
第11章 聲音處理 132
11.1 UVR5使用簡介 132
11.2 聲音降噪 134
11.3 音頻切割 136
11.4 音頻分離 138
11.5 其他處理工具 139
第12章 聲音識別 141
12.1 語音識別案例:將語音記錄成文字 141
12.2 語種識別案例:德語還是法語 146
12.3 聲紋識別案例:嗓音身份證 147
12.4 情感識別案例:開心還是悲傷 148
12.5 語音喚醒案例:打開空調(diào) 149
12.6 聲音分析案例:發(fā)電站水泵安全檢測 150
12.7 音樂分析案例:用Sonoteller工具專業(yè)化分析音樂 151
12.8 其他識別工具 153
第13章 語音合成 154
13.1 文字轉(zhuǎn)語音案例:盲人聽報(bào) 154
13.2 聲音克隆案例:聲紋永生 155
13.3 語言替換案例:中、日、英全精通 166
13.4 音色替換案例:零門檻翻唱熱門歌曲 172
13.5 實(shí)時(shí)變聲案例:變聲器 179
第14章 音樂生成 184
14.1 提示詞基礎(chǔ) 184
14.1.1 提示詞簡介 184
14.1.2 歌曲創(chuàng)作規(guī)則 187
14.2 文生音樂 189
14.2.1 通過提示詞描述生成音樂 189
14.2.2 通過提示詞描述生成音效 191
14.3 通過圖像生成音樂和音效 192
14.4 通過參考音樂生成新的音樂 193
第5篇 AI語音綜合應(yīng)用實(shí)戰(zhàn)
第15章 AI語音類工作流 196
15.1 文字轉(zhuǎn)語音 196
15.1.1 使用Chat TTS實(shí)現(xiàn)文字轉(zhuǎn)語音 196
15.1.2 使用MSSpeech_TTS進(jìn)行文字轉(zhuǎn)語音 200
15.2 數(shù)字人口播 202
15.2.1 使用V-Express實(shí)現(xiàn)數(shù)字人口播 202
15.2.2 使用EchoMimic實(shí)現(xiàn)數(shù)字人口播 206
15.2.3 其他數(shù)字人口播插件 208
15.3 語音克隆 210
15.3.1 使用Chat TTS實(shí)現(xiàn)語音克隆 211
15.3.2 使用Fish Speech實(shí)現(xiàn)語音克隆 212
15.4 音樂生成 215
15.4.1 使用Stable Audio Open生成音樂 215
15.4.2 使用ComfyUI-sound-lab生成音樂 217
第16章 AI翻唱 221
16.1 數(shù)據(jù)預(yù)處理 221
16.1.1 準(zhǔn)備數(shù)據(jù)集 221
16.1.2 提取人聲 222
16.1.3 對數(shù)據(jù)集進(jìn)行分割 222
16.2 聲音訓(xùn)練 223
16.2.1 使用So-VITS進(jìn)行數(shù)據(jù)預(yù)處理 224
16.2.2 設(shè)置訓(xùn)練參數(shù) 226
16.2.3 開始訓(xùn)練 228
16.3 聲音推理 229
16.3.1 加載聲音模型 229
16.3.2 推理轉(zhuǎn)換 230
16.4 影響聲音模型質(zhì)量的因素和其他音色替換工具與應(yīng)用場景 231
第17章 文案配音 233
17.1 生成文案 233
17.2 基于在線平臺和開源模型進(jìn)行文案配音 234
17.2.1 基于在線平臺進(jìn)行文案配音 234
17.2.2 基于開源模型進(jìn)行文案配音 235
17.3 生成背景音樂 238
17.4 生成視頻和圖片 238
17.4.1 利用多模態(tài)大模型生成圖片 238
17.4.2 生成視頻 240
17.5 剪輯整合 242
17.6 其他文案配音工具與應(yīng)用場景 243
第18章 復(fù)活親人 244
18.1 聲音克隆 244
18.2 數(shù)字人對口型 245
18.3 工作流整合 245
18.4 其他語音合成工具與應(yīng)用場景 246
第19章 郭老師說英語 247
19.1 使用開源模型進(jìn)行同聲傳譯 247
19.2 使用在線平臺進(jìn)行同聲傳譯 248
19.3 其他同聲傳譯工具與應(yīng)用場景 250
參考文獻(xiàn) 251