本書深入淺出地介紹了深度學(xué)習(xí)中的序列模型及其發(fā)展歷程,重點講解了Transformer架構(gòu)及其變體的原理與實戰(zhàn)應(yīng)用。全書共5章,旨在幫助讀者從理論基礎(chǔ)到實戰(zhàn)應(yīng)用,全面掌握Transformer技術(shù)。第1章詳細(xì)介紹RNN和LSTM的原理、代碼實戰(zhàn)及存在的問題與挑戰(zhàn)。第2章全面剖析了Transformer的總體架構(gòu)、核心思想及各組成部分的實現(xiàn)方法。第3章從自定義代碼出發(fā),詳細(xì)地講解了詞嵌入、多頭注意力層、前饋網(wǎng)絡(luò)層、編碼器層和解碼器層的構(gòu)建方法,以及如何訓(xùn)練Transformer模型。第4章介紹Transformer變體與進階部分。第5章介紹利用HuggingFace實踐Transformer,首先介紹了HuggingFace社區(qū)和Transformers庫,然后通過實際應(yīng)用案例,如文本分類、情感分類、命名實體識別等,展示了如何使用Transformers庫進行項目開發(fā)。最后,講解了模型微調(diào)的各種方法,以及Transformer的影響和未來展望。本書適合對深度學(xué)習(xí)、序列模型和Transformer感興趣的讀者,無論是初學(xué)者還是有一定基礎(chǔ)的開發(fā)者都能從中獲得豐富的理論知識和實踐經(jīng)驗。同時,本書也可作為高等院校和培訓(xùn)機構(gòu)相關(guān)專業(yè)的教學(xué)參考書。
本書不僅涵蓋了Transformer的基礎(chǔ)知識,還擴展到其變體模型(如BERT、GPT等)及其在實際項目中的應(yīng)用,還將介紹如何使用HuggingFace庫進行快速開發(fā)與實踐,幫助讀者更高效地部署和應(yīng)用Transformer模型。通過本書的學(xué)習(xí),讀者將能夠在自然語言處理、文本生成、情感分析、命名實體識別等領(lǐng)域中,應(yīng)用Transformer及其變體,提升自己的AI技術(shù)水平。
前言
近年來,Transformer架構(gòu)的提出,標(biāo)志著自然語言處理(Natural Language Processing,NLP)技術(shù)進入了一個嶄新的時代。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短期記憶網(wǎng)絡(luò)(Long Shortterm Memory Network,LSTM)相比,Transformer通過其獨特的自注意力機制,不僅提升了模型的計算效率,還大幅地提高了性能,使從機器翻譯到文本生成、情感分析等多種任務(wù)都取得了顯著的進展。
筆者在深度學(xué)習(xí)領(lǐng)域從事了多年研究與開發(fā)工作,見證了深度學(xué)習(xí)模型從RNN、LSTM到Transformer架構(gòu)的演變。在這個過程中,Transformer的創(chuàng)新性和強大能力深深吸引了我。自從論文“Attention is All You Need”發(fā)布以來,Transformer迅速成為深度學(xué)習(xí)領(lǐng)域的研究熱點,并被廣泛地應(yīng)用于多個領(lǐng)域,例如自然語言處理、圖像識別、語音處理等。尤其是在自然語言處理任務(wù)中,Transformer架構(gòu)不僅為傳統(tǒng)任務(wù)提供了新的解決方案,還催生了大量的變體模型,例如BERT、GPT系列等,極大地推動了AI技術(shù)的進步。
本書旨在深入淺出地介紹Transformer架構(gòu)及其應(yīng)用,結(jié)合理論與實踐,帶領(lǐng)讀者系統(tǒng)地學(xué)習(xí)Transformer。通過詳細(xì)的模型解析、實現(xiàn)原理及實踐案例,讀者將能夠掌握Transformer的核心概念、實現(xiàn)技巧及如何在實際應(yīng)用中高效訓(xùn)練和調(diào)優(yōu)Transformer模型。無論是剛接觸深度學(xué)習(xí)的初學(xué)者,還是有一定經(jīng)驗的開發(fā)者,均能通過本書獲得深刻的理解和實踐經(jīng)驗。
書中的內(nèi)容不僅涵蓋了Transformer的基礎(chǔ)知識,還擴展到其變體模型(例如BERT、GPT等)及其在實際項目中的應(yīng)用。本書還將介紹如何使用Hugging Face庫進行快速開發(fā)與實踐,幫助讀者更高效地部署和應(yīng)用Transformer模型。通過本書的學(xué)習(xí),讀者將能夠在自然語言處理、文本生成、情感分析、命名實體識別等領(lǐng)域中,應(yīng)用Transformer及其變體,提升自己的AI技術(shù)水平。
希望本書能為廣大讀者提供系統(tǒng)化的學(xué)習(xí)路徑,幫助大家深入理解Transformer架構(gòu),并在實踐中取得突破性進展。筆者相信,通過掌握這些前沿技術(shù),讀者將能夠在人工智能領(lǐng)域中迎接新的挑戰(zhàn),實現(xiàn)職業(yè)發(fā)展的跨越。
資源下載提示
素材(源碼)等資源: 掃描目錄上方的二維碼下載。
視頻等資源: 掃描封底的文泉云盤防盜碼,再掃描書中相應(yīng)章節(jié)的二維碼,可以在線學(xué)習(xí)。
致謝
我要特別感謝我的妻子,感謝她在我寫作本書期間始終如一的支持與理解。妻子的默默奉獻,尤其是承擔(dān)了所有的家務(wù),讓我能夠?qū)P闹轮镜赝度脒@項寫作工作中。沒有她的陪伴與支持,完成這本書是不可能的。
此外,我還要感謝所有在技術(shù)上給予我?guī)椭耐撕团笥褌,正是你們的指?dǎo)與分享,才讓我在不斷探索和實踐中得以不斷進步。感謝各位開發(fā)者和研究人員,尤其是Transformer和深度學(xué)習(xí)領(lǐng)域的前輩們,你們的工作為我提供了堅實的理論基礎(chǔ)與啟發(fā)。
由于寫作時間有限,本書難免存在疏漏和不足之處,懇請讀者見諒,并提供寶貴的意見和建議。希望這本書能為大家的學(xué)習(xí)和研究提供幫助,若可以得到您的反饋和改進建議,將不勝感激。
再次感謝所有支持與幫助過我的人,是你們讓這一切成為可能。
沈志龍
2025年5月
沈志龍,統(tǒng)計學(xué)碩士、AI算法,擁有數(shù)學(xué)和統(tǒng)計學(xué)背景,對自然語言處理、機器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域具有深厚的理論知識和實踐經(jīng)驗。在數(shù)據(jù)分析和挖掘領(lǐng)域耕耘多年,對數(shù)據(jù)分析、機器學(xué)習(xí)、深度學(xué)習(xí)和知識圖譜等方向有深入的研究和探索。在文本分類、命名實體識別、文本生成等自然語言處理任務(wù)上具有豐富的實戰(zhàn)經(jīng)驗,對于Transformer技術(shù)應(yīng)該具備的核心專業(yè)能力有深入的理解和掌握。
目錄
教學(xué)課件(PPT)
本書源碼
第1章引言(83min)
1.1深度學(xué)習(xí)與序列模型的進化
1.1.1RNN原理
1.1.2RNN代碼實踐
1.1.3RNN的問題與挑戰(zhàn)
1.1.4LSTM原理
1.1.5LSTM代碼實踐
1.1.6LSTM的問題與挑戰(zhàn)
1.2Transformer的誕生背景
1.2.1Seq2Seq模型
1.2.2Seq2Seq代碼實踐
1.2.3注意力機制的崛起
1.2.4 注意力機制代碼解讀
1.2.5論文“Attention is All You Need”簡介
第2章Transformer架構(gòu)解析(87min)
2.1Transformer總覽
2.1.1Transformer的核心思想
2.1.2Transformer的總體架構(gòu)
2.2Transformer的實現(xiàn)
2.2.1自注意力機制的原理和實現(xiàn)
2.2.2多頭注意力的原理和實現(xiàn)
2.2.3位置編碼的作用和實現(xiàn)
2.2.4前饋網(wǎng)絡(luò)層
2.2.5殘差連接和層歸一化
2.2.6解碼器的結(jié)構(gòu)和功能
第3章訓(xùn)練Transformer
3.1自定義Transformer代碼
3.1.1詞嵌入和位置編碼
3.1.2多頭注意力層
3.1.3前饋網(wǎng)絡(luò)層
3.1.4編碼器層和解碼器層
3.1.5構(gòu)建Transformer模型
3.1.6訓(xùn)練Transformer模型
3.2實踐訓(xùn)練
3.2.1數(shù)據(jù)準(zhǔn)備
3.2.2模型定義及訓(xùn)練
3.2.3模型預(yù)測
第4章Transformer變體與進階(79min)
4.1BERT
4.1.1BERT架構(gòu)與原理
4.1.2BERT訓(xùn)練過程解析
4.2GPT系列
4.2.1從GPT到GPT4o
4.2.2GPT訓(xùn)練過程解析
4.3其他變體
4.3.1ALBERT
4.3.2RoBERTa
4.3.3T5
4.3.4知識蒸餾原理及實踐
第5章利用Hugging Face實踐Transformer
5.1Hugging Face簡介
5.1.1社區(qū)與資源介紹
5.1.2Transformers庫概覽
5.2快速開始
5.2.1Transformers庫
5.2.2Datasets加載數(shù)據(jù)集
5.2.3Tokenizer文本處理
5.2.4預(yù)訓(xùn)練模型的加載
5.2.5Evaluate評估
5.2.6Trainer訓(xùn)練
5.3實際應(yīng)用案例
5.3.1文本分類
5.3.2情感分類
5.3.3命名實體識別
5.3.4文本相似度
5.3.5機器閱讀理解
5.3.6文本摘要
5.3.7生成式對話機器人
5.4模型高效微調(diào)
5.4.1微調(diào)原理介紹
5.4.2Freeze微調(diào)原理及實踐
5.4.3PromptTuning微調(diào)原理及實踐
5.4.4Prefix Tuning微調(diào)原理及實踐
5.4.5PTuning微調(diào)原理及實踐
5.4.6LoRA微調(diào)原理及實踐
5.4.7AdaLoRA微調(diào)原理及實踐
5.4.8QLoRA微調(diào)原理及實踐
5.5Transformer的影響
5.6未來展望