文本智能處理作為中文信息處理的關鍵領域,展現(xiàn)出廣闊前景;Python以其強大的生態(tài)和易用性,已成為主流編程工具。然而,初學者如何系統(tǒng)掌握Python并將其有效應用于文本處理仍面臨著挑戰(zhàn),本書旨在為初學者提供一條清晰實用的學習路徑。本書面向初學者,系統(tǒng)梳理了用Python進行中文文本智能處理的完整路徑。前4章夯實語言基礎—數(shù)據(jù)結構、流程控制、正則表達式與規(guī)范編程范式;第5章及以后深入應用—語料庫構建、網(wǎng)絡爬蟲、數(shù)據(jù)可視化,覆蓋分詞、向量化、相似度、分類聚類、情感分析及深度學習,配套案例代碼,理實結合,快速上手。
更多科學出版社服務,請掃碼獲取。
2000.9-2004.6 中南民族大學,漢語言文學本科
2004.9-2007.6 華中師范大學,攻讀語言學及應用語言學專業(yè)碩士研究生
2007.9-2010.6 華中師范大學,攻讀語言學及應用語言學專業(yè)博士研究生
2016.9-2017.6 武漢大學自然語言處理重點實驗室,訪問學者2010.7-2017.7 信陽師范學院
2017.8-至今 四川外國語大學教授1. 國家社科基金青年項目"面向信息處理的漢語復句句法語義關系判定研究",負責人,課題編號14CYY035(結項證號20202887,本書依托項目);
2. 教育部人文社科研究基金青年項目"漢語有標復句層次關系自動識別研究",負責人,編號12YJC740110(結項證號2016JXZ3190)
教育部學位中心評審專家
目錄
第1章 緒論 1
1.1 NLP概述 1
1.2 NLP基本流程 5
1.3 NLP的編程環(huán)境搭建 7
第2章 Python編程的數(shù)據(jù)結構 16
2.1 數(shù)字 16
2.2 字符串 19
2.3 列表 24
2.4 元組 29
2.5 集合 31
2.6 字典 33
2.7 數(shù)據(jù)類型轉(zhuǎn)換 37
第3章 程序語句結構 40
3.1 順序結構 40
3.2 分支結構 41
3.3 循環(huán)結構 44
3.4 其他語句結構 48
3.5 綜合應用案例 53
第4章 正則表達式 56
4.1 初識正則表達式 56
4.2 正則表達式函數(shù) 56
4.3 正則表達式的元字符 62
4.4 正則表達式的應用 66
第5章 文本詞匯層面的處理(上) 71
5.1 中文分詞簡介 71
5.2 中文分詞的主要方法 72
5.3 中文分詞工具jieba 77
5.4 文本詞性標注 81
5.5 本章小結 84
第6章 文本詞匯層面的處理(下) 87
6.1 文本關鍵詞提取 87
6.2 命名實體識別 93
6.3 任務:中文命名實體識別 95
6.4 文本語義角色標記 102
第7章 圖形繪制與詞云圖的生成 111
7.1 Matplotlib與圖形繪制 111
7.2 詞云圖的生成 114
7.3 利用詞頻數(shù)據(jù)生成詞云圖 118
7.4 本章小結 121
第8章 文本向量化和文本語義相似度 126
8.1 文本向量化的概念 126
8.2 文本離散表示 126
8.3 文本分布式表示 138
8.4 文本語義相似度計算 141
第9章 文本分類與文本聚類 152
9.1 文本挖掘 152
9.2 文本分類常用算法 154
9.3 文本聚類常用算法 161
9.4 文本分類與文本聚類的步驟 171
9.5 任務:垃圾短信分類 172
9.6 任務:新聞文本聚類 175
9.7 本章小結 179
第10章 文本情感分析 182
10.1 文本情感分析簡介 182
10.2 情感分析的常用方法 183
10.3 常用的情感分類模型 192
10.4 任務:基于情感詞典的情感分析 197
第11章 爬蟲技術 201
11.1 網(wǎng)絡爬蟲簡介 201
11.2 運用正則表達式爬取網(wǎng)頁數(shù)據(jù) 205
11.3 運用XPath爬取網(wǎng)絡小說 208
11.4 運用bs4爬取網(wǎng)頁數(shù)據(jù) 214
11.5 動態(tài)網(wǎng)頁數(shù)據(jù)獲取 217
第12章 NLP中的深度學習技術 227
12.1 前饋神經(jīng)網(wǎng)絡 227
12.2 循環(huán)神經(jīng)網(wǎng)絡 230
12.3 LSTM網(wǎng)絡 232
12.4 深度學習工具 234
12.5 基于LSTM網(wǎng)絡的文本分類與文本情感分析 237
第13章 語料庫的構建與應用 255
13.1 語料庫的概念 255
13.2 語料庫的種類與構建原則 256
13.3 NLTK及其常用功能 259
13.4 語料庫資源的獲取 264
13.5 任務:語料庫的構建與使用 265
附錄 NLTK詞性標注對照表 270
后記 272