面向“三農(nóng)”問答系統(tǒng)的關鍵技術研究
本書以三農(nóng)信息資源服務為目的,研究了三農(nóng)信息資源服務的理論和實現(xiàn)技術;分別研究了三農(nóng)概念簇的知識表示、基于混合策略的三農(nóng)FAQ系統(tǒng)、面向三農(nóng)問句分類,以及面向三農(nóng)的答案抽取等關鍵技術;構建出面向三農(nóng)問答系統(tǒng)。本書將問答系統(tǒng)融合到三農(nóng)信息資源服務中,為我國三農(nóng)信息資源服務提供一種新的服務模式,對拓展信息資源服務理論具有積極意義。
序
以數(shù)字化、網(wǎng)絡化、智能化為特征的信息化浪潮為三農(nóng)信息化發(fā)展營造了強大勢能。政府和研究機構針對農(nóng)業(yè)生產(chǎn)、農(nóng)民生活以及農(nóng)村建設方面的事務提供了大量的信息資源,對促進農(nóng)村社會經(jīng)濟發(fā)展、提高農(nóng)民的生產(chǎn)能力和生活水平都產(chǎn)生了十分重要的幫助作用。問答系統(tǒng)(Question
Answering System,
QA)是信息檢索系統(tǒng)的一種形式,它能用準確、簡潔的自然語言回答用戶提出的問題,是目前人工智能和自然語言處理領域中一個具有廣泛發(fā)展前景的研究方向。針對我國三農(nóng)領域信息資源服務中尚未全面、深入的引入問答系統(tǒng)的相關理論和方法的現(xiàn)狀,本書較為系統(tǒng)地闡述了問答系統(tǒng)的技術原理和中文信息處理的相關知識,將FAQ系統(tǒng)和Web自動問答技術應用到當前的三農(nóng)信息資源服務中,研究滿足問答系統(tǒng)的三農(nóng)知識表示方式;研究融合HowNet以及三農(nóng)概念簇等計算FAQ問句匹配算法;研究綜合利用自然語言處理、機器學習等方法實現(xiàn)三農(nóng)問句分類和答案抽取的理論和方法;構建了面向三農(nóng)FAQ和Web自動問答系統(tǒng)模型。
本書是作者在參與國家社科基金重點項目過程中的研究成果,相關的方法研究和技術研究頗具新意。該書將問答系統(tǒng)的理念和技術應用于三農(nóng)信息服務中,特別是三農(nóng)問答系統(tǒng)的構建,三農(nóng)概念簇知識表示、FAQ檢索匹配,以及自動問答系統(tǒng)的三農(nóng)問句分類和答案抽取等關鍵技術,拓展了信息服務的理論方法;對三農(nóng)信息資源充分利用能產(chǎn)生積極的推動作用,從而能進一步促進現(xiàn)代信息技術在農(nóng)村發(fā)展中的應用,有利于縮小我國城鄉(xiāng)間的信息鴻溝。
本書的主要貢獻是從三農(nóng)信息需求出發(fā),將問答系統(tǒng)融合到三農(nóng)信息資源服務中,為我國三農(nóng)信息資源服務提供一種新的服務模式的理論和實踐,對其他領域開展類似研究也具有較好的參考價值和借鑒意義。希望本書的出版,有助于促進問答系統(tǒng)在三農(nóng)信息服務廣泛、深入應用,也希望有更多的領域、機構參與到三農(nóng)問答系統(tǒng)的理論和實踐研究中來。
朱學芳
南京大學信息管理學院教授,博士生導師
張軍亮,1983年生,河南省林州市人,南京大學情報學博士,新鄉(xiāng)醫(yī)學院副教授,研究方向為信息資源管理。代表作有《基于任務驅(qū)動的個性化<醫(yī)學信息檢索>教學模式》《生物和醫(yī)藥技術領域知識生產(chǎn)分析基于863計劃科技報告》等。
第1章 緒論
1.1 研究背景
1.1.1 社會環(huán)境
1.1.2 技術環(huán)境
1.1.3 三農(nóng)信息服務需求
1.2 問答系統(tǒng)發(fā)展現(xiàn)狀
1.2.1 問答系統(tǒng)的歷史
1.2.2 問答系統(tǒng)概念及分類
1.2.3 問答系統(tǒng)體系結(jié)構
1.2.4 三農(nóng)問答系統(tǒng)研究
1.3 研究內(nèi)容
1.3.1 三農(nóng)知識表示
1.3.2 面向三農(nóng)FAQ技術研究
1.3.3 三農(nóng)問題問句分類技術研究
1.3.4 三農(nóng)問題答案抽取技術研究
1.4 研究方法及意義
1.4.1 研究方法
1.4.2 研究意義
1.5 本書的組織結(jié)構
第2章 中文信息處理基礎
2.1 引言
2.2 分詞
2.2.1 分詞概述
2.2.2 分詞方法
2.2.3 中科院分詞
2.3 句法分析
2.3.1 句法分析概述
2.3.2 句法分析理論及方法
2.4 知網(wǎng)(HowNet)
2.5 本章小結(jié)
第3章 三農(nóng)概念簇表示研究
3.1 引言
3.2 文本分類相關研究
3.3 基于規(guī)則的三農(nóng)詞表的構建
3.3.1 三農(nóng)詞表數(shù)據(jù)結(jié)構設計
3.3.2 基于DOM樹的網(wǎng)頁抽取
3.3.3 基于正則表達式的信息抽取
3.4 基于KNN的三農(nóng)概念簇表示
3.4.1 特征抽取
3.4.2 基于KNN的三農(nóng)概念簇形成
3.5 實驗及結(jié)果分析
3.5.1 實驗設計
3.5.2 評價標準
3.5.3 實驗結(jié)果分析
3.6 本章小結(jié)
第4章 基于混合策略的三農(nóng)FAQ系統(tǒng)研究
4.1 引言
4.2 FAQ系統(tǒng)相關研究
4.3 三農(nóng)FAQ中問題相似度算法
4.3.1 基于句子詞的表層相似度
4.3.2 基于句法分析的語義相似度
4.3.3 基于LSA的問句與答案相似度
4.3.4 三農(nóng)FAQ的綜合相似度
4.4 實驗結(jié)果及分析
4.4.1 實驗設計
4.4.2 實驗結(jié)果分析
4.5 本章小結(jié)
第5章 三農(nóng)問句分類研究
5.1 引言
5.2 問句分類相關研究
5.3 三農(nóng)問句的分類體系
5.4 三農(nóng)問句分類的特征選擇
5.5 基于規(guī)則模板的三農(nóng)問句粗分類
5.5.1 基于規(guī)則問句分類算法
5.5.2 問句規(guī)則模板的抽取算法
5.6 基于SVM三農(nóng)問句精細分類研究
5.6.1 SVM分類器
5.6.2 三農(nóng)問句特征向量
5.7 實驗結(jié)果及分析
5.7.1 實驗設計
5.7.2 問句類別統(tǒng)計
5.7.3 實驗結(jié)果分析
5.8 本章小結(jié)
第6章 三農(nóng)問答系統(tǒng)答案抽取研究
6.1 引言
6.2 相關研究
6.3 基于農(nóng)業(yè)知識庫的答案抽取
6.3.1 AGROVOC知識庫
6.3.2 基于關系組的答案抽取
6.4 基于線索詞的原因性問句答案抽取
6.4.1 原因性問句的候選答案
6.4.2 基于模板的答案抽取
6.5 基于語義摘要的方式性問句答案抽取
6.5.1 自動文摘概述
6.5.2 基于主題詞的文摘自動抽取
6.6 實驗結(jié)果及分析
6.6.1 評價標準
6.6.2 實驗結(jié)果評價
6.7 本章小結(jié)
第7章 面向三農(nóng)問答系統(tǒng)構建實現(xiàn)
7.1 系統(tǒng)運行環(huán)境
7.1.1 服務器環(huán)境
7.1.2 客戶端環(huán)境
7.2 系統(tǒng)技術
7.2.1 Java
7.2.2 Ajax
7.2.3 Google
Ajax Search
API
7.2.4 HtmlParser
7.3 系統(tǒng)的設計構建與實現(xiàn)
7.3.1 系統(tǒng)邏輯結(jié)構設計
7.3.2 系統(tǒng)實現(xiàn)
7.4 本章小結(jié)
第8章 結(jié)束語
8.1 本書工作和創(chuàng)新之處
8.2 研究不足及后續(xù)研究展望
8.3 本章小結(jié)
參考文獻
后 記