實體消解指南:使用Python進行數據匹配 [英]邁克爾·希勒
定 價:69 元
- 作者:[英]邁克爾·希勒
- 出版時間:2025/6/1
- ISBN:9787111783299
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP312PY
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
在數據驅動時代,實體消解技術是打通數據孤島的核心利器。本書以Python為工具,系統(tǒng)講解從數據清洗到云端大規(guī)模部署的全流程技術:·基礎原理:解析實體消解5大步驟(數據標準化、分塊、屬性比較、匹配分類、聚類),直面姓名模糊、數據缺失、跨源匹配等實戰(zhàn)難題;·算法攻堅:詳解編輯距離、Jaro-Winkler相似度等文本匹配技術,結合貝葉斯定理、期望zui大化算法構建概率匹配模型;·工具實戰(zhàn):基于Splink實現企業(yè)級數據消解,通過谷歌云平臺擴展至百萬級數據集;·前沿拓展:引入隱私增強技術(PSI),平衡數據利用與合規(guī)風險。全書配套GitHub代碼庫,以英國公司注冊署、海事署等真實數據演示跨領域(金融風控、供應鏈管理)場景應用,助力讀者構建可復用的數據資產整合方案。
本書是數據工程師的實戰(zhàn)寶典!從實體消解基礎概念切入,系統(tǒng)拆解數據標準化、文本模糊匹配(Levenshtein距離、Metaphone算法)、概率模型(Fellegi-Sunter模型、貝葉斯因子)、聚類分塊等核心技術,更獨家涵蓋Splink框架、谷歌云Dataproc集群部署、企業(yè)知識圖譜API等前沿工具。作者以真實金融反欺詐案例貫穿全書,手把手教學Python代碼實現,并前瞻隱私集合求交(PSI)等合規(guī)技術。經Splink工具作者Robin Linacre力薦,既是新手入門教材,也是資深從業(yè)者的技術進階手冊。
譯者序在當今這個信息爆炸的時代,海量數據的涌現為各行各業(yè)帶來了前所未有的機遇與挑戰(zhàn)。如何從紛繁復雜的數據中精準提取出有價值的信息,成為亟待解決的問題。而實體消解技術,正是應對這一問題的關鍵利器之一。無論是在商業(yè)智能領域助力企業(yè)精準洞察客戶需求、優(yōu)化供應鏈管理,還是在學術研究中整合多源異構數據以挖掘新知識,乃至協(xié)助政府部門進行公共事務管理、提升社會治理效能,實體消解技術都發(fā)揮著重要作用。顧名思義,實體消解就是將不同數據源中指代同一實體的多個記錄識別出來并將其合并為統(tǒng)一實體表示的過程。實體消解技術通過一系列復雜的算法和流程,實現數據的精準對接與融合,從而為后續(xù)的數據分析、知識發(fā)現、業(yè)務決策等環(huán)節(jié)奠定堅實的基礎。本書正是對這一重要技術的全面而深入的剖析。從基礎概念的闡釋,到實際操作的指導,再到前沿技術的探討,本書涵蓋了實體消解的方方面面。書中對每個步驟都進行了細致的講解,不僅提供了豐富的理論知識,還結合實際案例,展示了如何在具體場景下應用這些技術和方法。本書既有高屋建瓴的理論闡述,又有細致入微的代碼示例與案例剖析,相信無論讀者是初涉該領域、渴望構建扎實的知識根基的新手,還是經驗頗豐、尋求創(chuàng)新思路與技術進階的專業(yè)人士,都能從這本書中覓得所需。衷心期望本書的問世,能夠為讀者的事業(yè)與研究注入新的活力,助力更多讀者跨越知識鴻溝,在實體消解乃至更廣闊的數據處理天地中自由馳騁,開啟數字化智慧之旅。讀者在閱讀過程中,如果發(fā)現問題或錯誤,歡迎與我聯系,我的電子郵箱是seancheney@qq.com。林潤前言人們都希望做出更好的決策。無論是為了更好地服務客戶,還是為了保障客戶的安全,人們都希望做出正確的判斷并開展正確的工作。為了能夠自信地行動,人們需要了解服務對象及其信息。雖然人們時常有大量數據可以使用,但這些 數據往往是孤立的,難以完整描述個體全貌。實體消解是連接數據、串聯數據并揭示全貌的技術。本書是一本實操指南,旨在幫助讀者了解實體消解廣闊的知識背景,掌握實體消解技術并靈活運用它。 數據匹配看起來很容易,但通過本書,讀者將了解到數據匹配并非總是一帆風 順的。不過不用擔心,閱讀完全書,讀者就能夠克服這些挑戰(zhàn),讓數據集煥發(fā)生機。本書讀者本書適合金融服務、制藥業(yè)或其他大型企業(yè)的產品經理、數據分析師或數據科學家閱讀。如果你正面臨數據孤島難題、不同數據庫中的客戶信息存在分歧, 或者你要合并來自不同組織或附屬公司的信息,本書也適合你。負責防范金融犯罪、管理聲譽及供應鏈風險的風險管理專家,也能從本書對數據匹配挑戰(zhàn)及其解決策略的深入討論中受益。為什么撰寫本書實體消解的挑戰(zhàn)無處不在。雖然我們可能不常用這個術語,但實體消解過程每天都在重復發(fā)生。在完成本書的幾周前,妻子讓我?guī)椭藢︺y行對賬單上的 付款人名單,以確認名單上的人是否都付款了。這正是實體消解的實際應用!創(chuàng)作本書的想法,源于我想要闡釋為什么核對名單上的匹配項并不像聽起來那么簡單,還想展示一些現在可用于高效處理實體消解問題的優(yōu)秀工具和技術。通過介紹一些真實案例,我希望讀者能夠自信地對數據集進行匹配,從而更好 地服務并保護客戶。非常歡迎讀者向我分享讀書的心得體會,或是對本書的任何反饋。如果對本書附帶的代碼有任何疑問,歡迎在 GitHub(https://github. com/mshearer0/HandsOnEntityResolution )上提出。若想討論實體消解問題,請通過 LinkedIn(https://www.linkedin.com/in/mshearer0)聯系我。實體消解既是一門技藝,也是一門科學。不存在適用于所有數據集的通用解決方案,因此開發(fā)者需要根據自身需求調整算法,以達成期望結果。希望本書讀 者能夠相互幫助,找到最佳解決方案,通過分享彼此的經驗,讓眾人受益。本書導覽本書旨在提供實體消解的實操指南,因此鼓勵讀者在逐章學習時動手運行代碼。本書的核心原則是通過使用真實的開源數據,展示實體消解中的挑戰(zhàn)與解決方案。但是,使用開源數據可能會面臨一些挑戰(zhàn),因為開源數據集在發(fā)布后可能 會有更新,導致讀者的運算結果略有不同。請查看 GitHub頁面(https://github.com/mshearer0/HandsOnEntityResolution),以獲取及時更新,并訪問最新代碼。本書各章內容如下:? 第 1 章簡要介紹實體消解,解釋為什么需要進行實體消解,及實體消解包含的主要步驟。? 第 2 章闡述在嘗試匹配記錄之前,數據標準化的重要性。? 第 3 章至第 6 章展示如何使用模糊匹配和概率匹配方法,比較數據記錄以消解實體。? 第 7 章介紹對于描述同一實體的記錄,將其聚類到唯一可識別簇的過程。? 第 8 章和第 9 章展示如何使用云計算服務大規(guī)模實施實體消解。? 第 10 章介紹如何利用記錄關聯技術保護數據所有者隱私。? 第 11 章介紹對實體消解算法設計的進一步思考,并展望實體消解技術的未來發(fā)展。建議讀者連續(xù)閱讀第 2 章至第 9 章,因為這些章節(jié)會使用相同的數據集逐步構 建出實體消解解決方案。本書假定讀者具備 Python 基礎知識。如有學習需要,可訪問互動教程網站 http://learnpython.org。此外,強烈推薦 Wes McKinney 所著的 Python for Data Analysis一書。對于更有經驗的讀者,建議學習 pandas、Spark 和 Google Cloud Platform,肯定能有所收獲。
Michael Shearer是HAWK:AI公司的首席解決方案官,該公司致力于幫助金融機構偵測金融犯罪活動。作為匯豐銀行前董事總經理,他在2014—2023年間主導開發(fā)了一套合規(guī)系統(tǒng)。此外,邁克爾還在英國政府部門擁有20年的工作經驗,曾擔任多個關鍵的管理和技術角色。
目錄前言1第1章 實體消解入門71.1 什么是實體消解71.2 實體消解的作用81.3 實體消解的主要挑戰(zhàn)91.3.1 姓名缺少唯一性91.3.2 命名約定不一致91.3.3 數據獲取不一致101.3.4 示例111.3.5 故意模糊處理121.3.6 匹配組合121.3.7 盲目匹配131.4 實體消解過程131.4.1 數據標準化141.4.2 記錄分塊141.4.3 屬性比較141.4.4 匹配分類141.4.5 聚類141.4.6 規(guī)范化151.4.7 示例151.5 評估結果161.6 正式開始17第2章 數據標準化192.1 案例192.2 設置環(huán)境202.3 獲取數據222.3.1 維基百科數據222.3.2 TheyWorkForYou數據242.4 清洗數據262.4.1 清洗維基百科數據262.4.2 清洗TheyWorkForYou數據272.5 比較屬性282.6 選區(qū)292.7 評估結果332.8 計算樣本342.9 總結35第3章 文本匹配363.1 編輯距離匹配363.1.1 Levenshtein距離373.1.2 Jaro相似度383.1.3 Jaro-Winkler相似度393.2 語音匹配413.2.1 Metaphone算法413.2.2 MRA算法413.3 技術比較413.4 案例423.5 全面相似度比較443.6 評估結果473.7 總結48第4章 概率匹配494.1 案例494.2 單一屬性匹配概率514.2.1 名字匹配概率514.2.2 姓氏匹配概率524.3 多屬性匹配概率534.4 概率模型554.4.1 貝葉斯定理554.4.2 m值564.4.3 u值574.4.4 λ值574.4.5 貝葉斯因子584.4.6 Fellegi-Sunter模型584.4.7 匹配權重594.5 期望最大化算法604.5.1 第一次迭代604.5.2 第二次迭代624.5.3 第三次迭代634.6 Splink入門654.6.1 配置Splink654.6.2 Splink匹配結果684.7 總結71第5章 記錄分塊725.1 案例725.2 獲取數據735.2.1 維基百科數據735.2.2 英國公司注冊署數據745.3 數據標準化755.3.1 維基百科數據755.3.2 英國公司注冊署數據765.4 記錄分塊與屬性比較765.4.1 使用Splink進行記錄分塊775.4.2 比較屬性785.5 匹配分類825.6 評估結果845.7 總結84第6章 匹配公司856.1 案例856.2 獲取數據866.3 數據標準化866.3.1 英國公司注冊署數據876.3.2 英國海事及海岸警衛(wèi)署數據886.4 記錄分塊與屬性比較896.5 匹配分類926.6 評估結果946.7 匹配新實體966.8 總結97第7章 聚類987.1 簡單精確匹配聚類997.2 近似匹配聚類1017.3 案例1047.3.1 獲取數據1047.3.2 數據標準化1057.4 記錄分塊與屬性比較1057.4.1 數據分析1067.4.2 期望最大化分塊規(guī)則1067.5 匹配分類與聚類1107.6 簇可視化1127.7 聚類分析1137.8 總結117第8章 使用谷歌云平臺進行擴展1198.1 谷歌云設置1208.2 創(chuàng)建Dataproc集群1248.3 配置Dataproc集群1288.4 使用Spark進行實體消解1308.5 評估結果1338.6 整理工作1338.7 總結134第9章 實體消解云服務1359.1 BigQuery簡介1359.2 企業(yè)知識圖譜 API1389.2.1 模式映射1389.2.2 消解作業(yè)1409.2.3 處理結果1459.2.4 實體消解Python客戶端1479.3 評估結果1499.4 總結150第10章 利用記錄關聯技術保護隱私15110.1 隱私集合求交簡介15110.2 PSI原理15210.3 基于ECDH的PSI協(xié)議15410.3.1 布隆過濾器15410.3.2 格倫布編碼集15710.4 案例:使用PSI16010.4.1 設置環(huán)境16010.4.2 服務器代碼16310.4.3 客戶端代碼16510.4.4 完整的MCA和公司注冊署樣本示例17010.5 總結172第11章 進一步探討17311.1 數據問題探討17311.1.1 非結構化數據問題17311.1.2 數據質量問題17411.1.3 時效性問題17411.2 屬性比較17511.2.1 集合匹配17511.2.2 地理編碼位置匹配17511.2.3 匯總比較17611.3 后處理17611.4 圖形表示17811.5 實時性問題17811.6 評估結果17911.6.1 成對方法18011.6.2 基于簇的方法18011.7 實體消解的未來181