国产精品亚洲二区在线看,激情综合网激情综合,无卡无码中文字幕免费

在數(shù)據(jù)驅(qū)動(dòng)時(shí)代，實(shí)體消解技術(shù)是打通數(shù)據(jù)孤島的核心利器。本書以Python為工具，系統(tǒng)講解從數(shù)據(jù)清洗到云端大規(guī)模部署的全流程技術(shù)：·基礎(chǔ)原理：解析實(shí)體消解5大步驟（數(shù)據(jù)標(biāo)準(zhǔn)化、分塊、屬性比較、匹配分類、聚類），直面姓名模糊、數(shù)據(jù)缺失、跨源匹配等實(shí)戰(zhàn)難題；·算法攻堅(jiān)：詳解編輯距離、Jaro-Winkler相似度等文本匹配技術(shù)，結(jié)合貝葉斯定理、期望zui大化算法構(gòu)建概率匹配模型；·工具實(shí)戰(zhàn)：基于Splink實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)消解，通過谷歌云平臺(tái)擴(kuò)展至百萬級(jí)數(shù)據(jù)集；·前沿拓展：引入隱私增強(qiáng)技術(shù)（PSI），平衡數(shù)據(jù)利用與合規(guī)風(fēng)險(xiǎn)。全書配套GitHub代碼庫(kù)，以英國(guó)公司注冊(cè)署、海事署等真實(shí)數(shù)據(jù)演示跨領(lǐng)域（金融風(fēng)控、供應(yīng)鏈管理）場(chǎng)景應(yīng)用，助力讀者構(gòu)建可復(fù)用的數(shù)據(jù)資產(chǎn)整合方案。

譯者序在當(dāng)今這個(gè)信息爆炸的時(shí)代，海量數(shù)據(jù)的涌現(xiàn)為各行各業(yè)帶來了前所未有的機(jī)遇與挑戰(zhàn)。如何從紛繁復(fù)雜的數(shù)據(jù)中精準(zhǔn)提取出有價(jià)值的信息，成為亟待解決的問題。而實(shí)體消解技術(shù)，正是應(yīng)對(duì)這一問題的關(guān)鍵利器之一。無論是在商業(yè)智能領(lǐng)域助力企業(yè)精準(zhǔn)洞察客戶需求、優(yōu)化供應(yīng)鏈管理，還是在學(xué)術(shù)研究中整合多源異構(gòu)數(shù)據(jù)以挖掘新知識(shí)，乃至協(xié)助政府部門進(jìn)行公共事務(wù)管理、提升社會(huì)治理效能，實(shí)體消解技術(shù)都發(fā)揮著重要作用。顧名思義，實(shí)體消解就是將不同數(shù)據(jù)源中指代同一實(shí)體的多個(gè)記錄識(shí)別出來并將其合并為統(tǒng)一實(shí)體表示的過程。實(shí)體消解技術(shù)通過一系列復(fù)雜的算法和流程，實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)對(duì)接與融合，從而為后續(xù)的數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)、業(yè)務(wù)決策等環(huán)節(jié)奠定堅(jiān)實(shí)的基礎(chǔ)。本書正是對(duì)這一重要技術(shù)的全面而深入的剖析。從基礎(chǔ)概念的闡釋，到實(shí)際操作的指導(dǎo)，再到前沿技術(shù)的探討，本書涵蓋了實(shí)體消解的方方面面。書中對(duì)每個(gè)步驟都進(jìn)行了細(xì)致的講解，不僅提供了豐富的理論知識(shí)，還結(jié)合實(shí)際案例，展示了如何在具體場(chǎng)景下應(yīng)用這些技術(shù)和方法。本書既有高屋建瓴的理論闡述，又有細(xì)致入微的代碼示例與案例剖析，相信無論讀者是初涉該領(lǐng)域、渴望構(gòu)建扎實(shí)的知識(shí)根基的新手，還是經(jīng)驗(yàn)頗豐、尋求創(chuàng)新思路與技術(shù)進(jìn)階的專業(yè)人士，都能從這本書中覓得所需。衷心期望本書的問世，能夠?yàn)樽x者的事業(yè)與研究注入新的活力，助力更多讀者跨越知識(shí)鴻溝，在實(shí)體消解乃至更廣闊的數(shù)據(jù)處理天地中自由馳騁，開啟數(shù)字化智慧之旅。讀者在閱讀過程中，如果發(fā)現(xiàn)問題或錯(cuò)誤，歡迎與我聯(lián)系，我的電子郵箱是seancheney@qq.com。林潤(rùn)前言人們都希望做出更好的決策。無論是為了更好地服務(wù)客戶，還是為了保障客戶的安全，人們都希望做出正確的判斷并開展正確的工作。為了能夠自信地行動(dòng)，人們需要了解服務(wù)對(duì)象及其信息。雖然人們時(shí)常有大量數(shù)據(jù)可以使用，但這些數(shù)據(jù)往往是孤立的，難以完整描述個(gè)體全貌。實(shí)體消解是連接數(shù)據(jù)、串聯(lián)數(shù)據(jù)并揭示全貌的技術(shù)。本書是一本實(shí)操指南，旨在幫助讀者了解實(shí)體消解廣闊的知識(shí)背景，掌握實(shí)體消解技術(shù)并靈活運(yùn)用它。數(shù)據(jù)匹配看起來很容易，但通過本書，讀者將了解到數(shù)據(jù)匹配并非總是一帆風(fēng) 順的。不過不用擔(dān)心，閱讀完全書，讀者就能夠克服這些挑戰(zhàn)，讓數(shù)據(jù)集煥發(fā)生機(jī)。本書讀者本書適合金融服務(wù)、制藥業(yè)或其他大型企業(yè)的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家閱讀。如果你正面臨數(shù)據(jù)孤島難題、不同數(shù)據(jù)庫(kù)中的客戶信息存在分歧，或者你要合并來自不同組織或附屬公司的信息，本書也適合你。負(fù)責(zé)防范金融犯罪、管理聲譽(yù)及供應(yīng)鏈風(fēng)險(xiǎn)的風(fēng)險(xiǎn)管理專家，也能從本書對(duì)數(shù)據(jù)匹配挑戰(zhàn)及其解決策略的深入討論中受益。為什么撰寫本書實(shí)體消解的挑戰(zhàn)無處不在。雖然我們可能不常用這個(gè)術(shù)語(yǔ)，但實(shí)體消解過程每天都在重復(fù)發(fā)生。在完成本書的幾周前，妻子讓我?guī)椭藢?duì)銀行對(duì)賬單上的付款人名單，以確認(rèn)名單上的人是否都付款了。這正是實(shí)體消解的實(shí)際應(yīng)用！創(chuàng)作本書的想法，源于我想要闡釋為什么核對(duì)名單上的匹配項(xiàng)并不像聽起來那么簡(jiǎn)單，還想展示一些現(xiàn)在可用于高效處理實(shí)體消解問題的優(yōu)秀工具和技術(shù)。通過介紹一些真實(shí)案例，我希望讀者能夠自信地對(duì)數(shù)據(jù)集進(jìn)行匹配，從而更好地服務(wù)并保護(hù)客戶。非常歡迎讀者向我分享讀書的心得體會(huì)，或是對(duì)本書的任何反饋。如果對(duì)本書附帶的代碼有任何疑問，歡迎在 GitHub（https://github. com/mshearer0/HandsOnEntityResolution ）上提出。若想討論實(shí)體消解問題，請(qǐng)通過 LinkedIn（https://www.linkedin.com/in/mshearer0）聯(lián)系我。實(shí)體消解既是一門技藝，也是一門科學(xué)。不存在適用于所有數(shù)據(jù)集的通用解決方案，因此開發(fā)者需要根據(jù)自身需求調(diào)整算法，以達(dá)成期望結(jié)果。希望本書讀者能夠相互幫助，找到最佳解決方案，通過分享彼此的經(jīng)驗(yàn)，讓眾人受益。本書導(dǎo)覽本書旨在提供實(shí)體消解的實(shí)操指南，因此鼓勵(lì)讀者在逐章學(xué)習(xí)時(shí)動(dòng)手運(yùn)行代碼。本書的核心原則是通過使用真實(shí)的開源數(shù)據(jù)，展示實(shí)體消解中的挑戰(zhàn)與解決方案。但是，使用開源數(shù)據(jù)可能會(huì)面臨一些挑戰(zhàn)，因?yàn)殚_源數(shù)據(jù)集在發(fā)布后可能會(huì)有更新，導(dǎo)致讀者的運(yùn)算結(jié)果略有不同。請(qǐng)查看 GitHub頁(yè)面（https://github.com/mshearer0/HandsOnEntityResolution），以獲取及時(shí)更新，并訪問最新代碼。本書各章內(nèi)容如下：?　　第 1 章簡(jiǎn)要介紹實(shí)體消解，解釋為什么需要進(jìn)行實(shí)體消解，及實(shí)體消解包含的主要步驟。?　　第 2 章闡述在嘗試匹配記錄之前，數(shù)據(jù)標(biāo)準(zhǔn)化的重要性。?　　第 3 章至第 6 章展示如何使用模糊匹配和概率匹配方法，比較數(shù)據(jù)記錄以消解實(shí)體。?　　第 7 章介紹對(duì)于描述同一實(shí)體的記錄，將其聚類到唯一可識(shí)別簇的過程。?　　第 8 章和第 9 章展示如何使用云計(jì)算服務(wù)大規(guī)模實(shí)施實(shí)體消解。?　　第 10 章介紹如何利用記錄關(guān)聯(lián)技術(shù)保護(hù)數(shù)據(jù)所有者隱私。?　　第 11 章介紹對(duì)實(shí)體消解算法設(shè)計(jì)的進(jìn)一步思考，并展望實(shí)體消解技術(shù)的未來發(fā)展。建議讀者連續(xù)閱讀第 2 章至第 9 章，因?yàn)檫@些章節(jié)會(huì)使用相同的數(shù)據(jù)集逐步構(gòu) 建出實(shí)體消解解決方案。本書假定讀者具備 Python 基礎(chǔ)知識(shí)。如有學(xué)習(xí)需要，可訪問互動(dòng)教程網(wǎng)站 http://learnpython.org。此外，強(qiáng)烈推薦 Wes McKinney 所著的 Python for Data Analysis一書。對(duì)于更有經(jīng)驗(yàn)的讀者，建議學(xué)習(xí) pandas、Spark 和 Google Cloud Platform，肯定能有所收獲。

目錄前言1第1章實(shí)體消解入門71.1 什么是實(shí)體消解71.2 實(shí)體消解的作用81.3 實(shí)體消解的主要挑戰(zhàn)91.3.1 姓名缺少唯一性91.3.2 命名約定不一致91.3.3 數(shù)據(jù)獲取不一致101.3.4 示例111.3.5 故意模糊處理121.3.6 匹配組合121.3.7 盲目匹配131.4 實(shí)體消解過程131.4.1 數(shù)據(jù)標(biāo)準(zhǔn)化141.4.2 記錄分塊141.4.3 屬性比較141.4.4 匹配分類141.4.5 聚類141.4.6 規(guī)范化151.4.7 示例151.5 評(píng)估結(jié)果161.6 正式開始17第2章數(shù)據(jù)標(biāo)準(zhǔn)化192.1 案例192.2 設(shè)置環(huán)境202.3 獲取數(shù)據(jù)222.3.1 維基百科數(shù)據(jù)222.3.2 TheyWorkForYou數(shù)據(jù)242.4 清洗數(shù)據(jù)262.4.1 清洗維基百科數(shù)據(jù)262.4.2 清洗TheyWorkForYou數(shù)據(jù)272.5 比較屬性282.6 選區(qū)292.7 評(píng)估結(jié)果332.8 計(jì)算樣本342.9 總結(jié)35第3章文本匹配363.1 編輯距離匹配363.1.1 Levenshtein距離373.1.2 Jaro相似度383.1.3 Jaro-Winkler相似度393.2 語(yǔ)音匹配413.2.1 Metaphone算法413.2.2 MRA算法413.3 技術(shù)比較413.4 案例423.5 全面相似度比較443.6 評(píng)估結(jié)果473.7 總結(jié)48第4章概率匹配494.1 案例494.2 單一屬性匹配概率514.2.1 名字匹配概率514.2.2 姓氏匹配概率524.3 多屬性匹配概率534.4 概率模型554.4.1 貝葉斯定理554.4.2 m值564.4.3 u值574.4.4 λ值574.4.5 貝葉斯因子584.4.6 Fellegi-Sunter模型584.4.7 匹配權(quán)重594.5 期望最大化算法604.5.1 第一次迭代604.5.2 第二次迭代624.5.3 第三次迭代634.6 Splink入門654.6.1 配置Splink654.6.2 Splink匹配結(jié)果684.7 總結(jié)71第5章記錄分塊725.1 案例725.2 獲取數(shù)據(jù)735.2.1 維基百科數(shù)據(jù)735.2.2 英國(guó)公司注冊(cè)署數(shù)據(jù)745.3 數(shù)據(jù)標(biāo)準(zhǔn)化755.3.1 維基百科數(shù)據(jù)755.3.2 英國(guó)公司注冊(cè)署數(shù)據(jù)765.4 記錄分塊與屬性比較765.4.1 使用Splink進(jìn)行記錄分塊775.4.2 比較屬性785.5 匹配分類825.6 評(píng)估結(jié)果845.7 總結(jié)84第6章匹配公司856.1 案例856.2 獲取數(shù)據(jù)866.3 數(shù)據(jù)標(biāo)準(zhǔn)化866.3.1 英國(guó)公司注冊(cè)署數(shù)據(jù)876.3.2 英國(guó)海事及海岸警衛(wèi)署數(shù)據(jù)886.4 記錄分塊與屬性比較896.5 匹配分類926.6 評(píng)估結(jié)果946.7 匹配新實(shí)體966.8 總結(jié)97第7章聚類987.1 簡(jiǎn)單精確匹配聚類997.2 近似匹配聚類1017.3 案例1047.3.1 獲取數(shù)據(jù)1047.3.2 數(shù)據(jù)標(biāo)準(zhǔn)化1057.4 記錄分塊與屬性比較1057.4.1 數(shù)據(jù)分析1067.4.2 期望最大化分塊規(guī)則1067.5 匹配分類與聚類1107.6 簇可視化1127.7 聚類分析1137.8 總結(jié)117第8章使用谷歌云平臺(tái)進(jìn)行擴(kuò)展1198.1 谷歌云設(shè)置1208.2 創(chuàng)建Dataproc集群1248.3 配置Dataproc集群1288.4 使用Spark進(jìn)行實(shí)體消解1308.5 評(píng)估結(jié)果1338.6 整理工作1338.7 總結(jié)134第9章實(shí)體消解云服務(wù)1359.1 BigQuery簡(jiǎn)介1359.2 企業(yè)知識(shí)圖譜 API1389.2.1 模式映射1389.2.2 消解作業(yè)1409.2.3 處理結(jié)果1459.2.4 實(shí)體消解Python客戶端1479.3 評(píng)估結(jié)果1499.4 總結(jié)150第10章利用記錄關(guān)聯(lián)技術(shù)保護(hù)隱私15110.1 隱私集合求交簡(jiǎn)介15110.2 PSI原理15210.3 基于ECDH的PSI協(xié)議15410.3.1 布隆過濾器15410.3.2 格倫布編碼集15710.4 案例：使用PSI16010.4.1 設(shè)置環(huán)境16010.4.2 服務(wù)器代碼16310.4.3 客戶端代碼16510.4.4 完整的MCA和公司注冊(cè)署樣本示例17010.5 總結(jié)172第11章進(jìn)一步探討17311.1 數(shù)據(jù)問題探討17311.1.1 非結(jié)構(gòu)化數(shù)據(jù)問題17311.1.2 數(shù)據(jù)質(zhì)量問題17411.1.3 時(shí)效性問題17411.2 屬性比較17511.2.1 集合匹配17511.2.2 地理編碼位置匹配17511.2.3 匯總比較17611.3 后處理17611.4 圖形表示17811.5 實(shí)時(shí)性問題17811.6 評(píng)估結(jié)果17911.6.1 成對(duì)方法18011.6.2 基于簇的方法18011.7 實(shí)體消解的未來181

你還可能感興趣

我要評(píng)論