當應用於大型分佈式數據集時,標準算法和數據結構可能會變慢或完全失效。選擇專為大數據設計的算法可以節省時間、提高準確性並降低處理成本。《漫畫算法與數據結構(大規模數據集)》將最前沿的研究論文提煉為實用的技術,用於繪製、流式傳輸並組織磁盤和雲中的大規模數據集,十分獨特。
大規模數據集的算法與數據結構為大型分佈式數據引入了處理和分析技術。《漫畫算法與數據結構(大規模數據集)》作為指南,包含了行業故事和有趣的插圖,使複雜的概念也易於理解。在學習如何將強大的算法(如Bloom 過濾器、計數最小草圖、HyperLogLog和LSM樹)映射到你自己的用例時,將對真實世界的示例進行探索。
主要內容:概率草圖數據結構;選擇正確的數據庫引擎;設計高效的磁盤數據結構和算法;大規模系統中的算法權衡;有限空間資源下的百分位數計算Python、R和偽代碼中的示例。
[波黑]黛拉·梅傑多維奇(Dzejla Medjedovic),在紐約石溪大學應用算法實驗室獲得博士學位。
埃明·塔希羅維奇(Emin Tahirovic),在賓夕法尼亞大學獲得了生物統計學博士學位。
伊內斯·德多維奇(Ines Dedovic),在德國亞琛RWTH大學成像和計算機視覺研究所獲得博士學位。