字體:小 中 大 | |
|
|
2013/08/10 20:53:23瀏覽875|回應0|推薦2 | |
索引-搜索引擎原理學習筆記 每一文件(Document)內含不同詞彙(Term) 反向索引(Inverted Index)-由詞彙查到包含此詞彙的文件 包含詞彙詞典及反向串列 詞彙詞典(Lexicon)的建立方法: -雜湊連結串列: 由雜湊(Hsah)及連結串列(Link List)組成 -樹狀結構: 以B Tree建立 反向串列(Posting List)-含該詞彙的所有文件及位置資訊: -文件編號(Document ID) -詞彙出現頻率(Term Frequency) -詞彙於文件之位置 建立索引 -記憶體二次掃描法(Two-pass In-Memory Inversion) -排序法(Sort-Base Inversion) -合併法(Merge-based Inversion) 索引更新原則 -完全重健原則(Complete Re-build) -再次合併原則(Re-Merge) -原地更新原則(In-Place) -混合原則(Hybrid) 查詢處理 -每次一個文件(Doc at a Time) -每次一個詞彙(Term at a Time) -跳躍指標(Skip Pointers) 多欄位索引 -反向串列 -擴充串列(Extend List) 短語查詢 -位置資訊索引(Position Index) -雙詞索引(Nextword Index) -短語索引(Phrase Index) -混合方法 分散式索引(Parallel Indexing) -文件分割(Document partitioning) -詞彙分割(Term Partitioning) 參考資料: 54Power-主題搜索導引- 世界連在一起,搜尋引擎的核心秘密: ...搜尋 ...www.cubicpower.idv.tw/54power/bookpool/8/.../8bbb18d11b57814e.ht...
搜尋引擎作為網際網路發展中非常重要的一種應用,已經成為網際網路各個領域中的制高點,其重要性不言而喻。.....搜尋引擎領域也是網際網路應用中以核心技術作為 ...这就是搜索引擎:核心技术详解www.valleytalk.org/.../这就是搜索引擎-核心技术详解.pdf - 轉為繁體網頁
对搜索引擎核心算法有兴趣的技术人员. ○ 搜索引擎的整体框架是怎样的?包含哪些核心技术? ○ 网络爬虫的基本架构是什么?常见的爬取策略是什么?什么是暗网 ... |
|
( 知識學習|隨堂筆記 ) |