網路城邦
上一篇 回創作列表 下一篇   字體:
索引-搜索引擎原理學習筆記
2013/08/10 20:53:23瀏覽875|回應0|推薦2
索引-搜索引擎原理學習筆記

每一文件(Document)內含不同詞彙(Term)

反向索引(Inverted Index)-由詞彙查到包含此詞彙的文件
 包含詞彙詞典及反向串列


詞彙詞典(Lexicon)的建立方法:
-雜湊連結串列: 由雜湊(Hsah)及連結串列(Link List)組成
-樹狀結構: 以B Tree建立

反向串列(Posting List)-含該詞彙的所有文件及位置資訊:
-文件編號(Document ID)
-詞彙出現頻率(Term Frequency)
-詞彙於文件之位置

建立索引
-記憶體二次掃描法(Two-pass In-Memory Inversion)
-排序法(Sort-Base Inversion)
-合併法(Merge-based Inversion)

索引更新原則
-完全重健原則(Complete Re-build)
-再次合併原則(Re-Merge)
-原地更新原則(In-Place)
-混合原則(Hybrid)

查詢處理
-每次一個文件(Doc at a Time)
-每次一個詞彙(Term at a Time)
-跳躍指標(Skip Pointers)

多欄位索引
-反向串列
-擴充串列(Extend List)

短語查詢
-位置資訊索引(Position Index)
-雙詞索引(Nextword Index)
-短語索引(Phrase Index)
-混合方法

分散式索引(Parallel Indexing)
-文件分割(Document partitioning)
-詞彙分割(Term Partitioning)


參考資料:

54Power-主題搜索導引- 世界連在一起,搜尋引擎的核心秘密: ...搜尋 ...

www.cubicpower.idv.tw/54power/bookpool/8/.../8bbb18d11b57814e.ht...‎
搜尋引擎作為網際網路發展中非常重要的一種應用,已經成為網際網路各個領域中的制高點,其重要性不言而喻。.....搜尋引擎領域也是網際網路應用中以核心技術作為 ...

这就是搜索引擎核心技术详解

www.valleytalk.org/.../这就是搜索引擎-核心技术详解.pdf - 轉為繁體網頁
搜索引擎核心算法有兴趣的技术人员. ○ 搜索引擎的整体框架是怎样的?包含哪些核心技术? ○ 网络爬虫的基本架构是什么?常见的爬取策略是什么?什么是暗网 ...
更多
( 知識學習隨堂筆記 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=markhsia&aid=8124445