網站首頁 小常識 美食 教育 生活 數碼 經驗
當前位置:維基百科吧 > 經驗 > 

爬蟲是什麼

欄目: 經驗 / 發佈於: / 人氣:3.17W

爬蟲是什麼

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本,它們被廣泛用於互聯網搜索引擎或其他類似網站,可以自動採集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。從功能上來講,爬蟲一般分為數據採集,處理,儲存三個部分。

Web網絡爬蟲系統的功能是下載網頁數據,為搜索引擎系統提供數據來源,很多大型的網絡搜索引擎系統都是基於Web數據採集的搜索引擎系統,由此可見Web網絡爬蟲在搜索引擎中的重要性。

在網絡爬蟲的系統框架中,主過程由控制器、解析器、資源庫三部分組成。控制器的主要工作是負責給多線程中各個爬蟲線程分配工作任務;解析器的主要工作是下載網頁,進行網頁的處理,處理的內容包括JS腳本標籤、CSS代碼內容、空格字符、HTML標籤等內容。資源庫是用來存放下載到的網頁資源,一般會採用大型的數據庫存儲,並對其建立索引。

Tags:爬蟲