1,走網站。這壹步是告訴軟件需要檢索多少個網頁,並給出具體的網頁地址。
2,采納內容。有了網站,妳可以去這個網站收集信息,但是網站上的信息太多了,軟件不知道妳要收集什麽。在內容選擇部分,要制定規則。告訴軟件我想選什麽。
1,走網站。
網頁上的產品信息就是妳想要的,也就是目標。
在收藏鏈接頁面,進入收藏地址列表頁面,註意這裏過濾無用鏈接。
然後單擊測試按鈕來測試信息的正確性:
測試正確後,我們擴展地址。現在我們只是取壹個列表頁的文章地址,其他列表需要收集。其他列表頁面都在它的分頁上。我們觀察這些分布的鏈接形式,找出規律,然後批量填寫URL規則。
2、內容的收集
經過以上處理,目標產品頁面的鏈接已經收集完畢。讓我們進入內容集合。
在定義了要采集的內容後,我們開始編寫采集規則。機車采集內容是采集網頁的源代碼,所以我們要打開產品頁面的源代碼,找到我們要采集信息的位置。例如,描述字段的集合:
找到描述的位置,找到後如何填寫收藏規則。很簡單,只需要在集合的相應位置填入集合目標的起始字符串和結束字符串即可。在這裏我們選擇
填了之後,並不代表就能正確采集。需要測試排除壹些無用的數據,可以在HTML標簽排除和內容排除中完成。測試成功後,這樣的標簽就做好了。
這裏我們使用通配符來達到這個要求。我們使用(*)通配符來表示任何不常見的地方。要收集的地址由參數(變量)表示。最後,我們將把這壹段改為:
如果測試不成功,說明妳填寫的內容不符合唯壹的、通用的標準,需要調試。測試成功後,可以保存,進入標簽制作。
這裏的標簽制作同上。找到要收集信息的位置,填寫開始和結束字符串,並過濾好。唯壹不同的是,剛才做的模塊要在頁面選項中選擇,這裏就不贅述了,直接顯示結果。
這樣標簽就完成了。點擊更新後,去掉發布選項,就可以收集任務了。