"網絡爬蟲"也稱"網頁蜘蛛",是壹個自動提取網頁的程序,運用"網絡爬蟲"技術設定程序,可以根據既定的目標更加精準選擇抓取相關的網頁信息,有助於在互聯網海量信息中快捷獲取有用的涉稅信息.
2."網絡爬蟲"的運用
"網絡爬蟲"技術主導下的涉稅信息監控平臺具有三個突出的特點:分類抓取、實時監控和智能比對.
平臺主要從證券財經網站,重點抓取上市公司公告、上市公司十大股東股票減持、限售股解禁等信息;風控中心的專用電腦全天候實時抓取、儲存和分類整理相關信息;平臺將從互聯網獲取的信息與稅收征管系統以及其他第三方信息進行自動比對,從中篩選出存在稅收風險的管征戶信息.
3."網絡爬蟲"的流程(具體可以咨詢財慧網)
進入系統後,先連接互聯網的風控中心電腦,通過"網絡爬蟲"程序定向抓取各網站上發布的上市公司公告信息,並且將這些信息轉化成可識別的文本.在當天股市收盤後,掃描程序開始啟動,掃描"網絡爬蟲"抓取的公告內容.
如果掃描中出現了國稅局管理的企業名稱或者是其他有效信息,監控平臺會自動將公告與國稅局管理企業建立起關聯,並且以不同顏色的字體和高亮方式顯示在電腦屏幕上.風控中心人員可以實時看到關聯信息.