核心閱讀
在大數據時代的背景下,越來越多的市場主體投入巨資收集、整理和挖掘信息。如果任由網絡爬蟲隨意使用他人通過巨額投資獲得的數據資源,將不利於鼓勵商業投資、產業創新和誠信經營,甚至可能直接侵犯數據源用戶的意願和知情權,最終損害良性競爭機制。
隨著社會經濟的快速發展,數據的價值日益凸顯,已經成為企業科技創新必不可少的要素。但企業通過技術手段獲取數據時,數據抓取技術的應用行為是否合理合法,是壹個值得深思的問題。
近年來,網絡爬蟲“抓取數據”成為熱詞,相關司法案例不斷湧現。據不完全統計,近幾年涉及網絡爬蟲的司法案件有十余起,既有民事案件,也有刑事案件。此類案件甚至愈演愈烈。
上海市人民檢察院研究室副主任陳日前在上海舉行的長三角數據合規論壇(第三期)暨數據爬蟲法律規制研討會上透露,檢察機關正在積極推進企業合規改革試點工作,數據合規是重點。“目前,爬蟲抓取數據的情況非常普遍。當網絡平臺或個人通過技術手段抓取其他平臺數據時,這種行為是否合法,平臺數據的主體是誰,誰在使用,都值得深入探討。”
杭長三角大數據研究院副院長郭冰認為,數據爬蟲作為壹種中性技術,已經在互聯網行業得到了廣泛的應用。需要註意的是,如果爬蟲技術應用不當,會損害其他競爭對手的合法權益,甚至涉嫌違法或犯罪,對行業的健康發展也會產生非常負面的影響。
從技術角度來說,爬蟲通過程序模擬人類上網或瀏覽網頁、app的行為,從而可以高效地抓取爬蟲制作者在互聯網上需要的信息。
歐萊雅中國數字化負責人劉表示,大部分網站拒絕爬蟲訪問,原因既包括商業利益,也包括自身網站的運營安全。除了爬蟲可能不希望被爬取的數據,網站運營者往往還擔心爬蟲會幹擾網站的正常運營。
而不規則爬蟲自動持續高頻率訪問被爬當事人,服務器負載暴漲,也會給服務器帶來“難以承受”的重量:處理沒有經驗的網站,尤其是中小型網站,可能會面臨網站打不開,網頁加載極其緩慢,有時甚至直接癱瘓的情況。
新浪集團訴訟總監張哲表示,爬蟲和實現其他目的的技術本身都是中性的,但爬蟲技術的應用並不是中性的,技術應用有用戶的目的性。這個時候,我們不應該評價技術的原理,而需要評價技術是用來做什麽的,這種行為手段是否正當。
談到網絡爬蟲,robots協議是壹個不可回避的話題。robots協議(又稱爬蟲協議)的全稱是“網絡爬蟲排除標準”。通過robots協議,網站明確警告搜索引擎哪些頁面可以抓取,哪些頁面不可以抓取。該協議也被業內稱為搜索領域的“君子協定”。
劉說,當壹個網絡爬蟲訪問壹個網站時,robots協議就像壹個標誌立在他房間的門口,告訴外人誰能來,誰不能來。但是,這只是君子協定,只能起到通知的作用,而不能起到技術防範的作用。
實踐中,惡意爬蟲在爬取時不遵守網站的robots協議,可能爬取了不該爬取的數據,這並不是孤例。小紅書法務總監曾翔表示,惡意爬蟲案件經常發生在內容平臺和電商平臺。在內容、視頻、圖片、文字、網絡名人互動數據、用戶行為等方面。都是被抓取的,而在電子商務領域,多是商務信息和商品信息。
“內容平臺壹般會規定相關內容的知識產權歸發布者或者發布者與平臺* * *,而這些爬蟲是在沒有簽訂協議的情況下由用戶授權的,涉嫌侵犯知識產權人的權利。”曾翔說。
還是要明確網站權限。
這就涉及到數據的歸屬和能否開放的問題。
上海市浦東區人民法院知識產權庭法官徐紅濤認為,數據是內容產業的核心競爭資源,內容平臺處理的數據往往具有極高的經濟價值。
“如果要求內容平臺運營商無限期向競爭對手開放核心競爭資源,不僅違背了‘互聯互通’精神的本質,也不利於優質內容的不斷變化和互聯網行業的可持續發展。”許宏宇說。
惡意爬蟲抓取數據案件頻發的背後,是數據價值的提升,以數據為核心的市場競爭日趨激烈。
華東政法大學教授高福平表示,在大數據時代,數據的價值再次凸顯,現在爬蟲技術已經從最初的網絡爬蟲走向底層數據的抓取。數據爬蟲的問題會越來越嚴重。
在大數據時代的背景下,越來越多的市場主體投入巨資收集、整理和挖掘信息。業內人士對此擔憂:如果允許網絡爬蟲使用或利用他人通過巨額投資獲得的數據資源,將不利於鼓勵商業投資、產業創新和誠信經營,甚至可能直接違背數據源用戶的意願和知情權,最終損害良性競爭機制。
高福平認為,如果網站合法積累了數據資源,那麽這些數據資源就應該屬於網站的資產。“允許數據生產者和控制者為商業目的開放數據是有益的。通過許可和交換交易,更多的人可以享受數據服務。我期待在未來確認所有合法的數據生產者的控制權和使用權。”
有序流通同樣重要。
目前,雖然網站可以指定相應的策略或技術手段來阻止爬蟲抓取數據,但爬蟲也有更多的技術手段來對抗這種反抓取策略。
劉說,反抓取和抓取的技術壹直在叠代。在技術領域,沒有爬不上去的網站和app,只有妳願不願意爬上去以及爬上去有多難的問題。
據了解,現實中,惡意網絡爬蟲制作者在防禦時,往往會將robots協議與數據流聯系起來。徐紅濤認為,在“互聯互通”的背景下,“秩序”和“流通”同等重要,缺壹不可,要杜絕打著“互聯互通”幌子妨礙公平競爭、危害用戶數據安全的行為。
“對於非搜索引擎爬蟲的合法性判斷,需要考慮是否足以保證用戶數據的安全。用戶數據,包括身份數據和行為數據,不僅在屬性上是運營商的競爭資源,還具有用戶的個人隱私屬性,這類數據的收集更多的是與社會利益相關。”許宏宇說。
據了解,近年來,與數據安全相關的法律規範在不斷完善。數據安全法作為數據安全的基本法,承擔著解決我國數據安全核心制度框架的重任。此外還有2019通過的《密碼法》,工信部擬出臺的《工業和信息化領域數據安全管理辦法(試行)》等。深圳、上海等壹些地方也在探索制定相關的數據管理規範。