站長之間的采集與被采集,那是一件司空見慣的事情。如果你做了一個網站,每天堅持原創1-2篇文章,堅持了半年,你的網站終于得到了百度的認可,有了收錄和SEO排名,隨之而來的是網站流量也增加了。你是不是很高興?
但是這時候,你發現一個網站,采集你的內容,而百度排名卻比你好。不光偷走了你的內容也偷走了你的流量。你是不是很惱火?甚至你剛發布的新內容,馬上就被采集走,你是不是很無奈?
誰遇到這種事情都會很氣憤。那你會說,我采集的內容被別人采集去了是不是就不應該生氣了?我想百分之七八十的站長都會覺得,就算是采集的內容被別人采集走了也是很不高興的。一個人采集你沒事,兩個人采集你也沒事,但是十個百個站長采集你呢?我們都是個人站長,為了節約成本,不是購買虛擬主機就是買一些低性能的廉價VPS或者云來做網站,這樣的硬件性能天天被百來個IP來來回回的爬,翻來覆去的采集。當正常用戶訪問的時候,動不動就是504錯誤,可想而知是什么樣的體驗。不光影響網站響應速度,也影響蜘蛛的爬取,從而影響網站的收錄和排名。這樣的事誰遇到不糟心?
雖然被采集是一個普遍現象,但這也證明了你的文章有價值。不要過于氣憤,繼續寫下去,專注于提供有質量的內容。雖然現在SEO搜索引擎增強了識別原創的能力,但仍然會出現被采集的內容在別人的網站卻比你網站排名更高的情況。所以個人站長都不愿意自己網站文章被別人采集。那么我們應該如何有效地防止被別人采集呢?其實不管我們怎么防止別人采集,都是不能完全杜絕被采集的,只能說是增加網站的采集難度,增加別人的采集成本。依我建站多年的經驗來看,想要避免網站內容被輕易采集,我們還是可以做一些事情的。
1、禁止右鍵:禁止右鍵能防止別人最簡單的復制粘貼,對不懂的小白還是比較管用的。由于禁止右鍵功能通常是JS代碼來完成的,所以別人禁止掉js代碼加載或者用手機訪問也能輕松復制。何況一般批量采集的機器都是通過網頁源碼來分析并抓取內容的,禁止右鍵就失去了它應有的意義了。
2、修改文章容器DIV的class名:這樣可以減少其他網站自動采集你的文章的可能性。因為很多采集是通過識別DIV的class名來采集的。如果你能通過隨機DIV的class名或者定期修改DIV的class名來調用相關CSS代碼的話,也可以在一定程度上避免你的網站內容被采集。舉個例子:XX小說網的章節內容在<div id="content">與</div>之間,別人就可以通過簡單的規則匹配來采集小說章節內容了。如果這時候你定期修改<div id="content">為<p id="content">與</p>或者修改為<div id="caijisiquanjia">與</div>,就會讓別人預先寫好的采集規則失效,增加別人的采集技術成本。從而對網站內容形成了一定的保護。
3、文章內容采用js輸出:判斷是不是知名搜索引擎的爬蟲,也就是站長們常說的蜘蛛,如果是就原文輸出,如果不是蜘蛛就使用JS調用數據來輸出,避免影響SEO優化。以前起點小說網的章節頁就是這樣來防止被采集的。不過這種防止采集的手段還是太低級了,因為別人直接抓取你的JS頁面,即可采集到他想要的內容了。這個方法只能防止小菜鳥,對于稍微懂點技術的就無能為力了。
4、文章內容圖片輸出:這個方法比第三種方法的防采集能力要強那么一點點,也是很多小說網站采用該方法來保護收費章節不被采集的主要方法。比如你把網站的內容用PHP生成了圖片,然后用圖片的方式展示你的文章內容。這種方法和第三種方法一樣,也需要針對搜索引擎做優化。但是別人可以模擬搜索引擎來采集。反正就是一句話:上有政策,下有對策。
5、不規則URL:不規則的URL可以有效防止批量采集。比如你的第一篇文章的URL是https://www.adminbk.com/article/1.html,但是你第二篇的文章URL是:https://www.adminbk.com/article/caijisiquanjia.html,這樣別人就很難通過簡單的文章ID來實現順序采集。你甚至可以通過后臺程序來完成URL的部分隨機化、虛擬化URL參數,增加采集器對你網站URL的識別能力。
6、用戶真實性判斷:就是搜索引擎以外的用戶訪問,需要登錄或者點擊一下確定按鈕才可繼續訪問等。就像百度網站,當我用PHP去抓取某個站的site內容的時候,打印出來的頁面就是一個圖片驗證頁面。你可以記錄每一個IP的訪問記錄,如果該IP在短時間內爬取次數達到一定數值,則必須完成真人驗證才能繼續訪問。
7、分析網站日志:對一些頻繁爬取網站的IP進行監控,達到預定的闕值判斷為非真實用戶訪問。比如:某IP的訪問順序是文章ID順序或者是某列表的順序,則基本可以判斷該用戶是非正常訪問。則應該屏蔽或者短時間禁止訪問。
8、登錄訪問:其實監控IP的操作行為也不是十分準確的,而且容易誤判,一些高端的采集者會使用IP代理,IP會不停切換,也會讓你無法達到預期的目的。當然我們還可以使用登錄訪問,這樣會對搜索引擎不太友好,需要針對搜索引擎做優化。想象一下,曾經那么多收費小說不僅需要登錄,而且付費之后才能閱讀,別人同樣可以通過給賬號預存閱讀費用來模擬登錄進行采集。這里我們有個小技巧,比如我們的網站沒有開放注冊登錄功能,但是我們實際卻在訪問者第一次訪問網站的時候,傳遞一個cookie值,當我們的服務器無法讀取到這個值的時候,判斷為非真人訪問。因為一般訪問者都是需要使用瀏覽器來渲染的,而不支持cookie的瀏覽器是很少很少的。只有采集者才會直接讀取源碼。當然這個方法也不是絕對就能防止文章內容不會被采集。
9、使用防盜鏈技術:防盜鏈技術是一種可以有效地防止盜鏈和復制的技術手段。我們可以通過Nginx服務器配置等方式來實現防盜鏈。
10、使用JavaScript加密:利用JavaScript對頁面內容進行加密也是一種常見的防采集方法。通過對頁面內容進行加密,可以有效地防止惡意復制和盜用。
11、版權維護:自媒體或者網站建設者應時刻牢記對自己的創作成果要有足夠的版權保護意識,避免輕易授權或使用他人的內容。同時,我們可以在文章中加入版權聲明和水印,以有效防止惡意復制和盜用。一旦發現自己的創作成果被惡意盜取或復制,我們應積極維權,尋求法律保護和維權途徑,以維護自己的合法權益。但是發現別人的盜用或者維權都是需要時間和人力成本的,對于個人站長來說,是很難全面做到的。
關于防止采集的手段,可能是我知道的就這么多了,也有可能是更多的防采集手段我還沒有想到。有個站長建議在自己網站的放點不合規、敏感的內容來讓別人采集,其實這是一種殺敵一千自損八百的做法,并不可取,還有可能給自己惹來麻煩。其實都不那么重要了,因為所有防采集手段都只能起到一定的作用,并不能全面杜絕被采集。在真正的高手面前,不要說采集你的文章內容,就是你整個服務器在他眼里都像自家的電腦一樣。