組織類
(8)
專業人士類
(14)
企業類
(12)
市場行銷類
(13)
門市類
(8)
設計類
(10)
系統類
(20)
主機類
(7)
基礎類
(33)
管理類
(27)
程序管控類
(14)
業務服務類
(34)
營運管理類
(16)
研究發展類
(32)
系統管理類
(48)
技術支援類
(36)
知識主題
規劃
設計
管理
資訊
工作平台
網路主機
客戶支援
outside
2021年四月11日(日)20:35
前線網路科技 知識管理系統
Keep it Simple and Smart
網路作業系統
•防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料
網路主機
>
主機頻寬
網路作業系統
網路伺服器
智慧型建站系統
•
KM知識管理分類
(site map) 前線網路科技
e化平台
建站服務館
KM知識管理
前線網路科技
網路作業系統 Documents:5
回上一頁
48 網路作業系統 (5)
48-1
epoch 系統時間資訊的起止限制
48-2
UNIX.基本操作指令
48-3
Port Socket TCP/IP Class
48-4
封鎖ip進入網站的設定與執行SOP
48-5
防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料
Author:::
ar101
,
as178
,
as998
,
•
網站導覽系統
as998) >
介紹說明
> •
原出處
•
留言
•
KM知識管理
>
網路主機
>
網路作業系統
>
48-5•
防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料
漫遊器
也可稱為網路爬蟲(Crawler or Spider)
什麼是漫遊器,做什麼用?
搜尋引擎網站或是檢索服務的公司,他們通常會設計漫遊器,自動到各大網站上擷取網頁資料,抓取大量的網頁後,在他們的站上提供檢索與搜尋,像是Google, Yahoo 等。主要技術分為兩大類:前端的全文檢索與後端的網頁蒐集。
您的網站對漫遊器是否照單全收?
好的漫遊器,可以方便您的網站有更多的曝光率,但是並非所有 Angent's robot 都是如此,有些漫遊器可能並非基於善意,可能有特殊目的地情報搜集,或可能因為設計不良,在您的網站爬行時可能造成您主機執行的效率大幅地降低,同樣地爬行後造成的可能後果,包括隱私的保障,資訊安全等等問題,是絕對不能被忽略的。
使用robots.txt 來限制
robots.txt 檔案可限制檢索網頁的搜尋引擎漫遊器 (即所謂的 "bot")。 這些 bot 是自動的,在它們存取網站的網頁之前,會先檢查是否有防止它們存取特定網頁的 robots.txt 檔案存在。
只有在您的網站包含了您不希望搜尋引擎建立索引的內容時,您才會需要 robots.txt 檔案。 如果您希望搜尋引擎為您網站的所有內容建立索引,就不需要 robots.txt 檔案 (甚至也不需要空白的 robots.txt 檔案)。
如果整個網站都要防所有的網路爬蟲,robots.txt 必須存放在網域的根目錄,並命名為 robots.txt。
User-agent: * Disallow: /
防止某個angent's robot 例如 YodaoBot,建立 robots.txt 以 UTF-8 格式儲存並放在網站上不要被 crawler or sipder 漫遊的目錄上。
User-Agent: YodaoBot
Disallow: /
大部分網路漫遊器都遵守這個標準協定,以將 web 伺服器或目錄排除在索引之中。如需更多有關 robots.txt 的資訊,請參閱以下網址:
http://www.robotstxt.org/wc/norobots.html
必要的時候採用可以封鎖的方式
在系統上使用 iptable 來封ip
作者管理
介紹說明編輯
|
KM
prev 48-4:
封鎖ip進入網站的設定與執行SOP
|
站內檢索
建站服務
所有
顧問諮詢eROOM
合作
留言
e化業務
e化專欄
互連
KM知識庫
最佳瀏覽模式 IE6.0以上版本 解析度1280X1024
設計:前線網路科技
KM+IWBS (知識管理系統+e化工作平台)©2021 areA