網站導覽系統

建站服務館 | KM知識庫 | 客戶支援
  前線網路科技
營業項目   基礎 5 主機 3 系統 6 設計 4 企業 3 門市 7 專業人士 3 組織 3 程序管控 3 市場行銷 5 管理 7
部門    業務服務 11 技術支援 8 系統管理 17 研究發展 6 營運管理 7
   網站導覽系統
   Welcome 使用者 訪客    2020年一月19日(日)00:18
   首頁  |  e化專欄  |  建站服務  |  建站服務評選  |  合作  |  留言  |  工具書  |  員工  |  更多  |   客戶專區  | 


    防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料
  • 相關分類
網路作業系統 (2)
  1. 封鎖ip進入網站的設定與執行SOP  
  2. 防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料  
資訊安全 (4)
  1. 網站用率、行為分析、訪客IP來自哪裡-變頻式掃瞄訪客記錄~add inetnum  
  2. 封鎖ip進入網站的設定與執行SOP  
  3. 防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料  
  4. 資訊安全-hacker ACT  

  • 其他
技術開發 (5)
智慧型建站系統 (1)
FAQ (2)

e化專欄 more
管理
系統管理

防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料 留言 | eDM e化專欄分類 | 回上一頁
e化專欄

    漫遊器 也可稱為網路爬蟲(Crawler or Spider)
  • 什麼是漫遊器,做什麼用?
    搜尋引擎網站或是檢索服務的公司,他們通常會設計漫遊器,自動到各大網站上擷取網頁資料,抓取大量的網頁後,在他們的站上提供檢索與搜尋,像是Google, Yahoo 等。主要技術分為兩大類:前端的全文檢索與後端的網頁蒐集。
  • 您的網站對漫遊器是否照單全收?
    好的漫遊器,可以方便您的網站有更多的曝光率,但是並非所有 Angent's robot 都是如此,有些漫遊器可能並非基於善意,可能有特殊目的地情報搜集,或可能因為設計不良,在您的網站爬行時可能造成您主機執行的效率大幅地降低,同樣地爬行後造成的可能後果,包括隱私的保障,資訊安全等等問題,是絕對不能被忽略的。


    使用robots.txt 來限制
  • robots.txt 檔案可限制檢索網頁的搜尋引擎漫遊器 (即所謂的 "bot")。 這些 bot 是自動的,在它們存取網站的網頁之前,會先檢查是否有防止它們存取特定網頁的 robots.txt 檔案存在。

  • 只有在您的網站包含了您不希望搜尋引擎建立索引的內容時,您才會需要 robots.txt 檔案。 如果您希望搜尋引擎為您網站的所有內容建立索引,就不需要 robots.txt 檔案 (甚至也不需要空白的 robots.txt 檔案)。

  • 如果整個網站都要防所有的網路爬蟲,robots.txt 必須存放在網域的根目錄,並命名為 robots.txt。
    User-agent: * Disallow: /

  • 防止某個angent's robot 例如 YodaoBot,建立 robots.txt 以 UTF-8 格式儲存並放在網站上不要被 crawler or sipder 漫遊的目錄上。
    User-Agent: YodaoBot
    Disallow: /

  • 大部分網路漫遊器都遵守這個標準協定,以將 web 伺服器或目錄排除在索引之中。如需更多有關 robots.txt 的資訊,請參閱以下網址:http://www.robotstxt.org/wc/norobots.html


    必要的時候採用可以封鎖的方式
  • 系統上使用 iptable 來封ip

















  延伸閱讀
防止網路爬蟲(Crawler or Spider)的bot在網站擷取資料
« 交叉比對 » 建立Portal 站 (入口網站) 基本的要求 / 資訊安全-hacker ACT / 封鎖ip進入網站的設定與執行SOP /
比對
8800
建立Portal 站 (入口網站) 基本的要求 (7660)
資訊安全-hacker ACT (7348)
封鎖ip進入網站的設定與執行SOP (6095)
訪次統計分析-FAQ (5680)
站內檢索,快速搜尋功能 (3586)
網站用率、行為分析、訪客IP來自哪裡-變頻式掃瞄訪客記錄~add inetnum (3096)
人氣導覽,就是一份民意調查 OLAP(線上即時分析)工具 (2720)
智慧型系統的站務管理-資訊使用狀況 (2371)
• ar001: Search Tags 搜尋標籤研究與運用 (40)
• ab001: 建立社團-組織型網站的問題點 (16)
statics-訪次統計分析 (3111)



Tags

crawler , 封鎖 , 資訊安全 , 隱私 , user , 後端 , 搜尋引擎 , 伺服器 , 主機 , google , 效率 , web , 自動 , 設計 , 服務 , 系統 , 資料 , 網路 ,
註解 資訊安全
DEF 系統 網路 設計 自動 搜尋引擎 搜尋 後端 隱私 google



prev 9: 封鎖ip進入網站的設定與執行SOP | next 11: 資訊安全-hacker ACT
sec

作者管理 介紹說明編輯 | e化專欄分類編輯 (網路作業系統|資訊安全) 


   Welcome 使用者 訪客
網站導覽系統    供需雙向互動、系統化的內容網站、系統化分層授權管理、內容來源由下而上、後台(端)資訊流自動化管控
Powered areA Web Tech.(cdv.110_:9-4-4----)CDMS