客服中心

幫助中心
備案專題
其他問題
資料文檔下載
支付問題
網站開發問題
數據庫問題
IDC托管問題
IDC租用問題
網站營銷問題
企業郵局問題
域名注冊問題
虛擬主機問題
云服務器問題

虛擬主機被搜索引擎爬蟲訪問耗費大量流量解決方法

問題場景:
客戶使用虛擬主機,網站被搜索引擎爬蟲訪問耗費大量流量和帶寬,如何處理。
解決方法:
可以通過在站點根目錄下創建 Robots.txt,Robots.txt 文件是網站的一個文件,搜索引擎蜘蛛抓取網站首先就是抓取這個文件,根據里面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑。
1. 首先,先了解一下目前搜索引擎和其對應的 User-Agent,如下:
搜索引擎         User-Agent
AltaVista        Scooter
baidu            Baiduspider
Infoseek         Infoseek
Hotbot           Slurp
AOL Search       Slurp
Excite           ArchitextSpider
Google           Googlebot
Goto             Slurp
Lycos            Lycos
MSN              Slurp
Netscape         Googlebot
NorthernLight    Gulliver
WebCrawler       ArchitextSpider
Iwon             Slurp
Fast             Fast
DirectHit        Grabber
Yahoo Web Pages  Googlebot
LooksmartWebPages Slurp 
 
2. Robots.tx t樣例代碼:
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: 
Disallow: /
2. 允許所有的搜索引擎訪問網站的任何部分
User-agent: 
Disallow:
例3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:
·         三個目錄要分別寫。
·         請注意最后要帶斜杠。
·         帶斜杠與不帶斜杠的區別。
例6. 允許訪問特定目錄中的部分url
實現a目錄下只有b.htm允許訪問
User-agent: *
Allow: /a/b.htm
Disallow: /a/
 

電話咨詢

請選擇對應客服進行溝通

  • 4000-666-272

    全國統一客服熱線

  • 028-6164-0828

    客服小組一

  • 028-8661-9097

    客服小組二

  • 028-6787-2288 轉2

    技術支持

電話咨詢

QQ咨詢

請選擇對應客服進行溝通

  • 800045268

    企業QQ

  • 1171881327

    客服小組一

  • 3085628

    客服小組二

QQ咨詢

微信咨詢

請選擇對應客服進行溝通

  • 微信小組1

  • 微信小組2

微信咨詢

提交工單

提交工單

公眾號

cf手游体验服 单双中特百分百高手论 篮球分盘即时指数 台州股票配资 秒速时时彩走势图软件 搜狐足球指数中心 北京11选5号码推荐 用传说灵魂怎么赚钱 电竞比分网1zplay api 秒速飞艇是骗局吗 北京快3 北单奖金 22选5好运三单式 多赢计划软件是骗人的 2018海南环岛赛赛程 vr彩票安卓 江西快三杀号技巧