ROBOTS.TXT คืออะไร

โดยปกติแล้วเว็บไซด์ที่ให้บริการทางด้านการค้นหาข้อมูลหรือทำ indexer ต่างๆอย่าง google.com, yahoo.com, bing.com และอื่นๆ นั้นจะมีการใช้งาน Bot ไปคอยไต่ (spidering หรือ crawling) ไปตามลิงค์ต่างๆในเว็บไซด์ที่อยู่ในโลก internet มี เพื่อทำการเก็บข้อมูลและเนื้อหาที่เกี่ยวข้องของเว็บไซด์นั้นๆ เพื่อให้นำเสนอข้อมูลได้ตรงกับที่ user ต้องการค้นหามากที่สุด ซึ่งบางครั้ง bot เหล่านั้นก็เข้าไปใน link หรือ path ที่เว็บไซด์ไม่ต้องการอ เช่น path เก็บ backup file, path เก็บข้อมูลสำคัญของระบบ เป็นต้น และยิ่งด้วยปัจจุบัน Bot เหล่านั้นมีการทำ caching เว็บไซด์ที่ถูกไต่เหล่านั้นด้วย ทำให้ข้อมูลที่เว็บไซด์เก็บเป็นความลับหรือไม่ต้องการให้ใครรู้ (มักเกิดจากความผิดพลาดของผู้ดูแลเว็บไซด์นั้นๆ) จะถูกสามารถเข้าถึงและอ่านได้จากเว็บไซด์ให้บริการการค้นหาข้อมูลเหล่านั้นไปโดยปริยาย จึงได้มีการคิดการประกาศ Robots.txt ขึ้น (คิดและเริ่มใช้งานในปี 1994) เพื่อเป็นการประกาศว่ามี link ใดหรือ path ใดบ้างที่ไม่อนุญาตให้ Bot เหล่านั้นเข้าไป ซึ่ง Bot เหล่านั้นก็จะทราบดีและไม่เข้าถึง path ที่ถูกประกาศไว้ โดยตัวอย่างของ robots.txt คือ

User-agent: *
Disallow: /
โดยตำแหน่งที่ robots.txt จะอยู่ที่ path ของ root directory เป็น http://www.example.com/robots.txt นั่นเอง
โดยตัวอย่างการระบุ path ที่ไม่อนุญาตให้เข้าคือ
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
เมื่อ Bot ได้อ่าน Bot จะไม่เข้าถึง path /cgi-bin , /tmp, /~joe/ นั่นเอง
หากเราต้องการป้องกันให้ไม่มีใครอ่าน robots.txt หรือ .txt ใดๆได้เลย ยกเว้น Google bot เราสามารถกำหนดได้ใน .htaccess หรือ configuration ของ Apache เป็น
<Files ~ "\.(tpl|txt)$">
  Order deny,allow
  Deny from all
  SetEnvIfNoCase User-Agent "Googlebot" goodbot
  Allow from env=goodbot
</Files>

Comments

Popular Posts