Підручник із Семальта про те, як викреслити найвідоміші веб-сайти з Вікіпедії

Динамічні веб-сайти використовують файли robots.txt для регулювання та контролю будь-яких операцій зі скребки. Ці веб-сайти захищені умовами та політикою веб-скреблінгу, щоб запобігти блоггерам і маркетологам не брати на сайт свої сайти. Для початківців веб-скребки - це процес збору даних з веб-сайтів та веб-сторінок, а також збереження їх у читаних форматах.

Отримати корисні дані з динамічних веб-сайтів може бути громіздким завданням. Для спрощення процесу вилучення даних веб-майстри використовують роботи, щоб якнайшвидше отримати необхідну інформацію. Динамічні сайти містять директиви "дозволити" та "заборонити", які говорять роботам про те, де дозволено чищення, а де ні.

Вискоблювання найвідоміших сайтів з Вікіпедії

Цей підручник охоплює тематичне дослідження, яке проводив Брендан Бейлі на місцях скребки з Інтернету. Брендан розпочав зі збирання списку найпотужніших сайтів із Вікіпедії. Основною метою Брендана було визначити веб-сайти, відкриті для вилучення веб-даних, на основі правил robot.txt. Якщо ви збираєтеся скребки сайту, подумайте про відвідування умов надання веб-сайту, щоб уникнути порушення авторських прав.

Правила скреблінгу динамічних сайтів

За допомогою інструментів для вилучення даних в Інтернеті скребтування сайтів - це лише питання. Детальний аналіз того, як Брендан Бейлі класифікував сайти Вікіпедії та використовувані ним критерії, описаний нижче:

Змішаний

Згідно з прикладом дослідження Брендана, більшість популярних веб-сайтів можна згрупувати як змішані. На круговій діаграмі веб-сайти із сумішшю правил складають 69%. Google robots.txt є прекрасним прикладом змішаного robots.txt.

Повне Дозволити

З іншого боку, Повна кількість дозволів становить 8%. У цьому контексті "Повністю дозволити" означає, що файл сайту robots.txt надає автоматизованим програмам доступ до скребки всього сайту. SoundCloud - найкращий приклад. Інші приклади веб-сайтів "Повністю дозволити" включають:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Не встановлено

Веб-сайти з "Не встановлено" складали 11% від загальної кількості представлених на графіку. Не встановити означає дві наступні речі: або на сайтах відсутній файл robots.txt, або на сайтах відсутні правила для "Користувач-агент". Приклади веб-сайтів, де файл robots.txt "Не встановлено", включають:

  • Live.com
  • Jd.com
  • Cnzz.com

Повна заборона

Повні сайти заборонити забороняють автоматизованим програмам видаляти їх сайти. Linked In - чудовий приклад сайтів "Повна заборона". Інші приклади Повних сайтів із забороною доступу включають:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • Т.co

Веб-скребтування - найкраще рішення для отримання даних. Однак скребкування деяких динамічних веб-сайтів може поставити вас у великі проблеми. Цей підручник допоможе вам зрозуміти більше про файл robots.txt та запобігти проблемам, які можуть виникнути в майбутньому.