Підручник із Семальта про те, як викреслити найвідоміші веб-сайти з Вікіпедії

Динамічні веб-сайти використовують файли robots.txt для регулювання та контролю будь-яких операцій зі скребки. Ці веб-сайти захищені умовами та політикою веб-скреблінгу, щоб запобігти блоггерам і маркетологам не брати на сайт свої сайти. Для початківців веб-скребки - це процес збору даних з веб-сайтів та веб-сторінок, а також збереження їх у читаних форматах.
Отримати корисні дані з динамічних веб-сайтів може бути громіздким завданням. Для спрощення процесу вилучення даних веб-майстри використовують роботи, щоб якнайшвидше отримати необхідну інформацію. Динамічні сайти містять директиви "дозволити" та "заборонити", які говорять роботам про те, де дозволено чищення, а де ні.
Вискоблювання найвідоміших сайтів з Вікіпедії
Цей підручник охоплює тематичне дослідження, яке проводив Брендан Бейлі на місцях скребки з Інтернету. Брендан розпочав зі збирання списку найпотужніших сайтів із Вікіпедії. Основною метою Брендана було визначити веб-сайти, відкриті для вилучення веб-даних, на основі правил robot.txt. Якщо ви збираєтеся скребки сайту, подумайте про відвідування умов надання веб-сайту, щоб уникнути порушення авторських прав.
Правила скреблінгу динамічних сайтів
За допомогою інструментів для вилучення даних в Інтернеті скребтування сайтів - це лише питання. Детальний аналіз того, як Брендан Бейлі класифікував сайти Вікіпедії та використовувані ним критерії, описаний нижче:
Змішаний
Згідно з прикладом дослідження Брендана, більшість популярних веб-сайтів можна згрупувати як змішані. На круговій діаграмі веб-сайти із сумішшю правил складають 69%. Google robots.txt є прекрасним прикладом змішаного robots.txt.

Повне Дозволити
З іншого боку, Повна кількість дозволів становить 8%. У цьому контексті "Повністю дозволити" означає, що файл сайту robots.txt надає автоматизованим програмам доступ до скребки всього сайту. SoundCloud - найкращий приклад. Інші приклади веб-сайтів "Повністю дозволити" включають:
- fc2.comv
- popads.net
- uol.com.br
- livejasmin.com
- 360.cn
Не встановлено
Веб-сайти з "Не встановлено" складали 11% від загальної кількості представлених на графіку. Не встановити означає дві наступні речі: або на сайтах відсутній файл robots.txt, або на сайтах відсутні правила для "Користувач-агент". Приклади веб-сайтів, де файл robots.txt "Не встановлено", включають:
- Live.com
- Jd.com
- Cnzz.com
Повна заборона
Повні сайти заборонити забороняють автоматизованим програмам видаляти їх сайти. Linked In - чудовий приклад сайтів "Повна заборона". Інші приклади Повних сайтів із забороною доступу включають:
- Naver.com
- Facebook.com
- Soso.com
- Taobao.com
- Т.co
Веб-скребтування - найкраще рішення для отримання даних. Однак скребкування деяких динамічних веб-сайтів може поставити вас у великі проблеми. Цей підручник допоможе вам зрозуміти більше про файл robots.txt та запобігти проблемам, які можуть виникнути в майбутньому.