В чем разница между способами съемов позиций XML/HTML?
Текст ниже был взят со страницы https://help.seowork.ru/article/20158, так как SEOWORK описал максимально подробно.
Собирать данные по позициям в Яндексе можно несколькими способами, основные ― XML и парсинг живой выдачи (HTML). Давайте разберемся, в чем разница, какие плюсы и минусы есть у каждого варианта.
Яндекс XML. Официальная позиция Яндекса: XML — возможность собирать данные о поисковых запросах к Яндексу и публиковать эту информацию в открытом доступе. Данные выдаются в едином формате, и зачастую они не совпадают с реальной выдачей на 100% (в официальных документах Яндекс не гарантирует точного соответствия результатов поиска, полученных с помощью сервиса Яндекс.XML, результатам, полученными с помощью поисковой системы Яндекса)
Парсинг выдачи (HTML) производится непосредственно по результатам выдачи по конкретному запросу. Этот способ технически сложнее, дольше и дороже. Тем не менее, данных полученных таким методом значительно больше, и они ценнее для аналитики ― это 100% повторение поведения пользователя с учетом множества факторов, которые не отдаются в XML.
Но вместе с тем, для этого метода требуется колоссальная техническая база: чтобы получать данные по большому объему семантики, требуется много парсеров. Они задействуют очень большой объем нагрузки на систему и нуждаются в постоянном мониторинге техническими специалистами. Иными словами, это все очень не просто!
Плюсы/Минусы в способах съема позиций
Основные и бесспорные плюсы XML ― простота, скорость и дешевизна получения данных.
Минусы серьезные:
- Достоверность информации. В XML, которую отдает Яндекс, есть расхождения с реальной выдачей. С точки зрения аналитики данных, это критично. Особенно это заметно сейчас: в ecommerce каждый день с рынка уходят бренды или компании, и поисковая выдача меняется каждую неделю.
- Скудность информации. По данным из XML нет возможности видеть полную картину в поисковой выдаче. А сейчас, как никогда, на CTR влияют и количество блоков рекламы, и наличие нулевой позиции, и наличие колдунщиков ― то есть, даже находясь на 1 позиции, можно получать довольно мало переходов.
Парсинг реальной выдачи позволяет оценить полную картину, а именно:
- получать максимальное свежие и “чистые” данные, на 100% совпадающие с реальной поисковой выдачей
- оперативно отслеживать динамику по каждому запросу в необходимой для бизнеса глубине
- использовать дополнительные данные: есть ли реклама в выдаче, сниппеты, title, нулевая позиция, используются ли какие-то еще сервисы Яндекса на странице результатов
- анализировать конкурентов в режиме realtime (практически)
Главные минусы парсинга ― высокая стоимость, потребность в больших мощностях для объемных сайтов и сложность их получения.