Данная статья посвящена технологиям веб-скрейпинга (парсинга сайтов) для Node.js, применяемые в задаче агрегации сведений и оценки параметров грузовых маршрутов посредством извлечения данных из открытых источников. Задача веб-скрейпинга возникает во множестве различных контекстов как научных, так и промышленных. Задачи веб-скрейпинга имеют как широкое практическое применение, так и значительный образовательный аспект. Тем не менее, существующие материалы, посвящённые веб-скрейпингу разрозненны и не структурированы. В данной работе на примере решения научно-технической задачи агрегации сведений и оценки параметров грузовых маршрутов посредством извлечения данных из открытых источников представлен обзор технологий парсинга сайтов на Node.js, описана классификация сайтов по сложности, приведена систематизация особенностей сайтов, которые являются препятствием для парсинга, и возможные пути их обхода. Таким образом, достигается дидактическая цель данной статьи систематизировать материал по парсингу веб-сайтов. С. 41-56.
This article is devoted to the technologies of web scraping (web crawling) for Node.js, used in the task of aggregating information and estimating the parameters of cargo routes by extracting data from open sources. The challenge of web scraping occurs in many different contexts, both scientific and industrial. The tasks of web scraping have both wide practical applications and a significant educational aspect. However, the existing material on web scraping is scattered and unstructured. In this paper, using the example of solving the scientific and technical problem of aggregating information and evaluating the parameters of cargo routes by extracting data from open sources, an overview of the technologies for web scraping on Node.js is presented, the classification of sites by complexity is described, the systematization of the features of sites that are an obstacle to scrapinf is given, and possible ways to bypass them. Thus, the didactic goal of this article is achieved to systematize the material on parsing websites.
Ключевые слова: веб-скрейпинг, парсинг, веб-технологии, Node.js, HTML.
Keywords: web scraping, web crawling, web technologies, Node.js, HTML.