Журналы
Email: Пароль: Войти Регистрация
Содержание журнала, редсовет, редколлегия, информация об обложке.

Table of contents, editorial board, editors, information on cover.
Чтобы оставаться конкурентноспособным сегодня в телекоммуникационном бизнесе, необходимо определять клиентов, которые недовольны предоставляемыми услугами, поэтому прогнозирование оттока стало актуальной проблемой в данной сфере. В этой статье рассмотрены основные современные алгоритмы машинного обучения, которые применялись для решения этой задачи, включая дерево принятия решений (DT – Decision Trees), наивный байесовский классификатор (NB – Naive Bayes Classifier), случайный лес (RF – Random Forest), искусственные нейронные сети (NN – Artificial Neural Network), метод k-ближайших соседей (KNN – K-Nearest Neighbors), линейный дискриминантный анализ (LDA – Linear Discriminant Analysis), метод опорных векторов (SVM – Support Vector Machine) и их ансамблирование (бэггинг и бустинг) с целью продемонстрировать превосходство новой технологии CatBoost в мерах эффективности классификаторов. Для достижения цели была проведена классификация данных и выявлены конкретные преимущества метода CatBoost в сравнении с другими на основе полученных результатов.
Для проведения исследования нами были проанализированы четыре базы данных: 3 датасета находятся в открытом доступе и 1 датасет, предоставленный российской мобильной компанией. Зачастую размерность этих баз данных высока, что приводит к ряду проблем (в том числе несбалансированности классов, корреляции параметров), которые решаются методом уменьшения размерности: метод главных компонент (PCA – Principal Component Analysis).
Полученные результаты сравниваются между собой, а также с результатами, представленными другими исследователями на основе открытых баз данных. Эффективность классификаторов оценивается с помощью таких мер, как площадь под кривой (AUC), точность, F1-мера и время. С. 5-23.

In order to remain competitive today in the telecommunications business, it is necessary to identify customers who are dissatisfied with the services provided. Therefore, forecasting subscriber churn has become an essential issue in this area.
This article overviews different machine learning techniques including Decision Trees (DT), Naive Bayes Classifier (NB), Random Forest (RF), Artificial Neural Network (NN), K-Nearest Neighbors (KNN), Linear Discriminant Analysis (LDA), Support Vector Machine (SVM) and their ensembles (bagging and boosting) in order to demonstrate the superiority of the CatBoost technology in gaging the effectiveness of classifiers. To achieve the goal, data was classified and the specific advantages, when compared to others, of the CatBoost method were revealed based on obtained results.
For the study, we analyzed four databases: 3 datasets are in open access and 1 dataset was provided by a Russian mobile company. Often, the dimension of these databases is high, which leads to a number of problems (including class imbalances, parameter correlations), which are solved by employing the dimensionality reduction method: Principal Component Analysis (PCA).
The results obtained are compared with each other as well as with the results presented by other researchers based on open databases. The effectiveness of classifiers is evaluated using measures such as the area under the curve (AUC), accuracy, F1-measure, and time.

Ключевые слова: анализ данных, машинное обучение, балансировка данных, обработка данных, ансамбли моделей.
Keywords: data mining, machine learning, data balancing, data preparation, ensemble.
Предложен метод обработки данных для оценки погрешности измерения шкалированных (тестовых) баллов. Он включает в себя разделение заданий на два параллельных варианта (полутеста), масштабирование первичных баллов полутестов до эффективных первичных баллов по полному тесту и преобразование их в шкалированные тестовые баллы. Показано, что метод позволяет с высокой точностью оценить погрешность измерения.
Предложен подход к визуализации данных, который использует удаление части данных, соответствующих наиболее редким значениям. В случае сильно зашумленных данных этот метод помогает устранить вклад нетипичных значений и обеспечивает значительное увеличение наглядности графиков рассеяния. С. 24-40. (на англ.)

A data processing method is proposed for estimating the measurement error of scaled test scores; this involves scaling half-test raw scores to effective full-test raw scores and converting them to scaled test scores. It is shown that the method allows to estimate the measurement error with high accuracy.
The proposed approach to data visualization involves the removal of the part of the data corresponding to the rarest values. In the case of very noisy data, this method helps to eliminate the contribution of atypical values and provides a significant increase in the visibility of scatter plots.

Ключевые слова: обработка данных, визуализация данных, компьютерное тестирование.
Keywords: data processing, data visualization, computer aided assessment.
Проет, описываемый в настоящей статье, предназначен для исполнения старшеклассниками (а возможно - студентами младших курсов в качестве курсовой работы). Важно отметить, что реализация первой части проекта (компьютерной программы, решающей конкретную раскладку пасьянса) представляет собой весьма незначительную часть работы, предлагаемой для выполнения в этом проекте. Однако и эта часть - создание компьютерной программы для решения конкретной раскладки - тоже является задачей, относящейся к искусственному интеллекту.
В качестве основного критерия качества программы-решателя мы предлагаем использовать процент решения ею случайно сгенерированных раскладок, причём решение должно быть осуществлено без возможности взятия хода назад. Для программирования решения некоторой заданной раскладки мы предлагаем смоделировать процесс решения этой задачи человеком, мышление которого сильно отличается от «мышления» компьютера, в частности, отличатся объёмом запоминаемой информации. Для этого моделирования запрещается, например, программе запоминать фишки, которые уже вышли из игры.
Мы рассматриваем только «заведомо разрешаемые» раскладки. В качестве первого варианта (то есть в качестве начала реализации), мы предлагаем ученику реализовать программу, которая только решает раскладки, полученные случайным заполнением - заполнением пустого поля «с конца». Возможный подход к реализации программы-решателя - применение генетических алгоритмов. Отметим, что даже в этом случае решатель можно назвать небольшой экспертной системой. Мы также кратко описываем в статье некоторые другие области искусственного интеллекта, знание и применение которых возможно в рассматриваемой задаче.
Ранее авторы уже предагали аналогичные проекты студентам младших курсов, было реализовано несколько из них, но бóльшая часть материала, описанного в статье, ещё не реализована, поэтому документ озаглавлен как научный проект для реализации. С. 41-51.

The project described in this article is intended to be performed by high school students (and possibly by undergraduate students as a term paper).
It is important to note that the implementation of the first part of the project (the computer program that solves the specific layout of the solitaire) is a very small part of the work proposed for implementation in this project. However, this part --- the creation of a computer program for solving a particular layout - is also a task related to artificial intelligence.
As a general criterion for the quality of the solver program, we propose to use the percentage of the solved layouts — which are randomly generated by the program --- with the condition that the solution was found without the possibility of taking a step back. To program the solution of a given layout, we propose to model the process of solving this problem by a person --- whose thinking is very different from the computer’s “thinking”, in particular, it will differ in the amount of information stored. For this simulation, for example, we prohibit the program to memorize the chips that have already left the game.
We consider only ``knowingly solvable'' solitaire layouts. As the first option (that is, the beginning for implementation), we suggest to the student to implement a program that solves the layouts obtained by random generation ``from the end''. A possible approach for the implementation of the solver program is the application of genetic algorithms. Note that even in this case, the solver can be called a small expert system. We also briefly describe in the article some other areas of artificial intelligence, the knowledge and application of which is possible in the task at hand.
Previously, the authors had already presented similar projects to undergraduate students, several of them were implemented, but most of the material described in the article has not yet been implemented; therefore, the document is entitled as a science project for implementation.

Ключевые слова: оптимизационная задача, пасьянс Мхаджонг, первый шаг в науке, искусственный интеллект.
Keywords: Mahjongg solitaire, optimization problem, the first step in science, artificial intelligence.
Проект InMotion в качестве одной из целей ставит создание новых учебных курсов для будущих инженеров по математическому моделированию и компьютерным технологиям моделирования сложных динамических систем. Новые учебные курсы базируются на учебниках и задачниках, разработанных участниками проекта. В будущем книги станут свободно доступными студентам как на английском, так и на русском языках. В этой статье дается краткая характеристика проекта и приводятся тексты только введений к учебникам. Помимо учебников уже разработаны дистанционные курсы, которые по окончании проекта будут свободно распространяться в интернете. О самом проекте и первых впечатлениях от разработанных новых курсов читайте в следующей статье. C.52-68.

The InMotion project sets as one of its goals the creation of new training courses for future engineers in mathematical modeling and computer technologies for modeling complex dynamic systems. New courses are based on textbooks and books of problems developed by project participants. In the future, books will be freely available to students in both English and Russian.
This article provides a brief description of the project and presents the original introductions to the books. In addition to textbooks, eLearning courses have already been developed, which at the end of the project will be freely distributed on the Internet. Details on the project itself and the first impressions of the new courses developed will be presented in a future article.

Ключевые слова: математическое и компьютерное моделирование, объектно-ориентированное моделирование, моделирование сложных динамических систем, Simulink, OpenModelica, SystemModeler, Rand Model Designer, ISMA.
Keywords: mathematical and computer modeling, object-oriented modeling, modeling of complex dynamical systems, Simulink, OpenModelica, SystemModeler, Rand Model Designer, ISMA.
Для пополнения баланса выберите страну, оператора и отправьте СМС с кодом на указанный номер. Отправив одну смс, вы получаете доступ к одной статье.
Закрыть