В статье рассматриваются алгоритмы прямого и жадного синтеза минимального графа смежности. Проведен сравнительный статистический анализ времени работы указанных алгоритмов на основе вычислительных экспериментов со специально сгенерированными наборами входных данных. Для генерации тестовых данных был разработан алгоритм генерации нагрузок вершин графа смежности с заданными характеристиками. Результаты статистического анализа отношений скорости работы двух алгоритмов позволили выделить три поддиапазона мощности наборов вершин графов смежности: в поддиапазоне 5–35 жадный алгоритм работает существенно быстрее прямого, в поддиапазоне 60–105 прямой алгоритм работает существенно быстрее жадного, а в под диапазоне 35–60 выигрыш в скорости зависит от конкретного набора данных. Кроме того, можно ожидать, что в диапазоне 5–60 будет обнаружено некоторое число статистических выбросов, сигнализирующих об особенностях в соответствующих наборах исходных данных. Статья также имеет дидактическую цель: обеспечить читателя последовательным описанием мотивированного применения ряда статистик в задаче сравнения двух алгоритмов и особенностей интерпретации полученных показателей. Статистический подход к сравнительной оценке мотивирован тем, что теоретические оценки сложности обсуждаемых алгоритмов не очевидны, зависят от скрытых особенностей исходных данных и не вычисляются по ним непосредственно. С. 3-18.
The paper considers straightforward and greedy minimal joint graph synthesis algorithms. Comparative statistical analysis of runtime was done based on experiments run on specially generated datasets. A new algorithm for generating the loads with certain characteristics was developed. Statistical analysis pointed out three subintervals of joint graph vertix set cardinality (number of elements): that of 5–35 where the greedy algorithm had sufficiently higher speed than the straightforward algorithm did, that of 60–105 the straightforward algorithm had sufficiently higher speed than the greedy algorithm did, and that of 35–60 where the algorithms advantage in their speed dependtd on each specific initial dataset. According to rank statistics, there may be detected a few autliers in the subinterval of 5–60. The paper has a didactic pupose as well.
Ключевые слова: представление неопределенности, алгебраические байесовские сети, вероятностные графические модели, фрагмент знаний, знания с неопределенностью, логико-вероятностный вывод, статистическое исследование сложностей алгоритмов.
Keywords: uncertainty representation, algebraic Bayesian networks, probabilistic graphical models, knowledge pattern, knowledge with uncertainty, probabilistic-logic inference, statistical indicators for algorithm's complexity.
В статье обсуждаются результаты пилотного исследования, нацеленного на выявление взаимосвязи между типами постов, которые пользователь размещает на своей странице ВКонтакте, и его личностными особенностями, определенными при помощи психологических методик. Рассматриваются возможности применения результатов анализа аккаунтов пользователей социальных сетей в качестве основы первичной экспресс-диагностики при работе с учебными группами. Кроме того, приводятся примеры как уже решенных, так и открытых задач автоматизации, возникающих в процессе разработки инструментария. С. 3-13.
In the paper we discussed the results of pilot study aimed to determine associations between type of user's posts in social network VKontakte and his/her psychological traits. We considered the possible ways to apply user account analysis as a rapid primary test in student groups. We provided examples of both open and already closed automation tasks that appeared during the development of the research tool.
Ключевые слова: социальные сети, психологические особенности, цифровые следы, автоматизация исследований.
Keywords: social networks, psychological traits, digital footprints, research automation.
Актуальной задачей анализа защищенности пользователей является разбиение пользователей информационной системы на группы, например, соответствующие удаленным офисам организации, и анализ таких групп пользователей. В статье представлен один из модулей прототипа программного комплекса, реализующий анализ защищенности пользователей информационных систем от социоинженерных атак. С. 52-60.
The actual task of users’ protection analysis is to split the users of the information system into subgroups, for example, corresponding to the remote offices of the organization, and analysis of these subgroups of users. The article presents one of the modules of the software prototype that implements the users’ of information systems protection analysis from socio-engineering attacks.
Ключевые слова: информационная безопасность, социоинженерные атаки, пользователи, информационная система, конфиденциальная информация.
Keywords: information security, social engineering attacks, users, information system, confidential data.
В статье предложен инкрементальный алгоритм, ускоряющий синтез минимального графа смежности по исходному минимальному графу смежности и новой вершине с заданной допустимой нагрузкой; доказана корректность работы такого алгоритма. Выполнен сравнительный анализ статистических оценок сложности реализаций предложенного алгоритма и двух известных алгоритмов синтеза минимального графа смежности: жадного и прямого; результаты вычислительных экспериментов представлены в виде графиков, снабжены комментариями и выводом. В целом, на наборах со средним и большим числом вершин инкрементальный алгоритм в 3-6 раз оказался быстрее, чем прямой, и в 10-50 раз быстрее, чем жадный. На наборах с небольшим числом вершин скорость алгоритмов отличается не сильно. Отмечено, что, чем больше в наборе вершин с нагрузкой 5-9 символов, тем более велик разброс отношения скоростей сравниваемых алгоритмов. В статье также достигнуты дидактические цели: в контексте синтеза минимальных графов смежности продемонстрировано обоснованное применение методов инкрементализации алгоритмов, статистического анализа скорости работы реализаций алгоритмов, визуализации данных, полученных в результате проведения вычислительных экспериментов. С. 3-18.
The paper provides the description of an incremental algorithm that accelerates a minimal joint graph upgrade when a new node with a correct load is inserted. The algorithms correctness is proven. We compare relative performance statistical estimates for the new incremental algorithm and two known greedy and streightforward algorithms that implement minimal joint graph synthesis. The computational experiments results are represented with plots, discussed and summarized. For the middle and large sized sets of loads, the incremental algorithm is 3-6 times faster than the streight-for-ward one and 10-50 times faster than the greedy one. For the small sized sets of loads, the algorithms permormance differs less dramatically. The relative performance variation of compared algorithms are the larger the higher fraction of loads with 5-9 symbols the set of loads has. The paper also reaches didactical goals: in the context of minimal joint grah synthesis, we demonstrate a rational application of the algorithm incrementation, an example of relative algorithmical performance statistical estimates, an approach to the visualisation of performance comparison compuational experiments.
Ключевые слова: граф смежности, вероятностные графические модели, инкрементальный алгоритм, статистическая оценка сложности, структурное обучение, машинное обучение.
Keywords: joint graph, probabilistic graphical model, incremental algorithm, performance statistical estimate, structure learning, machine learning.
В статье описывается студенческий исследовательский проект по предсказанию класса поста в социальной сети на основе его текстового содержания. Обсуждаются особенности проекта как составной части траектории обучения методам анализа данных, в том числе методам и инструментам анализа текста, часто не включаемым в курсы по машинному обучению. Описана постановка задачи, этапы ее решения, последовательность рассмотрения новых методов как способов решения возникающих у студентов проблем, а также используемый инструментарий среды R. Приведены возможности расширения задачи и ее модификации в зависимости от уровня подготовки студентов. С. 49-64.
The article describes a student research project on predicting the class of a post on a social network based on its textual content. The features of the project are discussed as an integral part of the trajectory of teaching data analysis methods, including text analysis methods and tools that are often not included in machine learning courses. The formulation of the problem, the stages of its solution, the sequence of considering new methods as a way for solving students' problems, as well as the used tool of the R environment are described. The possibilities of expanding the task and its modifications depending on the level of training of students are given.
Ключевые слова: проблемно-ориентированное обучение, социальные сети, машинное обучение, анализ текста, классификация, автоматизация исследований, язык R.
Keywords: problem-based learning, social networks, machine learning, text analysis, classification, research automation, R language.
Статья направлена на демонстрацию практического приложения теории графов как подраздела теоретических основ информатики в решении одной из междисциплинарных задач — описании структуры молекулы сульфида кадмия с применением методов и индексов хемиоинформатики. В статье представлены результаты вычислений atom-bond connectivity индекса (ABC), геометрического и арифметического индекса GA, обобщенного индекса Рандича, GA5 и ABC4, загребских индесов для химического графа сульфида кадмия (CdS). Топологические индексы для сульфида кадмия рассматриваются впервые, хотя сама по себе задача расчета данных индексов не нова. Актуальность результатов подчеркивается тем, что сульфид кадмия широко используют в различных областях, таких как оптоэлектроника, фотоприемники, фоторезисторы и т. д. С. 44-54.
The article is aimed at demonstrating the practical application of graph theory as a subsection of the theoretical foundations of computer science in solving one of the interdisciplinary problems - describing the structure of the cadmium sulfide molecule using methods and indices of chemoinformatics. The article presents the results of calculations of the atom-bond connectivity index (ABC), of the geometric and arithmetic index GA, of the generalized Randic index, GA5 and ABC4, of the Zagreb indices for the chemical graph of cadmium sulfide (CdS). Topological indices for cadmium sulfide are considered for the first time, although the task of calculating these indices is not new in itself. The relevance of the results is emphasized by the fact that cadmium sulfide is widely used in various fields, such as optoelectronics, photodetectors, photoresistors, etc.
Ключевые слова: топологический индекс, сульфид кадмия, хемоинформатика, теория графов, молекулярный дескриптор, индекс рандича, загребский индекс.
Keywords: topological index, cadmium sulfide, chemoinformatics, graph theory, molecular descriptor, randić index, zagreb index.
В статье описывается подход к решению задачи сопоставления профилей пользователей разных социальных сетей и идентифицикации тех из них, которые принадлежат одному человеку. Предложен соответствующий метод, основанный на сопоставлении социального окружения и значений атрибутов профиля аккаунтов в двух разных социальных сетях. Проведено сравнение результатов применения различных моделей машинного обучения к решению данной задачи. Новизна подхода заключается в предложенном новом комбинировании различных методов и приложении к новым социальным сетям. Практическая значимость исследования заключается в автоматизации процесса определения принадлежности профилей в различных социальных сетях одному пользователю. Данные результаты могут быть применены в задаче построения мета-профиля пользователя информационной системы для последующего построения профиля его уязвимостей, а также в других исследованиях, посвящённых социальным сетям. С. 29-43.
The article describes the approach to solving the problem of comparing user profiles of different social networks and identifying those that belong to one person. An appropriate method is proposed based on a comparison of the social environment and the values of account profile attributes in two different social networks. The results of applying various machine learning models to solving this problem are compared. The novelty of the approach lies in the proposed new combination of various methods and application to new social networks. The practical significance of the study is to automate the process of determining the ownership of profiles in various social networks to one user. These results can be applied in the task of constructing a meta-profile of a user of an information system for the subsequent construction of a profile of his vulnerabilities, as well as in other studies devoted to social networks.
Ключевые слова: социальные сети, идентификация пользователя, социоинженерные атаки, машинное обучение, информационная безопасность, защита пользователя, профиль уязвимостей пользователя.
Keywords: social networks, user identification, social engineering attacks, machine learning, information security, user protection, user vulnerability profile.
В статье рассматриваются свойства семейств минимальных графов смежности. Вводится понятие неудлиняющих пути графов. Формулируется и доказывается критерий дополнительности для семейств магистрально связных графов-деревьев. Теоретическая и практическая значимость заключается в изучении структур, которые будут лучше всего подходить для работы с алгебраическими байесовскими сетями и, таким образом, становятся одной из целей их машинного обучения. Отметим новизну взгляда на задачу, а точнее, на изучение вопроса, для каких семейств графов существует набор нагрузок, семейство МГС над которым в точности совпадает с заданным. С. 28-37.
The article discusses the properties of families of minimal joint graphs. The concept of non-extenuating paths of graphs is introduced. The criterion of additionality for families of backbone connected graph trees is formulated and proved. Theoretical and practical significance lies in the study of structures that will be best suited for working with algebraic Bayesian networks and, thus, become one of the goal of their machine learning. We note the novelty of looking at the problem, or rather, studying the question for which families of graphs there is a set of loads, the family of MGS over which exactly coincides with the given one.
Ключевые слова: графы смежности, теория графов, инварианты на графах, алгебраические байесовские сети.
Keywords: derivative graph, antiderivative graph, adjacency graph, backbone graph property, Bayesian algebraic networks.
Статья направлена на обобщение понятий графа производной и первообразной графа для графов, обладающих магистральной связанностью. Сформулированы и доказаны теоремы о магистральной связности графа производной и о графе первообразной магистрально связных графов. Теоретическая и практическая значимость результата заключается в упрощении поиска удачной визуализации алгебраических байесовских сетей, которая способствовала бы выявлению особенностей их структуры, а также определению новых видов глобальных структур этих сетей. Такие структуры позволили бы хранить те же самые сведения, но использовать другие алгоритмы вывода, что упростило бы программную реализацию данной модели. Отметим, что сохранение свойства магистральной связности при нахождении графа производной рассматривается в этой статье впервые. С. 59-65.
The article is aimed at summarizing the concepts of a derivative graph and a primitive graph for graphs with backbone connectivity. Theorems are formulated and proved on the main connectedness of the graph of the derivative and on the primitive graph of the main connected graphs. The theoretical and practical significance of the result is to simplify the search for successful visualization of algebraic Bayesian networks, which would help to identify the features of their structure, as well as the definition of new types of global structures of these networks. Such structures would allow us to store the same information, but use other output algorithms, which would simplify the software implementation of this model. Note that maintaining the property of trunk connectivity when finding the graph of the derivative is considered in this article for the first time.
Ключевые слова: граф производной, первообразная графа, граф смежности, магистральное свойство графа, алгебраические байесовские сети.
Keywords: derivative graph, antiderivative graph, adjacency graph, backbone graph property, Bayesian algebraic networks.
В статье описывается подход к решению задачи сопоставления профилей пользователей разных социальных сетей и идентифицикации тех из них, которые принадлежат одному человеку. Предложен соответствующий метод, основанный на сопоставлении социального окружения и значений атрибутов профиля аккаунтов в двух разных социальных сетях. Проведено сравнение результатов применения различных моделей машинного обучения к решению данной задачи. Новизна подхода заключается в предложенном новом комбинировании различных методов и приложении к новым социальным сетям. Практическая значимость исследования заключается в автоматизации процесса определения принадлежности профилей в различных социальных сетях одному пользователю. Данные результаты могут быть применены в задаче построения мета-профиля пользователя информационной системы для последующего построения профиля его уязвимостей, а также в других исследованиях, посвящённых социальным сетям. С. 29-43.
The article describes the approach to solving the problem of comparing user profiles of different social networks and identifying those that belong to one person. An appropriate method is proposed based on a comparison of the social environment and the values of account profile attributes in two different social networks. The results of applying various machine learning models to solving this problem are compared. The novelty of the approach lies in the proposed new combination of various methods and application to new social networks. The practical significance of the study is to automate the process of determining the ownership of profiles in various social networks to one user. These results can be applied in the task of constructing a meta-profile of a user of an information system for the subsequent construction of a profile of his vulnerabilities, as well as in other studies devoted to social networks.
Ключевые слова: социальные сети, идентификация пользователя, социоинженерные атаки, машинное обучение, информационная безопасность, защита пользователя, профиль уязвимостей пользователя.
Keywords: social networks, user identification, social engineering attacks, machine learning, information security, user protection, user vulnerability profile.
В статье рассматриваются различные прикладные задачи, связанные c необходимостью оценки параметров поведения определенных групп на основе гранулярных данных (и более широко – гранулярных знаний). Кроме того, описываются проблемы, возникающие при попытке представить и обработать такие данные и знания в интеллектуальных системах, обозначены возможные пути решения указанных проблем. Также в статье перечисляются исследовательские задачи, стоящие в рассматриваемой области.
The paper considers applied computer science problems related to estimating socially significant behavior parameters in case of initial data or knowledge granularity. The computational and methodological issues arise in intelligent systems that represent and process such data and knowledge are discussed. Several approaches to the issues elimination are proposed. The paper also introduces open research questions related to modeling and estimating the considered type of behavior.
Ключевые слова: дефицит информации, гранулярность данных, знания с неопределенностью, модели поведения, сверхкороткие неточные ряды, оценки риска, оценки интенсивности.
Keywords: information deficiency, data granularity, uncertain knowledge, behavior models, super-short imprecise series, risk estimates, rate estimates.