Несмотря на стремительный рост как производительности, так и емкости запоминающих устройств, темпы роста количества вновь создаваемых данных существенно опережают возможности их хранения и, тем более, возможности обработки. В связи с этим попытки экстенсивного подхода, основанного на наращивании мощности вычислительных систем, не могут радикально решить возникающие проблемы. В статье обсуждаются актуальные классы аналитических задач обработки данных, извлечения информации и знаний и анализируются различные альтернативные подходы к их решению. Этот круг задач и подходов, часто неформально объединяемый под зонтиком Big Data, в последнее время характеризуется уже пятью V (Volume, Variety, Velocity, Veraсity and Value). Наиболее сложными и наиболее интересными представляются задачи, связанные с обеспечением скорости получения результатов обработки и оценки их надежности и корректности. С. 10-18.
In spite of rapid growth of both performance and capacity of available processing and storage devices, the amount of produced data significantly exceeds the capacity of available storage and available processing resources and this gap grows steely. Thus the problem cannot be resolved with scale-out approach. In this paper we discuss several classes of analytical processing, tasks, information and knowledge extraction and analyse alternative approaches to their solution. typically these problems are considered under informal umbrella of Big Data, which are characterised with 5 V: volume, variety, velocity, veracity, and value. The most important and challenging issues are the processing speed, reliability and quality of results.
Ключевые слова: большие данные, аналитические запросы, приближенное выполнение, оценка качества, производительность.
Keywords: big data, performance, analytical queries, approximate evaluation, data quality, reliability.
В данной статье приводятся основные понятия относительно нового направления информационных технологий - теории статистического обучения В. Вапника. Эта теория с каждым годом набирает все большую популярность, поскольку объясняет суть машинного обучения с математической точки зрения. Дальнейшие исследования данной теории могут дать существенные улучшения в скорости и качестве работы алгоритмов машинного обучения. Среди огромного количества публикаций, посвященных теории статистического обучения, автор выбрал десяток статей, в которых раскрываются основные понятия и проблемы этой теории, приводятся практически полезные алгоритмы и результаты экспериментов по сравнению различных подходов. В данной статье в сжатом виде приводятся основные результаты обозреваемых работ, что позволит специалистам, только начинающим знакомиться с этой популярной теорией, облегчить вхождение и приступить к реальным исследованиям. C. 19-26.
The basic concepts regarding the new direction of information technology — statistical learning theory — are described in the article. The theory has been gaining more and more popularity since it explains the essence of machine learning from a mathematical point of view. Further studies of the theory may provide significant improvements in the speed and quality of machine learning algorithms. The dozen articles were chosen among the large number of publications devoted to the theory of statistical learning. These articles reveal the basic concepts and problems of this theory and provide practically useful algorithms and the results of experiments comparing different approaches. Main results of the reviewed works are provided in concise form. The form allows professionals just starting to get acquainted with this popular theory facilitate the entry and proceed to the actual studies.
Ключевые слова: машинное обучение, теория статистического обучения, SLT, SVM, ELM.
Keywords: machine Learning, Statistical Learning Theory, SLT, SVM, ELM.