В работе использовались два метода для вычисления идентификационных характеристик голоса диктора. Один из них основан на прямом преобразовании Фурье, второй — на оконном преобразовании с последующей интеграцией значений каждой гармоники всех окон. Определена информативность данных характеристик. Дана оценка того, каким образом параметры голоса и их информативность изменяются в зависимости от степени алкогольного опьянения человека и в сонном состоянии. Проведен вычислительный эксперимент по оценке надежности распознавания дикторов в пространстве выбранных признаков с помощью функционалов, основанных на формуле гипотез Байеса, мере Пирсона, мере хи-модуль, критериях Джини, Крамера-фон Мизеса, а также персептронов, обучаемых по ГОСТ Р 52633.5-2011, и сетей квадратичных форм. Дана оценка устойчивости указанных методов и функционалов к изменению психофизиологического состояния диктора в плане робастности получаемых результатов распознавания. С. 29-47.
In this work, two methods were used to calculate the identification characteristics of the speaker's voice. One of them is based on the direct Fourier transform, the second — on the window transformation with the subsequent integration of the values of each harmonic of all the windows. The information content of these characteristics is determined. An estimation is given of how the parameters of the voice and their informativeness change depending on the degree of alcoholic intoxication of a person and in a sleepy state. A computational experiment was carried out to evaluate the reliability of recognition of speakers in the space of selected features using functionals based on the Bayesian hypothesis formula, Pearson measure, chi-module measure, Gini criterion, Cramervon Mises, and perceptrons trained in GOST R 52633.5-2011, and networks of quadratic forms. An estimation is given of the stability of these methods and functionals to the psychophysiological state of the speaker in terms of the robustness of the obtained recognition results.
Ключевые слова: распознавание образов, параметры речевого сигнала, голосовой пароль, биометрическая аутентификация, психофизиологическое состояние диктора, состояние алкогольного опьянения.
Keywords: pattern recognition, speech signal parameters, speech enabled password, biometric authentication, psychophysiological state of the speaker, state of alcoholic intoxication.