Рассматривается алгебраическая формализации распределенной обработки больших данных. Определяется понятие информационного пространства для заданной процедуры обработки данных и устанавливается критерий его минимальности. Доказывается существование минимального информационного пространства, обеспечивающего самую компактную форму представления информации, содержащейся в данных, и позволяющего наиболее эффективно распараллелить их обработку. Элемент этого пространства согласованным образом описывает информацию, содержащуюся в соответствующем наборе данных. Показано, что в терминах информационного пространства естественным образом выражаются понятия сложения информации и качества информации, отражающие интуитивные представление о самом понятии информации. Также рассматриваются преимущества использования минимального информационного пространства в модели распределенной обработки данных MapReduce. В контексте этой модели Map преобразует наборы исходных данных в элементы информационного пространства, а Reduce объединяет все эти фрагменты частичной информации в один элемент, представляющий все исходные данные. В качестве иллюстрации анализируется несколько примеров процедур обработки данных и описывается структура соответствующих минимальных информационных пространств.
07.05.Kf Data analysis: algorithms and implementation; data management
$^1$Московский государственный университет имени М.В.Ломоносова, физический факультет, кафедра математики