Поиск ассоциативных правил в excel

Обновлено: 08.07.2024

Apriori – один из наиболее популярных алгоритмов поиска ассоциативных правил. Благодаря использованию свойства анти-монотонности, он способен обрабатывать большие объемы данных за приемлемое время. Разбираем работу алгоритма и особенности его реализации.

Современные базы данных имеют очень большие размеры, достигающие гига- и терабайтов, и тенденцию к дальнейшему увеличению. И поэтому, для нахождения ассоциативных правил требуются эффективные масштабируемые алгоритмы, позволяющие решить задачу за приемлемое время. Об одном из таких алгоритмов и пойдет речь в данной статье. Мы опишем алгоритм Apriori. Терминология и обозначения, которыми мы будем пользоваться, даны в статье «Введение в анализ ассоциативных правил».

Для того чтобы было возможно применить алгоритм, необходимо провести предобработку данных:

привести все данные к бинарному виду;
изменить структуру данных.

Номер транзакции	Наименование элемента	Количество
1001	А	2
1001	D	3
1001	E	1
1002	А	2
1002	F	1
1003	B	2
1003	А	2
1003	C	2
.	.	.

Таблица 1. Обычный вид базы данных транзакций

TID	A	B	C	D	E	F	I	.
1001	1	0	0	1	1	0	0	.
1002	1	0	0	0	0	1	0	.
1003	1	1	1	0	0	0	1	.

Таблица 2. Нормализованный вид

Количество столбцов в таблице равно количеству элементов, присутствующих во множестве транзакций D . Каждая запись соответствует транзакции, где в соответствующем столбце стоит 1, если элемент присутствует в транзакции, и 0 — в противном случае. (см. Определение 1). Заметим, что исходный вид таблицы может быть отличным от приведенного в Таблице 1. Главное, чтобы данные были преобразованы к нормализованному виду, иначе алгоритм не применим.

Все элементы таблицы упорядочены в алфавитном порядке (если это числа, они должны быть упорядочены в числовом порядке). Это сделано неслучайно.

Итак, данные преобразованы, теперь можно приступить к описанию самого алгоритма. Как было сказано в предыдущей статье, такие алгоритмы работают в два этапа, не является исключением и рассматриваемый нами алгоритм Apriori.

На первом шаге необходимо найти часто встречающиеся наборы элементов, а затем, на втором, извлечь из них правила. Количество элементов в наборе будем называть размером набора, а набор, состоящий из k элементов, — k -элементным набором.

Свойство анти-монотонности

Выявление часто встречающихся наборов элементов — операция, требующая много вычислительных ресурсов и, соответственно, времени. Примитивный подход к решению данной задачи — простой перебор всех возможных наборов элементов. Это потребует O(^<|2I|>) операций, где |I| — количество элементов. Apriori использует одно из свойств поддержки, гласящее: поддержка любого набора элементов не может превышать минимальной поддержки любого из его подмножеств.

Например, поддержка 3-элементного набора < Хлеб, Масло, Молоко > будет всегда меньше или равна поддержке 2-элементных наборов < Хлеб, Масло >, < Хлеб, Молоко >, < Масло, Молоко >. Дело в том, что любая транзакция, содержащая < Хлеб, Масло, Молоко >, также должна содержать < Хлеб, Масло >, < Хлеб, Молоко >, < Масло, Молоко >, причем обратное не верно.

Это свойство носит название анти-монотонности и служит для снижения размерности пространства поиска. Не имей мы в наличии такого свойства, нахождение многоэлементных наборов было бы практически невыполнимой задачей в связи с экспоненциальным ростом вычислений.

Свойству анти-монотонности можно дать и другую формулировку: с ростом размера набора элементов поддержка уменьшается, либо остается такой же. Из всего вышесказанного следует, что любой k -элементный набор будет часто встречающимся тогда и только тогда, когда все его (k-1) -элементные подмножества будут часто встречающимися.

Все возможные наборы элементов из I можно представить в виде решетки, начинающейся с пустого множества, затем на 1 уровне — 1-элементные наборы, на 2-м — 2-элементные и т.д. На k уровне представлены k -элементные наборы, связанные со всеми своими (k-1) -элементными подмножествами.

Рассмотрим Рисунок 1, иллюстрирующий набор элементов I - . Предположим, что набор из элементов \ < A, B \>имеет поддержку ниже заданного порога и, соответственно, не является часто встречающимся. Тогда, согласно свойству анти-монотонности, все его супермножества также не являются часто встречающимися и отбрасываются. Вся эта ветвь, начиная с \ < A, B \>, выделена синим. Использование этой эвристики позволяет существенно сократить пространство поиска.

Алгоритм Apriori

На первом шаге алгоритма подсчитываются 1-элементные часто встречающиеся наборы. Для этого необходимо пройтись по всему набору данных и подсчитать для них поддержку, т.е. сколько раз встречается в базе.

Следующие шаги будут состоять из двух частей: генерации потенциально часто встречающихся наборов элементов (их называют кандидатами) и подсчета поддержки для кандидатов.

Описанный выше алгоритм можно записать в виде следующего псевдокода:

F_1 = \< Часто встречающиеся 1-элементные наборы \>;
\text < для >(k=2, F_ \verb!<>! \varnothing, k\verb!++! )
\
C_k = \ < Генерация кандидатов \ k на основе \ Apriorigen ( F_) \>
для всех транзакций t∈D
\
C_t = subset(C_k,t) // Удаление избыточных правил
для всех кандидатов c \in C_t
c.count\verb!++!
\>
F_k = [c \in C_k | c.count > = minsupp ] // Отбор кандидатов
\>
Результат \cup F_k

Опишем функцию генерации кандидатов. На этот раз нет никакой необходимости вновь обращаться к базе данных. Для того, чтобы получить k -элементные наборы, воспользуемся (k-1) -элементными наборами, которые были определены на предыдущем шаге и являются часто встречающимися.

Вспомним, что наш исходный набор хранится в упорядоченном виде. Генерация кандидатов также будет состоять из двух шагов.

Объединение. Каждый кандидат C_k будет формироваться путем расширения часто встречающегося набора размера (k-1) добавлением элемента из другого (k-1) -элементного набора. Приведем алгоритм этой функции Apriorigen в виде небольшого SQL-подобного запроса.

p.item_1, p.item_2, . p.item_, q.item_

Удаление избыточных правил. На основании свойства анти-монотонности, следует удалить все наборы c C_k , если хотя бы одно из его (k-1) подмножеств не является часто встречающимся.

После генерации кандидатов следующей задачей является подсчет поддержки для каждого кандидата. Очевидно, что количество кандидатов может быть очень большим и нужен эффективный способ подсчета. Самый тривиальный способ – сравнить каждую транзакцию с каждым кандидатом. Но это далеко не лучшее решение.

Гораздо быстрее и эффективнее использовать подход, основанный на хранении кандидатов в хэш-дереве. Внутренние узлы дерева содержат хэш-таблицы с указателями на потомков, а листья – на кандидатов. Это дерево нам пригодится для быстрого подсчета поддержки для кандидатов.

Хэш-дерево строится каждый раз, когда формируются кандидаты. Первоначально дерево состоит только из корня, который является листом, и не содержит никаких кандидатов-наборов. Каждый раз когда формируется новый кандидат, он заносится в корень дерева, и так до тех пор, пока количество кандидатов в корне-листе не превысит некоего порога.

Как только количество кандидатов становится больше порога, корень преобразуется в хэш-таблицу, т.е. становится внутренним узлом, и для него создаются потомки-листья. И все примеры распределяются по узлам-потомкам согласно хэш-значениям элементов, входящих в набор, и т.д. Каждый новый кандидат хэшируется на внутренних узлах, пока он не достигнет первого узла-листа, где он и будет храниться, пока количество наборов опять же не превысит порога.

Хэш-дерево с кандидатами-наборами построено, теперь, используя хэш-дерево, легко подсчитать поддержку для каждого кандидата. Для этого нужно «пропустить» каждую транзакцию через дерево и увеличить счетчики для тех кандидатов, чьи элементы также содержатся и в транзакции, т.е. C_k∩Ti=C_k . На корневом уровне хэш-функция применяется к каждому элементу из транзакции.

Далее, на втором уровне, хэш-функция применяется ко вторым элементам и т.д. На k -уровне хэшируется k -элемент. И так до тех пор, пока не достигнем листа. Если кандидат, хранящийся в листе, является подмножеством рассматриваемой транзакции, тогда увеличиваем счетчик поддержки этого кандидата на единицу.

После того, как каждая транзакция из исходного набора данных «пропущена» через дерево, можно проверить удовлетворяют ли значения поддержки кандидатов минимальному порогу. Кандидаты, для которых это условие выполняется, переносятся в разряд часто встречающихся. Кроме того, следует запомнить и поддержку набора, она нам пригодится при извлечении правил. Эти же действия применяются для нахождения (k+1) -элементных наборов и т.д.

После того как найдены все часто встречающиеся наборы элементов, можно приступить непосредственно к генерации правил.

Извлечение правил – менее трудоемкая задача. Во-первых, для подсчета достоверности правила достаточно знать поддержку самого набора и множества, лежащего в условии правила. Например, имеется часто встречающийся набор \ < A, B, C \>и требуется подсчитать достоверность для правила AB⇒C . Поддержка самого набора нам известна, но и его множество \ < A, B \>, лежащее в условии правила, также является часто встречающимся в силу свойства анти-монотонности, и значит его поддержка нам известна. Тогда мы легко сможем подсчитать достоверность. Это избавляет нас от нежелательного просмотра базы транзакций, который потребовался в том случае если бы это поддержка была неизвестна.

Чтобы извлечь правило из часто встречающегося набора F , следует найти все его непустые подмножества. И для каждого подмножества s мы сможем сформулировать правило s ⇒ (F - s) , если достоверность правила conf(s ⇒ (F - s)) = supp(F)/supp(s) не меньше порога minconf .

Заметим, что числитель остается постоянным. Тогда достоверность имеет минимальное значение, если знаменатель имеет максимальное значение, а это происходит в том случае, когда в условии правила имеется набор, состоящий из одного элемента. Все супермножества данного множества имеют меньшую или равную поддержку и, соответственно, большее значение достоверности. Это свойство может быть использовано при извлечении правил.

Если мы начнем извлекать правила, рассматривая сначала только один элемент в условии правила, и это правило имеет необходимую поддержку, тогда все правила, где в условии стоят супермножества этого элемента, также имеют значение достоверности выше заданного порога. Например, если правило A ⇒ BCDE удовлетворяет минимальному порогу достоверности minconf , тогда AB ⇒ CDE также удовлетворяет.

Для того чтобы извлечь все правила используется рекурсивная процедура. Важное замечание: любое правило, составленное из часто встречающегося набора, должно содержать все элементы набора. Например, если набор состоит из элементов \ < A, B, C \>, то правило A⇒B не должно рассматриваться.

Кроме алгоритма Apriori для поиска ассоциативных правил существует алгоритм, получивший название Frequent Pattern-Growth (FPG), что можно перевести как «выращивание популярных (часто встречающихся) предметных наборов». Он позволяет не только избежать затратной процедуры генерации кандидатов, но и уменьшить необходимое число проходов по набору данных до двух.

Введение

Узким местом в алгоритме Apriori является процесс генерации кандидатов в популярные предметные наборы. Например, если база данных (БД) транзакций содержит 100 предметов, то потребуется сгенерировать 2 100 ∼10 30 кандидатов. Таким образом, вычислительные и временные затраты, которые нужны на их обработку, могут быть неприемлемыми.

Кроме этого, алгоритм Apriori требует многократного сканирования БД транзакций, а именно столько раз, сколько предметов содержит самый длинный предметный набор. Поэтому был предложен ряд алгоритмов, которые позволяют избежать генерации кандидатов и сократить требуемое число сканирований набора данных.

Одним из наиболее эффективных процедур поиска ассоциативных правил является алгоритм, получивший название Frequent Pattern-Growth (алгоритм FPG), что можно перевести как «выращивание популярных (часто встречающихся) предметных наборов». Он позволяет не только избежать затратной процедуры генерации кандидатов, но и уменьшить необходимое число проходов БД до двух. Рассмотрим его более подробно.

Алгоритм Frequent Pattern-Growth Strategy (FPG)

В основе алгоритма лежит предобработка БД транзакций, в процессе которой она трансформируется в компактную древовидную структуру, называемую Frequent-Pattern Tree – дерево популярных предметных наборов (откуда и название алгоритма). В дальнейшем для краткости будем называть эту структуру FP-дерево. К основным преимуществам данного метода относятся:

Сжатие БД транзакций в компактную структуру, которая обеспечивает наиболее эффективное и полное извлечение частых предметных наборов;
При построении FP-дерева используется технология «разделай и влавствуй» (англ.: divide and conquer), которая позволяет выполнить декомпозицию одной сложной задачи на множество более простых;
Позволяет избежать затратной процедуры генерации кандидатов, характерной для алгоритма Apriori.

Рассмотрим работу алгоритма FPG на конкретном примере. Пусть имеется БД транзакций (табл. 1).

N	Предметный набор
1	a b c d e
2	a b c
3	a c d e
4	b c d e
5	b c
6	b d e
7	c d e

Для данной БД требуется обнаружить все популярные предметные наборы с минимальной поддержкой, равной 3, используя алгоритм FPG.

Производится первое сканирование БД транзакций, и отбирается множество часто встречающихся предметов, т.е. предметов, которые встречаются три или более раза. Упорядочим обнаруженные частые предметы в порядке возрастания их поддержки и получим следующий набор: (c, 6), (b, 5), (d, 5), (e, 5), (a, 3).

Построим FP-дерево. Упорядочим предметы в транзакциях по убыванию значений их поддержек (табл. 2).

N	Исходный предметный набор	Упорядоченный предметный набор
1	a b c d e	c b d e a
2	a b c	c b a
3	a c d e	c d e a
4	b c d e	c b d e
5	b c	c b
6	b d e	b d e
7	c d e	c d e

Создадим начальный (корневой) узел FP-дерева, который обычно обозначают ROOT (от англ. root – корень).

Начнем построение дерева с транзакции №1 для упорядоченных предметных наборов, т.е. (c b d e a), рис. 1. При построении дерева будем придерживаться следующего правила.

Правило. Если для очередного предмета в FP-дереве уже содержится узел, то для предмета не создается новый узел, а индекс существующего увеличивается на 1. В противном случае для этого предмета создается новый узел и ему присваивается индекс 1.

Рис. 1. Построение FP-дерева на транзакции № 1

Сначала берем предмет с из транзакции №1. Поскольку он является первым, то создаем для него узел и соединяем с родительским (корневым) (рис. 1, а). Затем берем следующий предмет b и поскольку других узлов с тем же именем FP-дерево пока не содержит, добавляем его в виде нового узла, потомка узла с (рис. 1, б). Таким же образом содаем узлы для предметов d, e и a из транзакции № 1 (случаи в, г, и д на рис. 1). На этом использование первой транзакции для построения FP-дерева закончено.

Для транзакции № 2, содержащей предметы c, b и a, выбираем первый предмет, c. Поскольку узел с таким именем уже существует, то в соответствии с правилом построения FP-дерева новый узел не создается, а индекс существующего увеличивается на 1 (рис. 2, а). При добавлении следующего предмета b используем то же правило: поскольку узел b является дочерним по отношению к текущему (т.е. c), то мы также не создаем новый узел, а увеличиваем индекс для имеющегося (рис. 2, б).

Для следующего предмета из второй транзакции a в соответствии с правилом построения FP-дерева необходимо создать новый узел, поскольку у узла b дочерние узлы с именем a отсутствуют (рис. 2, в).

Рис. 2. Построение FP-дерева на транзакции № 2

Транзакция № 3 содержит предметы (c d e a). В соответствии с правилом построения FP-дерева, предмет c не создаст нового узла, а увеличит индекс уже имеющегося узла на 1 (рис. 3, а). Следующий предмет d породит в FP-дереве новый узел, дочерний к узлу c, поскольку тот не содержит потомков с таким именем (рис. 3, б). Аналогично предметы e и a создадут новые узлы – потомки d (рис. 3 в, г).

Рис. 3. Использование транзакции № 3 для построения FP-дерева

Использование транзакции № 4, содержащей набор предметов (c b d e), не создаст новых узлов, а увеличит индексы узлов с аналогичной последовательностью имен. Дерево, полученное в результате использования транзакции № 4, представлено на рис. 4.

Рис. 4. Дерево, полученное в результате использования четвертой транзакции

Транзакция № 5 содержит набор (c b), предметы которого увеличат индексы одноименных узлов в FP-дереве, как показано на рис. 5.

Рис. 5. Дерево, полученное в результате использования пятой транзакции

Транзакция № 6 содержит предметы (b d e). Поскольку корневой узел не содержит непосредственного потомка с именем b, то в соответствии с правилом построения FP-дерева для него будет создан новый узел, который «потянет» за собой два других — d и e. Все узлы будут добавлены с индексами 1. В результате FP-дерево примет вид, представленный на рис. 6.

Рис. 6. Дерево, полученное в результате использования 6-й транзакции

И, наконец, последняя транзакция № 7, содержащая предметный набор (c d e), увеличит на 1 индексы соответствующих узлов. Получившееся дерево, которое также является результирующим для всей БД транзакций, представлено на рис. 7.

Рис. 7. Результирующее дерево, построенное по всей БД транзакций

Таким образом, после первого прохода БД и выполнения соответствующих манипуляций с предметными наборами мы построили FP-дерево, которое в компактном виде представляет информацию о частых предметных наборах и позволяет производить их эффективное извлечение, что и делается на втором сканировании БД.

Представление БД транзакций в виде FP-дерева очевидно. Если в исходной базе данных каждый предмет повторяется многократно, то в FP-дереве он представляется в виде узла, индекс которого указывает на то, сколько раз данный предмет появляется. Иными словами, если предмет в исходной БД транзакций появляется 100 раз, то в FP-дереве для него будет единственный узел с индексом 100.

Извлечение частых предметных наборов из FP-дерева

Для каждого предмета в FP-дереве, представленного своим узлом, можно указать путь, т.е. последовательность узлов, которую надо пройти от корневого узла до узла, связанного с данным предметом. Если предмет представлен в нескольких ветвях FP-дерева (что чаще всего и происходит), то таких путей будет насколько. Например, для FP-дерева на рис. 7 для предмета a можно указать 3 пути: < cbdea, cba, cdea >.

Такой набор путей называется условным базисом предмета (англ.: conditional base). Каждый путь в базисе состоит из двух частей — префикса и суффикса. Префикс — это собственно последовательность узлов, которые образуют путь. Суффикс — это сам узел, к которому «прокладывается» путь. Таким образом, в условном базисе все пути будут иметь различные префиксы и одинаковый суффикс. Например, в пути cbdea префиксом будет cbde, а суффиксом — a.

Процесс извлечения из FP-дерева частых предметных наборов будет заключаться в следующем.

Выбираем предмет (например, a) и находим в дереве все пути, которые ведут к узлам этого предмета Иными словами, для a это будет набор < cbdea, cba, cdea >. Затем для каждого пути подсчитываем, сколько раз данный предмет встречается в нем, и записываем это в виде (cbdea, 1), (cba, 1) и (cdea, 1).
Удалим сам предмет (суффикс набора) из ведущих к нему путей, т.е. < cbde a , cb a , cde a >. После останутся только префиксы: < cbde, cb, cde >.
Подсчитаем, сколько раз каждый предмет появляется в префиксах путей, полученных на предыдущем шаге, и упорядочим в порядке убывания этих значений, получив новый набор транзакций.
На его основе построим новое FP-дерево, которое назовем условным FP-деревом (conditional FP-tree), поскольку оно связано только с одним объектом (в нашем случае, a).
В условном FP-дереве найдем все предметы (узлы), для которых поддержка (количество появлений в дереве) равна 3 и больше, что соответствует заданному уровню минимальной поддержки. Если узел встречается два или более раза, то его индексы, т.е. частоты появлений предмета в условном базисе, суммируются.
Начиная с корня дерева, записываем пути, которые ведут к каждому узлу, для которого поддержка/индекс больше или равны 3, возвращаем назад предмет (суффикс), удаленный на шаге 2, и подсчитываем индекс/поддержку, полученную в результате. Например, если предмет a имеет индекс 3, то можно записать (c b a, 3), что и будет являться популярным предметным набором.

Для пояснения методики извлечения популярного набора из FP-дерева продолжим рассмотрение примера для БД транзакций из табл. 1 и построенного для неё FP-дерева.

Начнем с предмета a, который имеет поддержку 3 и соответственно является часто встречающимся предметом. Префиксы путей, ведущих к узлам, связанным с a, будут: (c b d e a , 1), (c b a , 1), (c d e a , 1). На основе полученного условного базиса для суффикса a, построим условное FP-дерево (рис. 8).

Рис. 8. Условное FP-дерево для предмета a

Поскольку предметы d и e встречаются два раза, то их индексы суммируются, и в итоге мы получим следующий порядок предметов: (c, 3), (b, 2), (d, 2), (e, 2). Таким образом, только узел c удовлетворяет уровню минимальной поддержки 3. Следовательно, для предмета a может быть сгенерирован только один популярный набор (c, a, 3).

Затем переходим к следующему предмету b с поддержкой 5. Условное FP-дерево, построенное для него, будет содержать только один узел c, поскольку в дереве присутствует один путь с=>b, а суффикс b исключается. Это проиллюстрировано на рис. 9.

Рис. 9. Условное FP-дерево для суффикса b

Таким образом, префиксы путей будут (c b , 4) и (b, 1), и, следовательно, для предмета b будет иметь место только один популярный набор (c b, 4).

Для предмета c, поскольку он является непосредственным потомком корневого узла, нельзя указать путь (см. рис. 7). Значит, префикс путей для него будет пустым, из чего следует, что и популярные предметные наборы отсутствуют.

Следующий предмет, для которого мы произведем поиск популярных предметных наборов, будет d с поддержкой равной 5. Условное FP-дерево, связанное с предметом d представлено на рис. 10.

Рис. 10. Условное FP-дерево для предмета d

Префиксы путей для условного дерева, связанного с предметом d, будут: (c b d , 2), (c d , 2) и (b d , 1). Учитывая, что индексы для узлов b суммируются, то соответствующие популярные предметные наборы будут (c, d, 4) и (b, d, 3).

И, наконец, для последнего предмета е, имеющего поддержку 5, условное FP-дерево представлено на рис. 11.

Рис. 11. Условное FP-3 дерево для предмета e

Префиксы путей, ведущих в условном дереве к узлам, связанным с предметом e, будут: (c b d e , 2) (c d e , 2) (b d e , 1). Подсчитав суммарную поддержку каждого предмета в условном дереве и упорядочив предметы по ее убыванию, получим: (d, 5), (c, 4), (b, 3). Следовательно, популярными предметными наборами для предмета e будут: (d, e, 5), (d, c, e, 4), (d, b, e, 3).

Таким образом, мы получили следующие популярные предметные наборы:

(c, a, 3), (c, b, 4), (c, d, 4), (b, d, 3), (d, e, 5), (d, c, e, 4), (d, b, e, 3).

Сравнительные исследования классического алгоритма Apriori и FPG показали, что с увеличением числа транзакций в БД временные затраты на поиск частых предметных наборов растут для FPG намного медленнее, чем для Apriori (рис. 12).

Рис. 12. Сравнение алгоритмов FPG и Apriori

Повышение эффективности обработки популярных наборов

Одним из направлений повышения эффективности обработки популярных предметных наборов является сокращение необходимого числа сканирований БД транзакций. Алгоритм Apriori сканирует базу данных несколько раз, в зависимости от числа элементов в предметных наборах. Существует ряд алгоритмов, позволяющих уменьшить необходимое число сканирований или количество популярных предметных наборов, генерируемые на каждом сканировании, либо оба этих показателя.

Одним из таких методов является алгоритм разделения (Partition-based Apriori algorithm), который требует всего два прохода по БД. Он основан на идее так называемых локальных предметных наборов. При этом вся БД разделяется на N непересекающихся подмножеств, каждое из которых достаточно мало, чтобы поместиться в оперативной памяти ПК.

На первом сканировании алгоритм считывает каждое подмножество и обнаруживает предметные наборы, которые являются популярными для данного подмножества (локально-популярные предметные наборы). На втором сканировании алгоритм вычисляет поддержку всех локально-популярных предметных наборов на всеё БД. Таким образом, второе сканирование определяет множество всех потенциальных ассоциативных правил. Методика, реализуемая данным алгоритмом, поясняется на рис. 13.

Рис. 13. Метод локальных предметных наборов

Еще одним способом повышения эффективности методики поиска ассоциативных правил, основанной на популярных наборах, является сэмплинг (рис. 14). С его помощью производится отбор случайной выборки R из исходной БД транзакций, после чего поиск популярных наборов осуществляется на этой выборке. Таким образом ищется компромисс между точностью и вычислительными затратами.

Рис. 14. Схема применения сэмплинга

Размер выборки, полученной в результате сэмплинга, должен быть таким, чтобы обеспечить приемлемые вычислительные затраты. Очевидно, что при этом некоторые популярные наборы могут быть потеряны. Чтобы свести потери к минимуму, используют порог поддержки ниже, чем минимальная поддержка для поиска частых предметных наборов, локальных на R.

Читайте также: