Zobecněná asociační pravidla

Autor:
Šárka Lejnarová, Adastra

     

Chcete najít malé skupinky zákazníků, kteří se chovají podobně, např. kupují luxusní produkt nebo vás naopak podvádějí? Nezajímají vás informace o celém vašem zákaznickém portfoliu, ale chcete se zaměřit pouze na vytipované skupinky? V tomto případě zapomeňte na skóring pomocí logistické regrese [BI magazín, březen 2008] nebo rozhodovacích stromů [BI magazín, březen 2007] a pojďte se podívat na metodu vyhledávání zobecněných asociačních pravidel.

Zobecněná asociační pravidla
Poprvé se s pojmem asociační pravidla setkáváme spolu s analýzou nákupního košíku, základní myšlenka je najít pravidlo, které nám říká, pokud zákazník koupí zboží X, pak koupí i zboží Y. Například ve finanční instituci může pravidlo vypadat

Hypotéka, pojištění nemovitost → Pojištění domácnosti

neboli zákazníci, kteří si vzali hypotéku a pojistili si nemovitost, si také často pojistili i domácnost. Mírou tohoto pravidla je spolehlivost (confidence, founded implication) a podpora (support). Podívejme se na příklad, analyzovali jsme 2 085 nákupů u dané finanční společnosti. 

Z toho 121 klientů si vzalo hypotéku a pojistilo nemovitost. Z této skupinky si 105 lidí pojistilo i domácnost. Konfidence tohoto pravidla je tedy 105/121 = 0,87 neboli 87 % lidí, kteří si vzali hypotéku a pojistili nemovitost, si také pojistili domácnost. Podpora je potom nastavení počtu, kolik zákazníků má minimálně splňovat dané pravidlo, v našem případě je to 105 nebo v relativní hodnotě je to 105/2085 = 5,03 % z celé skupiny zákazníků. Podpora může být nastavena jako absolutní hodnota, např. hledám pravidlo, které bude splňovat alespoň 100 zákazníků nebo jako relativní podíl např. hledám pravidla, která bude splňovat alespoň 5 % zákaznické databáze. Nastavení kritických hodnot záleží na zvolené strategii a charakteru dat.

Metoda GUHA a LISp-Miner 
Metoda GUHA, která byla poprvé popsána českými vědci v roce 1966, se zabývá vyhledáváním zobecněných asociačních pravidel a je implementována v softwaru LISp-Miner, který je vyvíjen na Vysoké škole ekonomické v Praze. LISp-Miner umožňuje zpracovávat data, která jsou ve formě analytické tabulky, definovat úlohy a vyhledávat asociační pravidla.
V definici úlohy pomocí LISp-Mineru vybíráme proměnné vstupující do úlohy, vybíráme cílovou proměnnou a zadáváme kritéria, která by měla zadaná úloha splnit např. minimální hranici podpory apod. Výstupem z řešení těchto úloh jsou generované hypotézy, které splňují zadané parametry.

Výhodou tohoto softwaru je mimo jiné to, že je to freeware s širokými možnostmi nastavení vyhledávání pravidel. Při správné definici úlohy nachází LISp-Miner jednoduchá a srozumitelná pravidla, výstupem tedy nejsou komplikované matematické modely pro skóring klientů. LISp-MINER využívá komplikovaných metod, ale přináší jednoduchá pravidla, která je možné implementovat do stávajících procesů společnosti a tudíž je zde možnost širokého business využití.
Omezením zůstává omezený přístup pro více uživatelů, práce s velkým množstvím kategorií, slabá nápověda a práce s výstupy. 

Fáze projektu
Proces implementace vyhledávání asociačních pravidel pomocí LISp-Mineru vychází z data miningové metodologie CRISP-DM a skládá se z následujících kroků:

Aplikace 
Typickou aplikací asociačních pravidel je analýza nákupního košíku. Např. nás zajímá, kteří zákazníci nakupují v naší drogérii dražší parfémy, jejichž hodnota je vyšší než 3 000 Kč. Z dat mám informace o nákupech klientů, které zboží nakupují v rámci jednoho nákupu, například, jaké další položky nakoupil, zda platil v hotovosti nebo platební kartou apod. Pokud zákazník využívá věrnostního programu, tak o něm mám i další základní informace jako je věk, pohlaví popř. trvalé bydliště a podobně.
Pomocí vhodného softwaru detekujeme skupiny klientů s podobným nákupem, kteří nakupují dražší parfémy. Ukázkou takové skupinky mohou být zákazníci, kteří koupili dárkovou taštičku a mašli.

Dárková taštička, mašle → Dražší parfém

S touto informací už můžeme zacházet různě, jedna strategie je dát parfémy na jednu stranu obchodu a dárkové balení na druhou a mezi ně postavit různá „lákadla“. Nebo naopak můžeme dát parfémy a dárkové taštičky do jednoho místa a přidat k nim i přání popř. vytvořit dárkové balení parfémů apod.

Další aplikací může být detekce podvodníků. 
Cílem banky je rozpoznat žádosti o úvěr, u kterých je vysoká pravděpodobnost, že se jedná o podvody. Jako významné vstupní informace se používají:

  • údaje z žádosti – věk, pohlaví, trvalé bydliště, zaměstnání, výše příjmů žadatele, ručitel
  • historické údaje o daném žadateli (dostupné pouze v případě, že žadatel je popř. byl klientem banky),
  • o jaký typ úvěru se jedná – jeho výše, délka splácení, zda jde o hotovostní půjčku či na nákup zboží apod.
  • informace o prodejci – zda se jedná o on-line prodej, či pobočkový prodej, popř. zda žádost pochází z externí sítě prodejců.

V databázi banky jsou historické údaje o žádostech a informace, zda daná žádost byla nebo nebyla označena jako podvod. Na základě těchto informací detekujeme specifické skupiny žádostí, u kterých byl velký podíl podvodů, tyto žádosti označíme jako rizikové, neboť u nich existuje zvýšené riziko podvodu. Přijde-li na pobočku požadavek na schválení žádosti, která splňuje kritéria rizikové žádosti, je tato žádost zařazena do přísného schvalovacího procesu a pracovník oddělení schvalování/ověřování žádostí je upozorněn na to, aby dodržoval zvýšenou opatrnost.

Opačnou úlohou by bylo nalezení žádostí, u kterých je nízká pravděpodobnost podvodu, tyto žádosti by mohly postoupit do automatického procesu schvalování. V tomto případě je ovšem nutné nastavit vhodný způsob náhodné a pravidelné kontroly, aby nevznikal prostor pro organizované skupiny podvodníků. Těmito kroky dosáhneme efektivnějšího využití pracovníků oddělení schvalování/ověřování žádostí, a snížení počtu podvodů i snížení finančních dopadů podvodů.

Závěr
Zobecněná asociační pravidla jsou mocnou technikou z oblasti dobývání znalostí z databází. Přestože metody nacházení pravidel jsou poměrně komplikované, výstupy jsou naopak jednoduché, srozumitelné a mohou být jednoduše interpretovány business uživateli.