Data Mining: Inleiding

advertisement
Data Mining: Inleiding
docent: dr. Toon Calders
Gebaseerd op slides van Tan, Steinbach, and Kumar. Introduction to Data Mining
2II15: Data mining en kennissystemen
Lessen: maandag 7de en 8ste uur in Auditorium 16
Docent: Toon Calders ( t.calders@tue.nl HG 7.82a )
Studeerwijzer:
http://www.win.tue.nl/~tcalders/teaching/datamining/
Boek:
Tan, Steinbach, Kumar: Introduction to datamining
2II15: Data mining en kennissystemen
Evaluatie:
20% Uitdieping: kort verslag en presentatie
40% Groepsopdracht
40% Tentamen
2II15: Data mining en kennissystemen
Uitdieping:
Lezen en begrijpen van een
onderzoeksartikel
Kort rapport (ongeveer 2 A4’tjes)
Korte presentatie
2II15: Data mining en kennissystemen
Groepsopdracht:
Groepjes van 3 a 4 personen
Zelfstandig analyseren van een dataset
Gebruik makend van bestaande algoritmes
In praktijk brengen van de theorie
Uitgebreide beschrijving binnenkort in studiewijzer
Overzicht: Inleiding tot data mining
Waarom data mining?
Wat is data mining?
Het volledige knowledge discovery proces.
De data mining taken.
Samenvatting
Overzicht: Inleiding tot data mining
Waarom data mining?
Wat is data mining?
Het volledige knowledge discovery proces.
De data mining taken.
Samenvatting
Waarom data mining?
Explosieve groei aan beschikbare data: petabytes
nieuwe technologie (streepjescode, RFID, …)
grotere opslagcapaciteit
Waarom data mining?
Ook veel wetenschappelijke data
Beschikbaar
satellietbeelden
astronomische gegevens
micro-arrays
Waarom data mining?
We are drowning in data, but starving for knowledge!
Jiawei Han
Doel van data mining = automatisch analyseren
4,000,000
The Data Gap
3,500,000
3,000,000
2,500,000
2,000,000
Total new disk (TB)
since 1995
1,500,000
1,000,000
500,000
0
1995
1996
1997
1998
1999
Number of
analysts
Overzicht: Inleiding tot data mining
Waarom data mining?
Wat is data mining?
Het volledige knowledge discovery proces.
De data mining taken.
Samenvatting
Wat is data mining?
Data mining (knowledge discovery from data)
Extractie van interessante (niet-triviale, impliciete, vooraf
ongekende en mogelijk bruikbare) patronen of kennis uit grote
hoeveelheden data
Alternatieve benamingen
Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data
dredging, information harvesting, business intelligence, etc.
Data Dredging
“Torturing the data until they confess”
If you keep trying, eventually you will succeed.
Huidige toepassingen
Data analyse en decision support
Markt-analyse en management
Risico-analyse en management
Fraude detectie en de detectie van vreemde patronen (outliers)
Andere toepassingen
Tekst en Web mining (nieuwsgroepen, email, elektronische
documenten)
Stream data mining
Bioinformatica and bio-data analyse
Vb. 1: Markt analyse & management
Data: transacties van betaalkaarten,
klantenkaarten, kortingbonnen, klachten, plus
(publieke) lifestyle studies
Target marketing
Zoek groepen van klanten met gelijkaardige karakteristieken
Bepaal het koopgedrag over de tijd van klanten
Vind associaties tussen produkten, voorspel op
basis van associatie
Vb. 2: Fraude detectie & vreemde patronen
Autoverzekering:
ring of collisions
Witwassen van geld:
Verdachte geldtransacties
Zorgverzekering
Professionele patienten, cirkels van
doorverwijzingen
Onnodige medische testen
Vb. 2: Fraude detectie & vreemde patronen
Telecommunicaties: telefoon-kaart fraude
Maak model van belgedrag: bestemming van het gesprek, duur,
tijdstip, weekdag. Analyseer patronen die afwijken van het
standaardgedrag.
Belastingsfraude
Belgische FOD Financien maakt gebruik van data mining om
verdachte belastingsaangiftes te identificeren.
Overzicht: Inleiding tot data mining
Waarom data mining?
Wat is data mining?
Het volledige knowledge discovery proces.
De data mining taken.
Samenvatting
Knowledge discovery (KDD) Proces
Evaluatie
Data mining—het hart van
het knowledge discovery Data Mining
proces
Relevant Data
voor de taak
Data Warehouse
Opschonen
Data integratie
Databanken
Selectie
Overzicht: Inleiding tot data mining
Waarom data mining?
Wat is data mining?
Het volledige knowledge discovery proces.
De data mining taken.
Samenvatting
De data mining taken
Klassificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
Voorspellende methods (predictive tasks)
Voorspellende methodes
Gebruik een aantal variabelen om de waarde van een doel-attribuut
te voorspellen.
Classificatie
Regressie
Deviatie Detectie
Descriptieve Methodes
Descriptieve Methodes
Vind begrijpbare patronen die de data beschrijven.
Clusters
Association Regels
Sequentiele Patronen
De data mining taken
Classificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
Classificatie
ch
ch
u
ris
ris
se
in
o
o
nt
as
g
g
l
o
e
e
k
t
t
c
ca
ca
Refund Marital
Status
Taxable
Income Cheat
No
No
Single
75K
?
No
Yes
Married
50K
?
70K
No
No
Married
150K
?
120K
No
Yes
Divorced 90K
?
Divorced 95K
Yes
No
Single
40K
?
No
Married
No
No
Married
80K
?
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
Tid Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
2
No
Married
100K
3
No
Single
4
Yes
Married
5
No
6
60K
10
10
Training
Set
Leer
Classifier
Test
Set
Model
Classificatie
Soorten modellen:
beslissingsboom
regel-gebaseerd
nearest neighbor
neuraal netwerk
Beslissingsboom
refund
no
yes
Cheat = no
married
yes
Cheat = no
no
Cheat = yes
Classificatie: toepassing
Sky Survey Catalog
Doel: Voorspel de klasse (ster of melkweg) van objecten, vooral
onduidelijke, gebaseerd op telescoop beelden (Palomar observ.).
3000 beelden met een resolutie van 23,040 x 23,040 pixels
Aanpak:
Segmenteer de beelden.
Meet eigenschappen van het beeld (features) - 40 per segment.
Modeleer de klassen gebaseerd op deze features.
From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Classificeren van melkwegen
Early
Courtesy: http://aps.umn.edu
Klasses:
Attributen:
• Fases in het ontstaan
• beeld features,
• lichtgolven
Intermediate
Late
Grootte van de dataset:
• 72 miljoen sterren, 20 miljoen melkwegen
• Object catalog: 9 GB
• Beelden Databank: 150 GB
Classificeren van melkwegen
Succesverhaal: 16 nieuwe high red-shift quasars
werden ontdekt; dit zijn objecten ver verwijderd en
moeilijk zichtbaar!
Met het blote oog zou de analyse jaren geduurd
hebben …
De data mining taken
Klassificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
Regressie
Voorspel de waarde van een gegeven continue
variabele gebaseerd op de waarden van andere
variabelen.
Veel bestudeerd in statistiek (lineaire regressie,
niet-lineaire regressie)
Regressie
Voorbeelden:
Voorspel de verkoopscijfers van een neiuw produkt gebaseerd op
de hoeveelheid geld besteed aan reclamecampagnes.
Voorspel windsnelheden op basis van windrichting, luchtdruk,
weersomstandigheden, etc.
Voorspel de koers van een aandeel op basis van voorgaande
koersgegevens.
De data mining taken
Klassificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
3. Deviatie detectie/anomalieen
Ontdek significante afwijkingen
van het normale gedrag
Toepassingen:
Fraude met kredietkaarten
Network Intrusies ontdekken
De data mining taken
Classificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
Clustering
Gebaseerd op Euclidische afstand in 3D.
Intracluster
Intraclusterafstanden
afstanden
minimaliseren
minimaliseren
Intercluster
Interclusterafstanden
afstanden
maximaliseren
maximaliseren
Clustering: Toepassing 1
Clusteren van documenten:
Doel: Vind groepen van documenten
Clustering: Toepassing 1
Clusteren van documenten:
Doel: Vind groepen van documenten gebaseerd op de woorden die
voorkomen in de verschillende documenten.
Aanpak: Identificeer frequente termen in de documenten. Maak een
similarity measure gebaseerd op de frequenties van de
verschillende termen.
Gebruik: Information Retrieval kan hiervan gebruik maken om
zoekresultaten per cluster weer te geven.
De data mining taken
Klassificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
Associatie regels
Gegeven een verzameling records die elk een
aantal items bevatten, vind regels die associaties
tussen verzamelingen produkten beschrijven
TID
Items
1
2
3
4
5
Brood, Cola, Melk
Bier, Brood
Bier, Cola, Luier, Melk
Bier, Brood, Luier, Melk
Cola, Luier, Melk
Regels:
Regels:
{Melk}
{Melk}-->
-->{Cola}
{Cola}
{Luier,
{Luier,Melk}
Melk}-->
-->{Bier}
{Bier}
Association regels: toepassingen
Marketing en promoties:
Stel dat volgende regel ontdekt werd:
{Tortilla chips, … } --> {dipsaus}
Association regels: toepassingen
Marketing en promoties:
Stel dat volgende regel ontdekt werd:
{Tortilla chips, … } --> {dipsaus}
dipsaus als consequent => Kan gebruikt worden om te bepalen
welke produkten de verkoop van dipsaus stimuleren.
Chips als antecedent => Welke produkten zullen invloed ondervinden
van het verwijderen van Chips uit het assortiment?
Chips als antecedent en dipsaus als consequent => Kan gebruikt
worden om te zien welke produkten er samen met chips moeten
verkocht worden om dipsaus te promoten
De data mining taken
Klassificatie [Voorspellend]
Regressie [Voorspellend]
Deviatie Detectie [Voorspellend]
Clustering [Descriptief]
Associatie regels ontdekken [Descriptief]
Sequentiele patronen ontdekken [Descriptief]
6. Sequentiele Patronen
Gegeven een verzameling sequenties, zoek temporele
afhankelijkheden tussen verschillende events.
(A B)
(C)
In telecommunicatie (alarm logs),
(Inverter_Problem Excessive_Line_Current)
(Rectifier_Alarm) --> (Fire_Alarm)
In sequenties van verkoopsdata,
(Schoenen) (Racket, bal) --> (kleding)
(D E)
Sequentiele Patronen: Toepassingen
Veel gebruikt in bio-informatica !
identificeer genen in DNA-sequenties
Ontdekken van inbraken in netwerken
Leer patronen te identificeren die vaak geassocieerd zijn met inbraken in
het netwerk
Uitbreidingen naar het spatio-temporele domein
sequentie van locaties van GSMs
voorspel volgende positie om hand-over efficienter te maken
Monitoren van het verkeer
Overzicht: Inleiding tot data mining
Waarom data mining?
Wat is data mining?
Het volledige knowledge discovery proces.
De data mining taken.
Samenvatting
Samenvatting
Data mining is nuttig:
Wanneer de hoeveelheid data te groot is om manueel geanalyseerd te
worden
Als er vele mogelijke hypotheses zijn
Data mining biedt aan:
Verzameling tools om modellen en patronen te herkennen
Intelligente zoek-technieken
Resultaten van data mining:
Samenvatting van de data
Onverwachte patronen
Model
Download