De viktige prosessene som må være klart avgrenset for Data Mining, analyse og modellering er:
Datamodell: hvilke data vil være tilgjengelig og hvordan vil det strømme?
Datainnsamling: Hvordan vil data være samlet både i fysiske og teknologiske termer?
Data som er innsamlet: hvilke data som skal hentes?
Datatyper: hva typer data blir samlet?
Dataformatering: Hvordan vil dataene bli holdt?
Datavarehus: hvor vil dataene bli holdt?
Datamining: Hvordan vil vi hente data fra lageret?
Informasjon modellering: Hvordan vil vi lage modeller og hva av?
Informasjonstilgang: Hvordan vil vi få tilgang til datamodeller og rapporter?
Presentasjon & rapportering: på hva vil vi rapportere?
De fleste selskaper vil vite viktig informasjon om kunder på hvert kontaktpunkt, for eksempel:
Levetidsverdien
X selge og oppgradere potensial
Anskaffelseskost
Kanal-valgpanelet
Lojalitet/oppbevaring
Kjøp atferd mønstre
Mye av dataene de har vil ha forskjellige frekvenser i endring, forfriskninger eller forekomsten. Det vil bli holdt i forskjellige perioder. I noen tilfeller kan aggregerte data bli holdt i stedet for kildedataene. Alle disse faktorene påvirke dataene modellering trening og eventuell modellering programvarekravene.
Snu data i nyttig informasjon krever:
Identifisere utgivelsene()
Montering av data set(s)
Bygningen modeller
Kontroller modeller
Tolkning av resultatene
Automatisering av levering
Etterpå, må modellering verktøy og teknikker brukes. Dette kan deles inn i to grupper: teori drevet og data drevet.
Teorien drevet modellering (hypotesetesting) forsøker å underbygge eller motbevise forutfattede ideer. Teorien drevet modellering verktøy krever at brukeren må angi mesteparten av modell basert på tidligere kunnskap og deretter tester for å se om modellen er gyldig.
Data drevet modelleringsverktøy automatisk lage en modell basert på mønstre som de finner i dataene. Dette må også testes før det kan godtas som gyldig.
Modellering er en iterativ prosess med den siste modellen blir vanligvis en kombinasjon av forkunnskaper og nylig oppdaget informasjon. Engine(s) verktøy og teknikker inkluderer:
Statistiske teknikker
Data drevet verktøy
Korrelasjon
Klynge analyse
t-tester
Faktor-analyse
Analyse av varians
CHAID (chi-kvadrat automatisk samhandling detektor) beslutningstrær
Lineær regresjon
Visualisering verktøy
Logistisk regresjon
Nevrale nettverk
Discriminant analyse
No comments:
Post a Comment