Predictive Analytics

Da Wikipedia, l'enciclopedia libera

Predictive Analytics comprende una varietà di tecniche di statistiche, Data Mining e teoria dei giochi che analizzare i fatti attuali e storici per fare previsioni su eventi futuri.
Negli affari, modelli predittivi sfruttare i modelli presenti nei dati storici e transazionali di identificare rischi e opportunità. relazioni tra modelli di cattura molti fattori da consentire la valutazione del rischio o potenziali associati con un particolare insieme di condizioni, guidando decisionali per le operazioni di candidati.
Predictive Analytics è utilizzato in scienze attuariali, servizi finanziari, assicurazione, telecomunicazioni, vendita al dettaglio, viaggio, assistenza sanitaria, prodotti farmaceutici ed in altri campi.
Una delle applicazioni più noto è credit scoring, Che è utilizzato in tutto servizi finanziari. modelli di scoring processo di un cliente credito storia, Domanda di credito, I dati dei clienti, ecc, al fine di classificare gli individui, per la loro probabilità di effettuare i pagamenti di credito futuro in tempo. Un esempio ben noto sarebbe il FICO Score.

Definizione

Predictive Analytics è uno spazio di analisi statistica che si occupa di estrarre informazioni dai dati e l'utilizzo di prevedere i trend futuri e modelli di comportamento. Il nucleo di analisi e stima si basa sulla cattura relazioni tra le variabili esplicative e variabili previsto da eventi passati, e il loro sfruttamento per prevedere i risultati futuri. E 'importante notare, tuttavia, che l'accuratezza e la fruibilità dei risultati dipenderà molto dal livello di analisi dei dati e la qualità delle ipotesi.

Tipi

In generale, il termine di analisi predittiva è usato per indicare modelli predittivi, Segnando dei modelli predittivi, e previsione. Tuttavia, le persone sono sempre più usando il termine per descrivere relative discipline di analisi, come la modellazione descrittivo e modellazione decisione o di ottimizzazione. Queste discipline coinvolgono anche una rigorosa analisi dei dati, e sono ampiamente usati in attività per la segmentazione e il processo decisionale, ma hanno scopi diversi e le tecniche statistiche sottostanti variare.

Modelli di previsione

Modelli predittivi di analizzare le performance passate per valutare la probabilità che un cliente è di esibire un comportamento specifico, in futuro, al fine di migliorare marketing efficacia. Questa categoria comprende anche i modelli che cercano sottile di modelli di dati per rispondere alle domande circa le prestazioni dei clienti, come i modelli di rilevazione delle frodi. Modelli predittivi spesso eseguire calcoli durante le transazioni reali, per esempio, per valutare il rischio o opportunità di un cliente o di un'operazione, al fine di orientare una decisione. Con l'avanzamento in termini di velocità di calcolo, i singoli sistemi di modellazione agente in grado di simulare il comportamento umano o di reazione a determinati stimoli o scenari. Il nuovo termine per l'animazione di dati specificamente legati a un individuo in un ambiente simulato è analytics avatar.

modelli descrittivi

modelli descrittivi quantificare le relazioni di dati in un modo che è spesso usato per classificare i clienti o potenziali clienti in gruppi. A differenza dei modelli predittivi che si concentrano sulla previsione di un comportamento unico cliente (come il rischio di credito), i modelli descrittivi identificare molte diverse relazioni tra i clienti o dei prodotti. modelli descrittivi clienti non rank-order da parte la loro probabilità di prendere una azione particolare del modo in modelli predittivi fare. modelli descrittivi possono essere utilizzati, ad esempio, per classificare i clienti con le loro preferenze di prodotto e fase della vita. strumenti di modellazione descrittivo può essere utilizzata per sviluppare modelli, inoltre, che possono simulare gran numero di agenti individuali e fare previsioni.

Decisione modelli

Decisione modelli descrivere la relazione tra tutti gli elementi di una decisione - i dati noti (compresi i risultati dei modelli predittivi), la decisione e dei risultati di previsione della decisione - al fine di predire i risultati delle decisioni che coinvolgono numerose variabili. Questi modelli possono essere utilizzati in ottimizzazione, massimizzando i risultati, mentre altri al minimo. modelli di decisione sono generalmente utilizzati per sviluppare la logica decisione o un insieme di regole di business che consentono di ottenere l'azione desiderata per ogni cliente o di circostanza.

Applicazioni

Anche se analisi predittive possono essere utilizzate in molte applicazioni, delineiamo alcuni esempi in cui l'analisi predittiva ha mostrato effetti positivi negli ultimi anni.

Analitico di customer relationship management (CRM)

Analitici Customer Relationship Management è una frequente applicazione commerciale di Predictive Analysis. Metodi di analisi predittiva sono applicati ai dati dei clienti per realizzare obiettivi di CRM.

Clinical Decision Support Systems

Gli esperti usano l'analisi predittiva nella cura della salute in primo luogo per determinare quali pazienti sono a rischio di sviluppare determinate condizioni, come il diabete, l'asma, malattie cardiache e malattie la vita di altri. Inoltre, sofisticati sistemi di supporto decisionale clinico incorporano analisi predittiva per sostenere decisionale medico presso il punto di cura. Una definizione di lavoro è stata proposta dal Dr. Robert Hayward del Centre for Evidence Salute: "Clinical Decision Support sistemi di collegamento osservazioni sanitari con le conoscenze sanitarie di influenzare le scelte di salute dai medici per l'assistenza sanitaria migliore. "

Raccolta di analisi

Ogni portfolio ha una serie di clienti delinquente che non fanno i loro pagamenti in tempo. L'istituto finanziario deve intraprendere attività di raccolta su questi clienti per il recupero degli importi dovuti. Un sacco di risorse di raccolta sono sprecati per i clienti che sono difficili o impossibili da recuperare. Predictive Analytics può aiutare a ottimizzare la ripartizione delle risorse collezione con l'individuare le agenzie di recupero più efficaci, le strategie di contatto, azioni legali e altre strategie per ogni cliente, in modo da aumentare in modo significativo il recupero allo stesso tempo ridurre i costi di raccolta.

Cross-sell

Spesso le organizzazioni aziendali raccogliere e conservare dati abbondanti (ad esempio, i record dei clienti, operazioni di vendita) e sfruttando le relazioni nascoste tra i dati in grado di fornire un vantaggio competitivo per l'organizzazione. Per un'organizzazione che offre più prodotti, l'analisi del comportamento dei clienti esistenti possono portare ad efficienza cross-selling dei prodotti. Questo porta direttamente a una maggiore redditività per cliente e il rafforzamento del rapporto con il cliente. Predictive Analytics può aiutare ad analizzare la spesa dei clienti ', l'utilizzo e il comportamento di altri, e contribuire a cross-vendere il prodotto giusto al momento giusto.

Fidelizzazione

Con la quantità di servizi concorrenti a disposizione, le aziende devono concentrare gli sforzi sul mantenimento di continuo soddisfazione dei consumatori. In un tale scenario competitivo, Fedeltà dei clienti deve essere ricompensato e cliente attrito deve essere ridotto al minimo. Le imprese tendono a rispondere a logorio dei clienti su base reattiva, che agisce solo dopo che il cliente ha avviato il processo per terminare servizio. In questa fase, la possibilità di cambiare la decisione del cliente è quasi impossibile. La corretta applicazione di analisi predittiva può portare a una strategia di conservazione più proattivo. Da un esame frequente di utilizzo del servizio passato di un cliente, la prestazione di servizi, la spesa e altri modelli di comportamento, modelli predittivi in grado di determinare la probabilità che un cliente voler porre termine al servizio a volte nel prossimo futuro. Un intervento con le offerte lucrativo può aumentare la possibilità di trattenere il cliente. Silent attrito è il comportamento di un cliente per lentamente ma costantemente ridurre l'uso ed è un altro problema affrontato da molte aziende. Predictive Analytics può anche prevedere questo comportamento in modo esatto e prima che si verifichi, in modo che l'azienda può prendere azioni appropriate per aumentare l'attività dei clienti.

Direct marketing

Quando marketing prodotti di consumo e servizi non vi è la sfida di tenere il passo con i prodotti concorrenti e comportamento dei consumatori. Oltre a individuare prospettive, analisi predittiva può anche aiutare a individuare la combinazione più efficace delle versioni del prodotto, materiale di marketing, i canali di comunicazione e dei tempi che dovrebbero essere utilizzati per indirizzare un consumatore determinato. L'obiettivo di analisi predittiva è in genere per abbassare la costo per ordine o costo per azione.

Fraud Detection

La frode è un grosso problema per molte aziende e può essere di vario tipo. richieste di credito inesatti, transazioni fraudolente (sia offline che online), furti di identità e crediti di assicurazione falsi sono alcuni esempi di questo problema. Questi problemi affliggono le imprese di tutto lo spettro e alcuni esempi delle vittime probabilmente sono carta di credito degli emittenti, Assicurazioni, commercianti al dettaglio, fabbricanti, ai fornitori di business aziendali e anche i fornitori di servizi. Questa è un'area in cui un modello predittivo è spesso usato per escludere i "mali" e ridurre l'esposizione di un'azienda alla frode.
modellazione predittiva può essere utilizzato anche per individuare le frodi finanziarie dichiarazione in società, consentendo ai revisori di valutare il rischio relativo di una società, e di aumentare le procedure di controllo sostanziale, se necessario.
L'Internal Revenue Service (IRS) degli Stati Uniti utilizza anche analitiche predittive per cercare di individuare la frode fiscale.

Portfolio, prodotto o il livello di previsione dell'economia

Spesso al centro di analisi non è il consumatore, ma il prodotto, il portafoglio, azienda, industria o anche l'economia. Ad esempio, un dettagliante potrebbe essere interessato in previsione della domanda a livello negozio a fini di gestione del magazzino. Oppure, il Federal Reserve Board potrebbero essere interessati a predire il tasso di disoccupazione per l'anno prossimo. Questo tipo di problemi possono essere affrontati con analisi predittiva utilizzando tecniche di Time Series (vedi sotto).

Sottoscrizione

Molte aziende hanno per tenere conto di esposizione al rischio a causa della loro servizi diversi e determinare il costo necessario per coprire il rischio. Ad esempio, i fornitori di assicurazione auto necessità di determinare con precisione l'importo del premio di addebitare a coprire ogni macchina e l'automobilista. Una società finanziaria deve valutare il potenziale del debitore e la capacità di pagare prima di concedere un prestito. Per un fornitore di assicurazione sanitaria, analisi predittiva in grado di analizzare alcuni anni di rivendicazioni ultimi dati medici, così come di laboratorio, farmacia e altri documenti, se disponibili, di prevedere quanto costoso un iscritto è probabile che sia in futuro. analisi predittiva può aiutare sottoscrizione di tali quantitativi predire le probabilità di malattia, di default, fallimento, Ecc Predictive Analytics possono ottimizzare il processo di acquisizione clienti, da prevedere il comportamento futuro rischio di un cliente che utilizza dati a livello di applicazione. analisi predittiva in forma di punteggi di credito hanno ridotto la quantità di tempo necessaria per l'approvazione dei prestiti, in particolare nel mercato dei mutui in cui le decisioni sono ora in prestito in poche ore anziché in giorni o addirittura settimane. Una corretta analisi dei dati di previsione può portare a decisioni sui prezzi adeguata, che può contribuire a ridurre i rischi futuri di default.

Tecniche statistiche di

I metodi e le tecniche utilizzate per condurre analisi predittiva si possono dividere in tecniche di regressione e le tecniche di apprendimento automatico.

Tecniche di regressione

Regressione i modelli sono il fondamento di analisi predittiva. Il focus è sulla creazione di una equazione matematica come modello per rappresentare le interazioni tra le diverse variabili in considerazione. A seconda della situazione, c'è una grande varietà di modelli che possono essere applicati durante l'esecuzione di analisi predittiva. Alcuni di loro sono brevemente discussi di seguito.

Modello di regressione lineare

L' regressione del modello lineare analizza il rapporto tra la risposta o la variabile dipendente e un insieme di variabili indipendenti o predittori. Questo rapporto è espresso come un'equazione che predice la variabile di risposta come una funzione lineare dei parametri. Questi parametri sono regolati in modo che una misura di adattamento è ottimizzato. Gran parte degli sforzi in raccordo modello è focalizzata sulla riduzione delle dimensioni del residuo, e garantire che sia distribuiti in modo casuale rispetto alla previsioni del modello.
L'obiettivo della regressione è quello di selezionare i parametri del modello in modo da minimizzare la somma dei residui quadrati. Questo è indicato come minimi quadrati ordinari (OLS), la stima e la traduce in migliori stime lineari non distorti (BLUE) dei parametri se e solo se la Gauss-Markov le ipotesi sono soddisfatte.
Una volta che il modello è stato stimato che sarebbero interessati a sapere se le variabili predittive fanno parte del modello - cioè la stima del contributo affidabile di ogni variabile? Per fare questo siamo in grado di verificare la significatività statistica dei coefficienti del modello che può essere misurata con la statistica t. Ciò equivale a verificare se il coefficiente è significativamente diverso da zero. Come il modello predice la variabile dipendente in base al valore delle variabili indipendenti possono essere valutate utilizzando la statistica R ². Esso misura il potere predittivo del modello, vale a dire la percentuale della variazione totale della variabile dipendente che viene "spiegato" (rappresentato) da variazioni nelle variabili indipendenti.

Discreti scelta dei modelli

regressione multivariata (sopra) è generalmente utilizzato quando la variabile risposta è continua e ha una gamma illimitata. Spesso la variabile di risposta non può essere continuo, ma piuttosto discreta. Anche se matematicamente è possibile applicare la regressione multivariata di variabili discrete ordinato dipendenti, alcuni dei presupposti alla base della teoria della regressione lineare multivariata non reggono più, e ci sono altre tecniche come i modelli di scelta discreta, che sono più adatti per questo tipo di analisi. Se la variabile dipendente è discreto, alcuni di questi metodi sono superiori regressione logistica, logit multinomiale e probit modelli. Modelli di regressione logistica e probit sono utilizzati quando la variabile dipendente è binario.

Di regressione logistica

Per ulteriori dettagli su questo argomento, vedere regressione logistica.

In una cornice di classificazione, l'assegnazione delle probabilità esito alle osservazioni possono essere realizzati attraverso l'uso di un modello logistico, che è fondamentalmente un metodo che trasforma informazioni sulla variabile binaria dipendente in una variabile infinita continua e stima un modello regolare multivariata (vedi Allison di regressione logistica per ulteriori informazioni sulla teoria della regressione logistica).
L' Wald e del rapporto di verosimiglianza test vengono utilizzati per testare la significatività statistica di ogni coefficiente b nel modello (analogo al test t utilizzato in regressione OLS, vedi sopra). Un test di valutazione del-la bontà di adattamento di un modello di classificazione è la –.

Regressione logistica multinomiale

Una proroga della binario modello logit ai casi in cui la variabile dipendente ha più di 2 categorie è il modello logit multinomiale. In tali casi crollare i dati in due categorie potrebbe non avere buon senso o possono portare alla perdita della ricchezza dei dati. Il modello logit multinomiale è la tecnica appropriata in questi casi, soprattutto quando le categorie variabile dipendente non sono ordinati (per i colori esempi come rosso, blu, verde). Alcuni autori hanno esteso regressione multinomiale per includere la funzionalità di selezione / metodi importanza come Random logit multinomiale.

Regressione probit

Probit modelli offrire un'alternativa alla regressione logistica per la modellazione di variabili categoriali dipendenti. Anche se i risultati tendono ad essere simili, le distribuzioni di fondo sono diverse. modelli Probit sono popolari nel campo delle scienze sociali come l'economia.
Un buon modo per capire la differenza fondamentale tra i modelli probit e logit, è quello di presumere che ci sia una variabile latente z.
Noi non osserviamo z, ma invece osservare che y assume il valore 0 o 1. Nel modello logit si assume che segue y uno distribuzione logistica. Nel modello probit si assume che y segue una distribuzione normale standard. Si noti che nelle scienze sociali (economia esempio), probit viene spesso utilizzata per modellare situazioni in cui la variabile y osservato è continua ma assume valori tra 0 e 1.

Logit contro probit

L' Modello Probit è stato più a lungo rispetto al modello logit. Sembrano identiche, salvo che la distribuzione logistica tende ad essere un po 'piatto coda. Uno dei motivi per il modello logit è stata formulata è stata che il modello probit era difficile da calcolare, perché coinvolto il calcolo di integrali difficile. informatici moderni, tuttavia, ha fatto questo calcolo abbastanza semplice. I coefficienti ottenuti dal modello logit e probit sono anche abbastanza vicino. Tuttavia, il odds ratio rende il modello logit più facile da interpretare.
Ai fini pratici l'unica motivazione per la scelta del modello probit sul modello logistico sarebbe:

Vi è una forte convinzione che la distribuzione è normale
L'evento reale non è un risultato binario (ad esempio, fallito / non in fallimento), ma una parte (ad esempio proporzione di popolazione a livelli di debito diversi).

Modelli delle serie storiche

Tempo di serie modelli utilizzati per prevedere o la previsione del comportamento futuro di variabili. Questi modelli rappresentano il fatto che i punti dati presi nel corso del tempo possono avere una struttura interna (come autocorrelazione, tendenza o variazione stagionale) che devono essere contabilizzate. In qualità di tecniche standard di regressione risultato non può essere applicata a dati di serie temporali e la metodologia è stata sviluppata la tendenza a decomporsi, componente stagionale e ciclica della serie. Modellazione il percorso dinamico di una variabile può migliorare le previsioni in quanto la componente prevedibile della serie può essere proiettata nel futuro.
I modelli della serie Time stima equazioni alle differenze, contenenti componenti stocastici. Due forme di uso comune di questi modelli sono modelli autoregressivi (AR) e media mobile (MA) i modelli. L' Box-Jenkins metodologia (1976) sviluppato da George Box e GM Jenkins, combina la AR e MA modelli per produrre il ARMA (Autoregressivo a media mobile), modello che è alla base di analisi di serie temporali stazionarie. ARIMA (Autoregressivi modelli integrati media mobile), dall'altro vengono utilizzate per descrivere le serie temporali non stazionarie. Box e Jenkins differenze suggeriscono una serie non stazionaria tempo di ottenere una serie stazionaria a cui un modello ARMA può essere applicata. serie temporali non stazionarie hanno una tendenza marcata e non hanno una media costante di lungo periodo o varianza.
Box e Jenkins ha proposto una metodologia di tre fasi che include: identificazione del modello, stima e di validazione. La fase di identificazione consiste nell'individuare se la serie è stazionaria o meno e la presenza di stagionalità esaminando trame della serie, autocorrelazione e funzioni di autocorrelazione parziale. Nella fase di stima, i modelli sono stimati sulla base di serie temporali non lineari o di procedure di stima massima verosimiglianza. Infine, la fase di validazione consiste nel verificare diagnostici come tracciare i residui di individuare valori anomali e prove di adattamento del modello.
Negli ultimi anni i modelli di serie temporali sono diventati più sofisticati e il tentativo di modellare eteroschedasticità condizionale con modelli come ARCH (eteroschedasticità condizionale autoregressiva) E GARCH (generalizzata autoregressivo eteroschedasticità condizionale) i modelli utilizzati di frequente per le serie temporali finanziarie. Nel tempo inoltre i modelli della serie sono utilizzati anche per capire inter-relazioni tra le variabili economico rappresentato dai sistemi di equazioni utilizzando VAR (vettoriali autoregressivi) e modelli VAR strutturali.

Sopravvivenza o analisi di durata

Analisi di sopravvivenza è un altro nome per il momento di analisi degli eventi. Queste tecniche sono state sviluppate principalmente nel campo delle scienze mediche e biologiche, ma sono anche ampiamente usati nelle scienze sociali come l'economia, così come in ingegneria (affidabilità e il tempo failure analysis).
La censura e il non-normalità, che sono caratteristiche dei dati di sopravvivenza, di generare difficoltà quando si cerca di analizzare i dati con i convenzionali modelli statistici, come più regressione lineare. L' distribuzione normale, Essendo una distribuzione simmetrica, si sia positivi che valori negativi, ma la durata per sua stessa natura non può essere negativo e, pertanto, la normalità non può essere assunta quando si tratta di durata / dati di sopravvivenza. Da qui l'ipotesi di normalità di modelli di regressione è violata.
Il presupposto è che se i dati non sono stati censurati sarebbe rappresentativo della popolazione di interesse. In analisi di sopravvivenza, le osservazioni censurate sorgono ogni volta che la variabile dipendente di interessi rappresenta il momento di un evento terminale, e la durata dello studio è limitata nel tempo.
Un concetto importante in analisi di sopravvivenza è la rischio tasso, Definito come la probabilità che l'evento si verifica al tempo t condizionato a sopravvivere fino al tempo t. Un altro concetto correlato al tasso di rischio è la funzione di sopravvivenza che può essere definito come la probabilità di sopravvivere al tempo t.
La maggior parte dei modelli di provare a modello il tasso di rischio, scegliendo la distribuzione sottostante a seconda della forma della funzione di rischio. Una distribuzione la cui pericolosità funzione pendii verso l'alto si dice che la dipendenza positiva durata, un rischio di diminuzione mostra la dipendenza negativa durata mentre pericolo costante è un processo senza memoria generalmente caratterizzata da una distribuzione esponenziale. Alcune delle scelte distributive nei modelli di sopravvivenza sono: F, gamma, Weibull, log normale, normale inversa, ecc esponenziale Tutte queste distribuzioni sono per una variabile casuale non negativa.
modelli di durata possono essere parametrici, non parametrici o semi-parametrica. Alcuni dei modelli comunemente utilizzati sono Kaplan-Meier e il modello di rischio proporzionale di Cox (non parametrico).

Classificazione e alberi di regressione

Articolo principale: decisione albero di apprendimento

Gli alberi di classificazione e di regressione (CART) è un non parametrici Decisione albero apprendimento tecnica che produce o alberi di classificazione o di regressione, a seconda se la variabile dipendente è categoriale o numerica, rispettivamente.
Decisione alberi sono formati da un insieme di regole basate su valori di alcune variabili nei dati di modellazione set

Le regole sono selezionate in base a come ben si divide in base ai valori delle variabili 'in grado di differenziare le osservazioni sulla base della variabile dipendente
Una volta che una regola viene selezionato e divide un nodo in due, la stessa logica si applica a ciascun nodo "figlio" (vale a dire che è una procedura ricorsiva)
Dividere si interrompe quando CART rileva nessun guadagno ulteriore può essere fatto, o alcune regole pre-impostati di arresto sono soddisfatti

Ogni ramo dell'albero termina in un nodo terminale

Ogni osservazione cade in uno e esattamente un nodo terminale
Ogni nodo terminale è univocamente definita da un insieme di regole

Un metodo molto popolare per l'analisi predittiva è Breiman Leo's Random foreste o versioni derivate di questa tecnica come Random logit multinomiale.

spline di regressione multivariata adattiva

spline di regressione multivariata adattiva (MARS) è un non parametrici tecnica che costruisce modelli flessibili di raccordo a tratti regressioni lineari.
Un concetto importante associato spline di regressione è quella di un nodo. Knot è dove un modello di regressione locale lascia il posto ad un altro ed è quindi il punto di intersezione tra due scanalature.
In spline di regressione multivariata e adattiva, funzioni di base sono lo strumento utilizzato per generalizzare la ricerca di nodi. funzioni di base sono un insieme di funzioni utilizzate per rappresentare le informazioni contenute in una o più variabili. Multivariata e Adaptive Regression Splines modello quasi sempre crea le funzioni di base a coppie.
Multivariati e approccio adattivo spline di regressione deliberatamente overfits le prugne modello e quindi per arrivare al modello ottimale. L'algoritmo è computazionalmente molto intensiva e, in pratica, ci viene richiesto di specificare un limite massimo al numero di funzioni di base.

Tecniche di machine learning

Apprendimento automatico, Un ramo di intelligenza artificiale, è stato inizialmente impiegato per sviluppare tecniche per consentire ai computer per imparare. Oggi, dal momento che comprende una serie di metodi statistici avanzati per la regressione e la classificazione, trova applicazione in una vasta gamma di settori tra cui diagnostica medica, individuazione delle frodi con carta di credito, faccia e riconoscimento vocale e di analisi del borsa. In alcune applicazioni è sufficiente per prevedere direttamente la variabile dipendente senza mettere a fuoco le relazioni tra le variabili sottostanti. In altri casi, i rapporti sottostanti possono essere molto complessa e la forma matematica delle dipendenze sconosciuto. Per tali casi, le tecniche di machine learning emulare umano cognizione e imparare da esempi di formazione per predire eventi futuri.
Una breve discussione di alcuni di questi metodi utilizzati comunemente per l'analisi predittiva viene riportato di seguito. Uno studio dettagliato di apprendimento macchina può essere trovato in Mitchell (1997).

Le reti neurali

Le reti neurali sono non lineare sofisticate tecniche di modellistica, che sono in grado di modello funzioni complesse. Essi possono essere applicati ai problemi di predizione, classificazione o controllo in un ampio spettro di settori quali la finanza, psicologia cognitiva/neuroscienze, medicina, ingegneriaE fisica.
Le reti neurali sono utilizzati quando l'esatta natura della relazione tra input e output non è noto. Una caratteristica fondamentale delle reti neurali è che imparino il rapporto tra input e output attraverso la formazione. Ci sono due tipi di formazione, reti neurali utilizzate da reti diverse, supervisionato e senza sorveglianza formazione, con supervisione di essere il più comune.
Alcuni esempi di tecniche di addestramento della rete neurale sono backpropagation, La propagazione rapida, discesa del gradiente coniugato, operatore di proiezione, Delta-Bar-Delta ecc Alcune architetture di rete senza controllo sono multistrato perceptron, Reti di Kohonen, Reti di Hopfield, Ecc

funzioni di base radiali

A funzione di base radiale (RBF) è una funzione che ha costruito in esso un criterio di distanza rispetto a un centro. Tali funzioni possono essere utilizzate in modo molto efficiente per interpolazione e di perequazione dei dati. funzioni di base radiali sono state applicate nel settore della le reti neurali dove vengono utilizzati come una sostituzione per i sigmoidale funzione di trasferimento. Tali reti hanno 3 strati, lo strato di input, il livello nascosto con la non-linearità RBF e uno strato di uscita lineare. La scelta più popolare per la non-linearità è la gaussiana. reti RBF hanno il vantaggio di non essere bloccati in minimi locali come le feed-forward reti come il multistrato perceptron.

Support Vector Machines

Support Vector Machines (SVM) sono utilizzati per rilevare e valorizzare modelli complessi di dati da parte di clustering, classificazione e valutazione dei dati. Stanno imparando macchine che vengono utilizzate per eseguire le classificazioni binari e le stime di regressione. Si usano comunemente i metodi kernel basato ad applicare tecniche di classificazione lineare per problemi di classificazione non lineare. Ci sono un certo numero di tipi di SVM come lineare, polinomiale, etc sigma

Naïve Bayes

Naïve Bayes basato sulla regola di Bayes probabilità condizionale è usato per l'esecuzione di compiti di classificazione. Naïve Bayes assume i predittori sono statisticamente indipendenti che gli rende un efficace strumento di classificazione che è facile da interpretare. E 'meglio impiegato di fronte al problema della' maledizione della dimensionalità ', cioè quando il numero di predittori è molto alta.

kvicini, più vicini

L' vicino di casa più vicina algoritmo (KNN) appartiene alla classe dei metodi di riconoscimento di pattern statistici. Il metodo non impone a priori alcuna ipotesi circa la distribuzione da cui è tratto il campione di modellazione. Si tratta di un training set con valori sia positivi che negativi. Un nuovo campione è classificato calcolando la distanza dalla più vicina caso vicini di formazione. Il segno di quel punto si determina la classificazione del campione. Nel classificatore k-vicino più vicino, i k punti più vicini sono considerati e il segno della maggioranza è utilizzato per classificare il campione. Le prestazioni dell'algoritmo Knn è influenzato da tre fattori principali: (1) la misura di distanza utilizzata per individuare il più vicini, (2) la regola di decisione utilizzati per ottenere una classificazione del-vicini di casa più vicina k, e (3) il numero dei vicini utilizzate per classificare il nuovo campione. Si può dimostrare che, a differenza di altri metodi, questo metodo è universalmente asintoticamente convergenti, ovvero: come la dimensione degli aumenti di impostare la formazione, se le osservazioni sono indipendenti e identicamente distribuite (i.i.d.), Indipendentemente dalla distribuzione da cui è tratto il campione, la classe prevede convergeranno per l'assegnazione di classe che minimizza l'errore errore di classificazione. Vedi Devroy et al.

Geospatial modellazione predittiva

Concettualmente, geospaziali modellazione predittiva è radicato nel principio che le occorrenze di eventi che vengono modellati sono limitati nella distribuzione. Occorrenze di eventi non sono né uniforme né casuale nella distribuzione - ci sono fattori ambientali del territorio (infrastrutture, socioculturali, topografiche, ecc) che limitano l'influenza e dove i luoghi degli eventi si verificano. Geospatial tentativi di modellazione predittiva di descrivere tali vincoli e influenze da correlare spazialmente le occorrenze di luoghi storici geospaziali con i fattori ambientali che rappresentano tali vincoli e influenze. Geospatial modellazione predittiva è un processo per analizzare gli eventi attraverso un filtro geografica, al fine di fare dichiarazioni di probabilità di occorrenza di eventi o di emergere.

Strumenti

Ci sono numerosi strumenti disponibili sul mercato che aiutano con l'esecuzione di analisi predittiva. Si va da quelli che hanno bisogno di sofisticazione utente molto poco a quelle che sono progettati per il praticante esperto. La differenza tra questi strumenti è spesso il livello di personalizzazione e di dati di sollevamento pesante consentito.
Nel tentativo di fornire un linguaggio standard per esprimere modelli predittivi, il Predictive Model Markup Language (PMML) è stato proposto. Un tale linguaggio basato su XML fornisce un modo per i vari strumenti per definire modelli predittivi e di condividere queste PMML tra le applicazioni compatibili. PMML 4.0 è stato rilasciato nel giugno 2009.

mercoledì 7 settembre 2011