Det finnes en rekke tilnærminger til modellering av tidsserier. Vi skisserer noen av de vanligste tilnærmingene nedenfor. Trend, Seasonal, Residual Decompositions En tilnærming er å dekomponere tidsserien til en trend, sesongmessig og gjenværende komponent. Tredobbelt eksponensiell utjevning er et eksempel på denne tilnærmingen. Et annet eksempel, kalt sesongbasert loess, er basert på lokalt vektede minste kvadrater og diskuteres av Cleveland (1993). Vi diskuterer ikke sesongløser i denne håndboken. Frekvensbaserte metoder En annen tilnærming, som ofte brukes i vitenskapelige og tekniske applikasjoner, er å analysere serien i frekvensdomenet. Et eksempel på denne tilnærmingen ved modellering av et sinusformet datasett er vist i strålebøyningsstudiet. Spektralplottet er det primære verktøyet for frekvensanalysen av tidsserier. Autoregressive (AR) Modeller En felles tilnærming for modellering av univariate tidsserier er den autoregressive (AR) modellen: Xt delta phi1 X phi2 X cdots phip X At, hvor (Xt) er tidsseriene, (At) er hvit støy og delta venstre (1 - sum p phi høyre) mu. med (mu) betegner prosessmiddelet. En autoregressiv modell er rett og slett en lineær regresjon av dagens verdi av serien mot en eller flere tidligere verdier av serien. Verdien av (p) kalles rekkefølgen til AR-modellen. AR-modeller kan analyseres med en av ulike metoder, inkludert standard lineære minste kvadratteknikker. De har også en enkel tolkning. Moving Average (MA) Modeller En annen felles tilnærming for modellering av univariate tidsseriemodeller er den bevegelige gjennomsnittlige (MA) modellen: Xt mu At - theta1 A - theta2 A - cdots - thetaq A, hvor (Xt) er tidsserien, ) er middelverdien av serien, (A) er hvite lydvilkår, og (theta1, ldots, thetaq) er parametrene til modellen. Verdien av (q) kalles rekkefølgen av MA-modellen. Det vil si at en bevegelig gjennomsnittsmodell er konseptuelt en lineær regresjon av dagens verdi av serien mot den hvite støyen eller tilfeldige støt av en eller flere tidligere verdier av serien. De tilfeldige støtene ved hvert punkt antas å komme fra samme fordeling, typisk en normalfordeling, med plassering på null og konstant skala. Sondringen i denne modellen er at disse tilfeldige sjokkene er propogated til fremtidige verdier av tidsseriene. Tilpasning av MA-estimatene er mer komplisert enn med AR-modeller fordi feilvilkårene ikke er observerbare. Dette betyr at iterative ikke-lineære monteringsprosedyrer må brukes i stedet for lineære minstefirkanter. MA-modeller har også en mindre åpenbar tolkning enn AR-modeller. Noen ganger vil ACF og PACF foreslå at en MA-modell ville være et bedre modellvalg, og noen ganger bør både AR og MA-termer brukes i samme modell (se avsnitt 6.4.4.5). Vær imidlertid oppmerksom på at feilvilkårene etter modellen passer, skal være uavhengige og følge standardforutsetningene for en univariate prosess. Box og Jenkins populariserte en tilnærming som kombinerer det bevegelige gjennomsnittet og de autoregressive tilnærmingene i boken Tidsserieanalyse: Forecasting and Control (Box, Jenkins og Reinsel, 1994). Selv om både autoregressive og bevegelige gjennomsnittlige tilnærminger allerede var kjent (og ble opprinnelig undersøkt av Yule), var Boxes og Jenkins bidrag i å utvikle en systematisk metode for å identifisere og estimere modeller som kunne inkludere begge tilnærminger. Dette gjør Box-Jenkins-modeller til en kraftig klasse av modeller. De neste seksjonene vil diskutere disse modellene i detalj. LØSES er en av mange moderne modelleringsmetoder som bygger på klassiske metoder, for eksempel lineær og ikke-lineær minste kvadrater regresjon. Moderne regresjonsmetoder er utformet for å løse situasjoner der de klassiske prosedyrene ikke fungerer bra eller ikke effektivt kan brukes uten unødig arbeidskraft. LOESS kombinerer mye av enkelheten til lineær minste kvadrater regresjon med fleksibiliteten til ikke-lineær regresjon. Det gjør dette ved å tilpasse enkle modeller til lokaliserte delsett av dataene for å bygge opp en funksjon som beskriver den deterministiske delen av variasjonen i dataene. punkt for punkt. Faktisk er en av hovedattraksjonene i denne metoden at dataanalytikeren ikke er pålagt å spesifisere en global funksjon av noen form for å passe en modell til dataene, bare for å passe segmenter av dataene. Avviket for disse funksjonene er økt beregning. Fordi det er så beregningsintensivt, ville LOESS ha vært praktisk talt umulig å bruke i tiden da minst kvadratene regresjon ble utviklet. De fleste andre moderne metoder for prosessmodellering ligner LOESS i denne forbindelse. Disse metodene har blitt bevisst utviklet for å bruke vår nåværende beregningsevne til størst mulig fordel for å oppnå mål som ikke lett oppnås ved tradisjonelle tilnærminger. Definisjon av en LOESS-modell LOESS, opprinnelig foreslått av Cleveland (1979) og videreutviklet av Cleveland og Devlin (1988). spesifiserer spesifikt en metode som er (noe) mer beskrivende kjent som lokalvektet polynom-regresjon. På hvert punkt i datasettet er et lavgradspolynom egnet til en delmengde av dataene, med forklarende variableverdier nær punktet hvis respons er estimert. Polynomien er egnet ved å bruke vektede minste kvadrater, noe som gir mer vekt til poeng i nærheten av punktet hvis respons er estimert og mindre vekt å peke lenger unna. Verdien av regresjonsfunksjonen for punktet blir da oppnådd ved å evaluere det lokale polynomet ved bruk av de forklarende variablene for datapunktet. LOESS-passformen er fullført etter at regresjonsfunksjonsverdiene er beregnet for hver av (n) datapunkter. Mange av detaljene i denne metoden, som graden av polynomemodellen og vektene, er fleksible. Utvalget av valg for hver del av metoden og typiske standardverdier er kort diskutert neste. Lokale datasett av data Undersettene av data som brukes for hver vektet minste kvadrat som passer inn i LOESS, bestemmes av en nærmeste naboeralgoritme. En brukerdefinert inngang til prosedyren kalt båndbredden eller utjevningsparameteren bestemmer hvor mye av dataene som brukes til å passe til hvert lokalpolynom. Utjevningsparameteren, (q), er et tall mellom ((d1) n) og (1), med (d) angir graden av det lokale polynomet. Verdien av (q) er andelen data som brukes i hver passform. Delmengden av data som brukes i hver vektet minste kvadratisk passform består av (nq) (avrundet til neste største heltall) poeng hvis forklarende variabler verdier er nærmest punktet som responsen estimeres. (q) kalles utjevningsparameteren fordi den styrer fleksibiliteten til LOESS-regresjonsfunksjonen. Store verdier av (q) gir de jevneste funksjonene som vinkler minst som svar på svingninger i dataene. Jo mindre (q) er, jo nærmere regresjonsfunksjonen vil samsvare med dataene. Hvis du bruker for lite, er en verdi av utjevningsparameteren ikke ønskelig, siden regresjonsfunksjonen vil etter hvert begynne å fange den tilfeldige feilen i dataene. Nyttige verdier av utjevningsparameteren ligger vanligvis i området 0,25 til 0,5 for de fleste LOESS-applikasjoner. Grad av lokale polynomier De lokale polynomene som passer til hver delmengde av dataene, er nesten alltid av første eller andre grad som er enten lokalt lineære (i rett linjeforstand) eller lokalt kvadratisk. Ved hjelp av en nullgradspolynomial blir LOESS i et veiet glidende gjennomsnitt. En slik enkel lokalmodell kan fungere bra for noen situasjoner, men kan ikke alltid tilnærme den underliggende funksjonen godt nok. Høyere grad polynomene ville fungere i teorien, men gi modeller som ikke er egentlig i LOESS-ånden. LOESS er basert på ideene om at en hvilken som helst funksjon kan være godt tilnærmet i et lite nabolag med et lavordenspolynom og at enkle modeller kan passe til data enkelt. Høygradige polynomene ville ha en tendens til å overfit dataene i hver delsett og er numerisk ustabile, noe som gjør nøyaktige beregninger vanskelige. Som nevnt ovenfor gir vektfunksjonen størst vekt på datapunktene nærmest estimeringspunktet og minst vekt til de datapunkter som er lengst unna. Bruken av vekter er basert på ideen om at poeng i nærheten av hverandre i forklaringsvariabelen er mer sannsynlig å være relatert til hverandre på en enkel måte enn punkter som er lenger fra hverandre. Etter denne logikken vil poeng som sannsynligvis vil følge lokalmodellen, ha størst innvirkning på estimatene for de lokale modellparametrene mest. Poeng som er mindre sannsynlig å faktisk overholder den lokale modellen, har mindre innflytelse på estimatene for de lokale modellparametrene. Den tradisjonelle vektfunksjonen som brukes for LOESS, er tricube-vektfunksjonen, w (x) til venstre (1 - x3) 3 mboxmike, installer først R (hvis du ikke allerede har det), kjør R og installer TeachingDemos-pakken (nøyaktig hvor avhenger på systemet ditt), laster pakken med bibliotek (TeachingDemos) og skriv inn loess. demo for å hente hjelpesiden for å se hvordan du kjører den. Du kan bla til bunnen der eksemplet er og kopiere og lime inn koden til R39s kommando linje for å se eksemplene, kjør deretter med dine egne data for å utforske videre. ndash Greg Snow Mar 23 12 på 17:15 Her er en enkel, men detaljert respons. En lineær modell passer til et forhold gjennom alle datapunkter. Denne modellen kan være første rekkefølge (en annen betydning av lineær) eller polynomisk å regne for krumning, eller med splines for å regne for forskjellige regioner som har en annen styrende modell. En LOESS-passform er en lokalt bevegelig vektet regresjon basert på de opprinnelige datapunktene. Det som betyr at A LOESS passer inn i de opprinnelige X - og Y-verdiene, pluss et sett med X-verdier for beregning av nye Y-verdier (vanligvis de samme X-verdiene brukes for begge, men ofte blir færre X-verdier brukt for monterte XY-par på grunn av økt beregning som kreves). For hver utgang X-verdi brukes en del av inngangsdataene til å beregne en passform. Delen av dataene, vanligvis 25 til 100, men typisk 33 eller 50, er lokal, hvilket betyr at den er den delen av de opprinnelige dataene som er nærmest hver spesiell utgang X-verdi. Det er en bevegelig passform, fordi hver utgang X-verdi krever en annen delmengde av de opprinnelige dataene, med forskjellige vekter (se neste avsnitt). Denne delmengden av inngangsdata brukes til å utføre en vektet regresjon, med poeng nærmest verdien X-verdien gitt større vekt. Denne regresjonen er vanligvis første rekkefølge andre ordre eller høyere er mulig, men krever større beregningskraft. Y-verdien av denne vektede regresjonen beregnet ved utgang X brukes som modell Y-verdien for denne X-verdien. Regresjonen rekomputeres ved hver utgang X-verdi for å produsere et komplett sett med Y-verdier. besvart 21 feb 15 kl 21:08
No comments:
Post a Comment