Estimationidenstokastiskevolatilitetsmodel:EnMarkovChainMonteCarlotilgang C B S

(1)

KANDIDATAFHANDLING

CAND.MERC.MAT

Estimation i den stokastiske volatilitets model: En Markov Chain Monte Carlo tilgang

Forfatter

Christian Janholm Loft (S101746)

Vejleder Anders Rønn-Nielsen

15. MAJ2020 N^ORMALSIDER: 77

(2)

1

Estimation of the stochastic volatility model: A Markov Chain Monte Carlo approach

By Christian Janholm Loft

Abstract

Stochastic volatility (SV) is an important part on how to modelling and predict time-variant volatility, which can not be observed in the financial market. Financial data is typically only observable in discrete-time meaning models describing stochastic volatility in discrete-time is equally relevant to models in continuous-time.

In this thesis, a method for estimating the stochastic volatility model will be introduced. It is a little bit more difficult for the SV model compared to the well-known GARCH model because the likelihood of the SV model is not directly available in a closed form. This requires a different approach than the usual one in maximum likelihood estimation. The method used in this thesis is a simulation technique known as Markov Chain Monte Carlo (MCMC), which exploits the advantages of the properties for Markov Chain and Monte Carlo. The MCMC technique is based on Bayesian inference, which gives us a probability distribution that allows us to generate samples from. These samples shape a Markov Chain, and for this part, Metropolis-Hastings and Gibbs sampler will be introduced as well. They give us two different methods on how to generate samples.

The main purpose of this thesis is to present the simplest form of the discrete-time SV and how statistical inference can be reached through full implementation of MCMC in R. Moreover, to the theoretical part of the two algorithms, it will be illustrated how they work in practice and a test case on the final implemented model will be performed. Finally, an analysis of a financial asset will be made, where a comparison will be made with the well-known GARCH model.

Our results show that the SV model was not fully capable to capture the over kurtosis we are seeing in returns of financial assets. But overall it did capture the structure of the absolute returns.

MCMC has some downsides, as they are based on Bayesian statistics, the result of the estima- tors will depend on the choice of iterations, burn-in period, start values of the parameters and the start prior distribution.

(3)

Indholdsfortegnelse

1 Indledning 4

1.1 Problemformulering . . . 5

1.2 Afgrænsning . . . 5

2 Bayesiansk inferens 6 2.1 Bayes’ teorem . . . 6

2.2 Kunjugate prior . . . 8

2.3 Posterior intervaller . . . 9

3 Markov Chain Monte Carlo 10 3.1 Stokastiske processer . . . 10

3.2 Markovkæder . . . 10

3.2.1 Stationaritet . . . 11

3.2.2 Konvergens . . . 13

3.3 Monte Carlo . . . 17

3.4 Metropolis-Hastings . . . 18

3.4.1 Algoritmen . . . 19

3.4.3 Eksempel . . . 24

3.5 Gibbs sampler . . . 26

3.5.1 Algoritmen . . . 26

3.5.2 Specieltilfælde af Metropolis-Hastings . . . 27

3.5.4 Eksempel . . . 28

3.6 Effektivisering . . . 30

4 Tidsvarierende volatilitets modeller 31 4.1 GARCH . . . 31

4.2 Stokastisk volatilitet . . . 33

4.2.1 Analyse af parametrene . . . 37

(4)

Indholdsfortegnelse 3

5 Estimation i tidsvarierende volatilitets modeller 40

5.1 GARCH . . . 40

5.2 Stokastisk volatilitet . . . 40

5.2.1 Test case af algoritmen . . . 52

6 Empirisk analyse 58 6.1 Data beskrivelse . . . 58

6.2 Resultat . . . 63

6.3 Forecast . . . 70

6.4 Sammenligning af GARCH og stokastisk volatilitet . . . 73

7 Udvidelsesmuligheder 75 8 Konklusion 76 9 Litteratur 78 Bilag A R-kode til indbyggede funktioner 80 A.1 Simulering af GARCH(1,1) . . . 80

A.2 Simulering af den stokastiske volatilitets model . . . 80

A.3 Estimation af den stokastiske volatilitets model . . . 81

A.4 Forecast af den stokastiske volatilitets model . . . 86

Bilag B R-kode til de enkelte afsnit 87 B.1 Bayesiansk inferens . . . 87

B.2 Metropolis-Hastings eksemplet . . . 88

B.3 Gibbs sampler eksemplet . . . 91

B.4 GARCH(1,1) eksemplet . . . 92

B.5 Stokastisk volatilitet eksemplet . . . 92

B.6 Analyse af parametrene i stokastisk volatilitet modellen . . . 92

B.7 Test case af estimation i SV modellen . . . 95

B.8 Empirisk analyse . . . 98

(5)

1 Indledning

Volatilitet er et vigtigt koncept indenfor finansiering og trading. Det er grundlæggende for pris- fastsættelse af optioner. Volatilitet bruges ogs˚a indenfor risk management, hvor man kan beregne værdien af risikoen (VaR) for en given portefølje, best˚aende af bestemt antal aktiver. Volatiliteten i sig selv er ogs˚a et finansielt aktiv som der handles med. Det kunne være VIX¹fra CBOE. Problemet med volatilitet er bare, at det ikke kan observeres p˚a markedet, ligesom det kan gøres for aktiepriser og renter. I stedet m˚aler man ofte volatilitet som historiske statiske udsving fra afkastet. Denne type m˚aling kaldes realiseret volatilitet eller historisk volatilitet. En alternativ metode til m˚aling af volatilitet er gennem optionsmarkedet, hvor optionskursen kan bruges til at udlede volatiliteten af den underliggende option. Dette foreg˚ar gennem visse prismodeller for optioner, hvor Black-Scholes- modellen er den mest populære. Denne type kaldes for implicit volatilitet. VIX er baseret p˚a implicit volatilitet.

Der findes en række statistiske metoder til m˚aling af den historiske volatilitet i en tidsserie p˚a bag- grund af udviklingen i de daglige OHLCA-priser (˚abne, høje, lave, lukke og justeret). En af de første modeller var ARCH (autoregressiv, betinget, heteroskedasticitet) af Engle i 1982, som senere blev udbygget af Bollerslev i 1986 til den generaliserede udgave af modellen, GARCH. Der findes flere forskellige udvidelser af disse typer modeller, men det vil fokusset ikke være p˚a. I stedet vil der fo- kuseres p˚a den stokastiske volatilitets model udviklet af Taylor i 1986, som er en diskret tids model p˚a et kontinuert udfaldsrum. Generelt er den stokastiske volatilitets model vanskelig at estimere.

Problemet er, at man ikke p˚a en simpel m˚ade kan opskrive likelihood funktionen, da modeltypen er defineret ud fra en ikke observerbar volatilitets proces. Derfor kan der heller ikke opn˚as sædvanli- ge parameterestimater via maksimum likelihood. Markov Chain Monte Carlo (MCMC) metoden er en alternativ estimations teknik, som vil danne grundlag for estimation i den stokastiske volatilitets model. MCMC bygger p˚a teorien omkring Bayesiansk inferens til at finde posterior fordelinger for de enkelte parametre. Til brugen af estimation i MCMC vil der blive introduceret Gibbs Sampler og Metropolis-Hastings algoritmen, som er brugbare n˚ar der skal trækkes prøver. Hele modellen til estimationen vil blive implementeret i R. Til anvendelse af den teori som der introduceres undervejs, vil

1Volatilitets indeks

(6)

1 Indledning 5

der blive foretaget en estimation af SV modellen ved et finansielt aktiv. Hvor selve resultatet testes for konvergens og stationaritet. Her vil der ogs˚a fremg˚a en sammenligning af GARCH og SV modellen.

1.1 Problemformulering

Denne afhandling ønsker, at estimere den stokastiske volatilitets model i et Markov Chain Monte Carlo setup. Til dette, vil denne afhandling komme ind p˚a

• Hvordan fungerer Bayesiansk inferens?

• Hvordan implementeres en MCMC model p˚a den stokastiske volatilitets model, og hvilke ud- fordringer kan der være?

• Hvilke forskelle er der p˚a GARCH og den stokastiske volatilitets model?

Til besvarelse af disse spørgsm˚al vil afhandlingen komme ind p˚a følgende emner

• Introduktion af MCMC og relevante algoritmer.

• Opsætning af den stokastiske volatilitets model.

• Udledning af den stokastiske volatilitets model i et MCMC setup og implementering af det fundende resultat i R.

• Teste resultatet af estimationen ved forskellige statitistike metoder.

1.2 Afgrænsning

Der vil ikke bliver brugt energi p˚a at udlede GARCH modellen særligt meget. Den vil kort blive beskrevet, men ellers bruges den som sammenlingsgrundlag. Da afhandlingens fokus vil være p˚a den stokastiske volatilitets model og estimation af denne. Derfor vil selve estimationen af GARCH forg˚a ved allerede bygget pakker i R. Afhandlingen vil ogs˚a være begrænset til, kun at fokusere p˚a den stokastiske volatilitets model med et normaltfordelt støjled. Hvor man kunne udvide med enten et t-fordelt støjled eller en jump parameter. For MCMC vil der kun blive fokuseret p˚a Gibbs Sampler og Metropolis-Hastings algoritmen, hvor disse kan udvides. Der vil derfor ikke blive fokuseret p˚a andre typer algoritmer.

(7)

2 Bayesiansk inferens

I dette afsnit er det primært brugt Ruppert & Matteson (2015) som kilde. Bayesiansk inferens er anden tilgang at udføre statistisk inferens p˚a end den klassiske maksimum likelihood metode, hvor en likelihood funktion er maksimeret til de parametre som giver den største likelihood. Ideen bag Bayesiansk inferens er, at transformer forudg˚aende overbevisninger om hvad parametrene er, til en ny overbevisning ved observeret data.

2.1 Bayes’ teorem

Lad θ definere en vektor af modelparametre², da vil prior fordelingen være givet ved p(θ), som udtrykker forventningen afθ før det observerede data,Y³. Likelihood funktionen fortolkes som den betingede fordeling afYgivetθ, p(y|θ). Ved at betragteθsom en stokastisk vektor, vil dens inferens være baseret p˚a posterior fordeligen,p(θ|y), som er givet ved Bayes’ regel

p(θ|y) = ^p(y,θ)

p(y) ^(2.1.1)

Den simultane fordeling afYogθkan omskrives ved hjælp af den betingede fordeling⁴

p(y,θ) =p(y|θ)p(θ)

dermed vil den simultane fordelingen være et produkt af likelihood funktionen og prior fordelingen.

Samtidig kan den marginale fordeling afYfindes ved at integrereθud af den simultane fordeling

p(y) =

Z

θ

p(y,θ)dθ =

Z

θ

p(y|θ)p(θ)dθ

P˚a den m˚ade kan Bayes’ regel for posterior fordelingen fra 2.1.1, omskrives til

p(θ|y) = ^p(y|θ)p(θ) R

θp(y|θ)p(θ)dθ (2.1.2)

2θ indeholder ogs˚a den latente variable, volatiliteten, som introduceres senere. Dette gøres, for at holde notationen simpel.

3Senere i afhandlingen vil det være det observerede afkast.

4Regneregel:f(y₁,y2) = f(y2|y₁)f(y₁) = f(y₁|y2)f(y2)

(8)

2 Bayesiansk inferens 7

Middelværdien af posterioeren findes ved E[θ|Y] = R

θθp(θ|y)dθ. Det overordnede omkring Bay- esiansk statistik g˚ar ud p˚a at forst˚a posterior fordelingen. Man kan derved tolke p(y)som en nor- maliseringskonstant, da p(y) ikke afhænger af θ. Derfor vil der ikke være nogen ny information i forhold til at finde posterior fordelingen, og posterior fordelingen vil dermed være proportional til en kombination af prior fordelingen og likelihood funktionen. Ligning 2.1.2 skrives nu som

p(θ|y)_∝p(y|θ)p(θ) (2.1.3) Med andre ord, i Bayesiansk inferens er læringsprocessen at ændre ens oprindelige sandsynligheds- angivelser om parametrene fra før dataene observeres. S˚aledes har den forudg˚aende overbevisning en betydning. Derfor vil posterior fordelingen være et kompromis mellem de subjektive informationer ved prior fordelingen og de objektive informationer givet ved likelihood. Hvis posterior fordelingen ikke er mulig at finde i en lukket form, kan den findes numerisk. I denne afhandling vil det være Markov Chain Monte Carlo teknikken der bruges, hvor middelværdien af posterior ogs˚a findes numerisk.

Et eksempel kunne være, hvis man har, at prior fordelingen er en betafordeling og likelihood funktionen er en binomialfordeling. Det kunne skrives op som

Y|θ ∼Binomial(n,θ) θ ∼Beta(α,β) Dermed vil posterior fordelingen blive

p(θ|y)_∝p(y|θ)p(θ)

= n

y

θ^y(1−θ)ⁿ⁻^yθ^α⁻¹(1−θ)^β⁻¹^Γ(α+β) Γ(α)_Γ(β)

= n

y

Γ(α+β) Γ(α)_Γ(β)^θ

y+α−1(₁−θ)ⁿ⁻^y⁺^β⁻¹

∝θ^y⁺^α⁻¹(₁−θ)ⁿ⁻^y⁺^β⁻¹

(9)

Det ses, at posterior fordelingen vil være en betafordeling med parametreney+αogn−y+β

θ|Y∼Beta(y+α,n−y+β)

Eftersom tætheder altid integrerer til 1, kan man se bort fra proportionalkonstanten.

0.0 0.2 0.4 0.6 0.8 1.0

0123456

θ

density(θ)

Prior

Likelihood

Posterior

Figur 1: Et eksempel p˚a Bayes’ teorem, hvor prior fordelingen er en beta fordeling medα = 10 og β = 2 og likelihood er binomialfordelt med n = 30 og y = 10. De danner tilsammen posterior fordelingen,Beta(20, 22), via Bayes’ teorem som vist.

2.2 Kunjugate prior

En kunjugat prior vil sammen med likelihood, generere en posterior fordeling af samme type som prior fordelingen. Fordelen ved denne fremgangsm˚ade er, at de gør arbejdet om at finde fordelingen for posterior væsentlig nemmere, eftersom det vil give et lukket udtryk for posterior fordelingen.

Det har yderligere den fordel, at det gør det nemmere at trække stikprøver fra. Eksemplet fra før, ses faktisk at være en kunjugate prior, da fordelingen af prior og posterior tilhører den samme familie.

Et andet eksempel som har denne egenskab, kan være⁵

Likelihood Prior

Hyper paramtre

Posterior

Hyper paramtre Normal med ukendtσ²

og kendtµ

Inverse gamma αogβ

Inverse gamma α+ ⁿ₂,β+ ^∑ⁿⁱ⁼¹⁽^x₂ⁱ⁻^µ⁾²

5https://en.wikipedia.org/wiki/Conjugate prior

(10)

2 Bayesiansk inferens 9

Prior hyper parametre er den som karakteriserer prior fordelingen og vælges ud fra den bedste overbevisning.

2.3 Posterior intervaller

Ligesom man kender konfidensintervaller fra klassisk statistisk teori, opererer man ogs˚a med intervaller i Bayesiansk teori. Her kaldes det enten for posterior intervaller eller troværdige intervaller⁶. Forskellen ligger i, at for posterior intervaller er udfaldende antaget, at være en fast størrelse eftersom vi bruger posterior sandsynligheder. Disse sandsynligheder er betinget med data. En anden forskel er, at parameterenθ betragtes som en tilfældig variabel. Selvom der ved grænseværdisætningen, er et teoretisk grundlag for, at konfidensintervaller og posterior intervaller næsten er ækvivalente for store prøver. Dermed vil posterior intervallet for det i’te komponent afθvære givet ved

E[θ_i|Y]±z_α/2 q

V[θ_i|Y]

Taget eksemplet fra tideligere, kan man finde posterior intervallet for vores posterior fordeling. Dette kan ses i figur 2

0.0 0.2 0.4 0.6 0.8 1.0

0123456

θ

density(θ)

Figur 2: Et eksempel p˚a posterior interval, som er et 90% sandsynlighedsm˚al for intervallet forθ. S˚a der er 90% posterior sandsynlighed for, atθer indenfor[0, 35 : 0, 60]. De stiplet linjer er øvre og nedre 5%-kvartiler for posterior fordelingen.

6Engelsk ord: Credible intervals

(11)

3 Markov Chain Monte Carlo

I denne sektion, er der til afsnittet om Monte Carlo primært brugt Turkman et al. (2019). Hvor der til afsnittet om Markovkæder, Metropolis-Hastings og Gibbs Sampler er brugt Gamerman (1997) og Ute Hahns note kompendium. Markov Chain Monte Carlo er en simuleringsmetode som bruges n˚ar det er vanskeligt, at opn˚a den fornødne information. Metoden bliver især brugbart n˚ar man skal estimere posterior fordelingen. Metoden bruger kombinationen to fænomener, Markovkæder og Monte Carlo, som navnet antyder, hvor der ønskes at lave en Monte Carlo integration ved hjælp af Markovkæder.

Form˚alet er, at konstruere Markovkæderne s˚a de konvergere mod den stationære fordeling som vil være ækvivalent med den ønskede fordeling.

3.1 Stokastiske processer

En af de vigtige redskaber inden for simuleringsteknikker er stokastiske processer, da det er den stokastiske proces som der simuleres. En stokastisk proces kan defineres som en samling af tilfældige variabler, som beskriver de dynamiske sammenhænge af tilfældige udfald.

Definition 3.1.1.

En stokastisk proces X_np˚a et diskret tidsrum med tilstandsrumX, er en samling af stokastiske variable.

3.2 Markovkæder

En Markovkæde er en stokastisk proces som beskriver en række sekvenser af mulige udfald, hvor sandsynligheden for en fremtidig tilstand er betinget af den foreg˚aende observation. LadX være et m˚aleligt tilstandsrum forx og A m˚alelig p˚a B, da vil funktionen Pp˚a X ogB være en Markovsk overgangskerne, hvis den opfylder

(i) for ethvert fastx∈ X, erP(x,·)et sandsynlighedsm˚al (ii) for ethvert fastA∈ B, erP(·,A)m˚alelig

En stokastisk proces best˚aende af tilfældige variable X₀,X₁, ... p˚aX siges at opfylde Markovegen- skaben, hvis fordelingen afX_n+₁ givet vedX0,X₁, ...,Xn er den samme fordeling som Xn. Der skal

(12)

3 Markov Chain Monte Carlo 11

dermed gælde, at

P(X_n+1∈ A|X₀= x₀,X₁ =x₁, ...,X_n =x_n) =P(X_n+1∈ A|X_n= x_n) for allen≥1 og alle hændelserx₁,x₂, ...,x_n∈ X

Dette kaldes ogs˚a for en tidshomogen Markovkæde, da den opfylder kriteriet omloss of memoryprin- cippet. En tidshomogen Markovkæde har ogs˚a den egeneskab, at Markovkædens overgangssand- synligheder er de samme, de ændres ikke over tid. HvisX er i det diskrete tilstandsrum, defineres overgangskernenPved overganssandsynlighedsmatricen som

p_ij =P(X_n+1 = j|Xn=i), i,j∈ X,n=0, 1, ...

Her angiverp_ij overgangsandsynligheden mellem tilstandiogj. I det tilfælde hvor man er i et kontinuert tilstandsrum, vil overganskernen med tæthedpskrives som

P(x,A) =

Z

A

p(x,y)dy

Fordelingen af en tidshomogen Markovkæde er givet ved dens overgangskerneP(·,·)og den intiale fordeling som kunne være fordelingen af X₀. X_n’s fordeling som er betinget af fordelingen af X₀ kaldes for enn-trins overgangskernesom er defineret ved

Pⁿ(A,x₀) =P(Xn∈ A|X₀ =x₀) 3.2.1 Stationaritet

For at en Markovkæde skal være stationær, skal der gælde, uanset hvilken del af kæden man kigger p˚a som har samme længde, skal de have samme fordeling. Det kan skrives op p˚a følgende m˚ade for allei₁,i₂, ...,i_n,t∈_N

(X_i₁,X_i₂, ...,X_i_n)∼(X_i₁+t,X_i₂+t, ...,X_i_n+t)

(13)

Endvidere gælder der, at den kaldes for reversibel hvis

(X_i₁,X_i₂, ...,X_i_n)∼(X_t−i1,X_t−i2, ...,X_t−in) Definition 3.2.1.

En tæthedsfunktion,π, kaldes for tætheden for en invariant sandsynlighedsfordeling for overgangskernen P, hvis

π(x) =

Z

X π(y)p(y,x)dy, ∀x∈ X Tilsvarende kunne det skrives op som

π(A) =

Z

X π(y)P(x,A)dy, A⊆ X

Hvor π ogs˚a er defineret som den stationære fordeling for Markovkæden. Hvis X0 ∼ π vil det medfører atX_n ∼π.

En Markovkæde p˚aX medπsom den stationære fordeling og p som overgangstætheden, siges at opfylde den detaljerede balance hvis

π(x)p(x,y) =π(y)p(y,x), ∀x,y∈ X (3.2.1) HvisX er defineret som et generalt tilstandsrum, kan ovenst˚aende beskrives ved overgangskernen

Z

B

π(x)P(x,A)dx=

Z

A

π(y)P(y,B)dy, ∀x,y⊆ X (3.2.2)

(14)

Teorem 3.2.1.

Lad p være overgangstætheden for Markovkæden og antag der findes en fordelingπ, s˚a den detaljerede balance er opfyldt. Da vilπvære invariant og Markovkæden X₁,X₂, ...,Xnvil være stationær og reversibel.

Bevis.

Idet det udnyttesR

X p(x,y) =1, m˚a der gælde π(x) =π(x)

Z

X p(x,y)dy

=

Z

Xπ(x)p(x,y)dy

=

Z

Xπ(y)p(y,x)dy

Dermed siges det, at kæden harπ som den stationære fordeling og denne dermed findes, samtidig med at kæden er reversibel. Det betyder, at hvis kæden f.eks. starter i den stationære fordeling, da vilX₀ ∼ π. S˚a vil mængden afπ(x)p(x,y)være den masse af sandsynlighed som der er frax → y i et skridt. Hvis ligning 3.2.1 skal holde skal massen af sandsynlighed frax → y være den samme som fray → x. Der er derfor ingen ekstra sandsynlighed som strømmer den modsatte vej, forudsat at kæden er i sin stationære fordeling. Med andre ord betyder det, at hvis tiden rykkes frem eller tilbage vil systemet være det samme. Den detaljerede balance kan deles op i to egenskaber. Den første egenskab, er den detaljerede egenskab, som sørger for, at det gælder for hvert muligt par af udfald og den anden egenskab er balance, eftersom den ligeligt sidestiller raten af bevægelse gennem udfald.

3.2.2 Konvergens

Et vigtigt element i Markov Chain Monte Carlo er at simulere en Markovkæde, hvor fordelingen vil konvergere mod den stationære fordeling. For at en Markovkæde skal kunne konvergere til sin stationære fordelingπ, skal den opfylde at væreirreducibel,aperiodiskogrekurent. Hvis Markovkæden ikke opfylder de tre egenskaber, vil der muligvis ikke findes en unik stationær fordeling.

(15)

En Markovkæde siges at være irreducibel, hvis alle tilstande kommunikerer. Det betyder, for alle tilstande x,y eksisterer der et antal perioder n, s˚aledes at overgangssandsynligheden for at g˚a fra x til y er positiv, Pⁿ(x,y)>0

Dette er gældende for en Markovkæde i et diskret tilstandsrum. Hvorimod hvis Markovkæden er defineret p˚a et kontinuert tilstandsrum, vil irreducibilitet betyde, at kæden vil genbesøge en mængde i endelig tid, hvis den startes i denne mængde. Til dette introduceres,hitting time, som er første gang kæden n˚ar A, defineret ved

τ_A=inf{n:Xn ∈ A} og laderη_Abeskrive antal gange kæden besøger A som

η_A =

∑

∞ n=1

1A(X_n)

Ladφvære et ikke negativt m˚al, s˚a siges en Markovkæde at væreφirreducibel, hvis der for hvert A ∈ Bmed φ(A)>0og hvert x∈ X eksiterer et postivt tal n, s˚a Pⁿ(x,A)>0.

Selvom Markovkæden er irreducibel, kan den stadig godt være periodisk som kan resultere i, at konvergens ikke er muligt. Derfor skal man sikre at Markovkæden ogs˚a er aperiodisk.

En Markovkæde p˚a et diskret tilstandsrum siges at være aperiodisk, hvis dens periode d=1. Perioden d(x)af en tilstand x er defineret som største fælles divisor af sættet

Jx ={n>_{0 :} _Pⁿ(_x,_x)>₀}

Her erPⁿ(x,x)n-trins overgangssandsynligheden for at vende tilbage til samme tilstand, som skal være positiv.

(16)

En Markovkæde (X_n) som er φ irreducibel har længden p˚a en cyklus d, hvis der eksisterer disjunkte sæt A₀, ...,A_d−1∈ B(X), hvis

P(x,A_i+1) =1, ∀x∈ A_i, i=0, ...,d−1, A_d := A₀ Markovkæden siges at være aperiodisk, hvis cyklussen p˚a længden d=1.

En tilstand x siges at være rekurent, hvis og kun hvis processen vender tilbage til tilstanden uendelig ofte med sandsynlighed 1.

Px(Tx< _∞) =1 Hvor Txer retur tiden til tilstand x

T_x =inf{n>0|X_n ∈ A}

Hvis alle tilstande er rekurrente vil Markovkæden være positiv rekurent.

En Markovkæde(X_n)siges at være Harris rekurrent, hvis der er findes et m˚alφ, s˚a der gælder for alle A∈ B medφ(A)>0, at P_x(η_A= _∞) =₁for alle x∈ A

Hvisφirreducibel,aperiodiskogHarris rekurenter opfyldt, vil der eksistere en stationær fordeling som er unik, som kan skrives som

nlim→_∞P(Xn ∈ A|X0 =x) =π(A)

Dette er gældende for næsten alle x ∈ X. Her kan overgangsmatricen skrives som P, hvor ved tilføjelsen af en initial sandsynlighedsvektorv, gælder der

nlim→_∞vPⁿ=π

(17)

Dette kan uddybes ved

π= lim

n→_∞vPⁿ=lim

n→_∞vPⁿ

P=πP⇔π =πP Hvor der er udnyttet følgende relation for overgangsmatricen

Pⁿ⁺¹= PⁿP

som kaldes for Chapman-Kolmogorov ligningen, hvor der gælder ved tilpas stort nokn, at Pⁿ⁺¹ = Pⁿ. Det har den fortolkning, at n˚ar den stationære fordeling er n˚aet, vil en tilføjelse af en periode ikke ændre den. Harris rekurent giver den fordel, at valget af initialtilstanden ikke er s˚a vigtig. Da vi ved, at over tid vil Markovkæden konvergere til den stationære fordeling og blive uafhængig af initialtilstanden. Dette leder os til opfyldelse af egenskaben om at være ergodisk. Ergodisk g˚ar i sin enkelthed ud p˚a, at Markovkæden glemmer initialtilstanden over tid. En m˚ade dette kan udtrykkes p˚a, er ved m˚aling af forskellen i den totale variation mellem to fordelinger, defineret som ||µ₁− µ₂||_TV.

En Markovkæde (X_n) p˚aX med overgangskerne P og en stationærfordelingπvil være ergodisk, hvis

nlim→_∞||Pⁿ(x,·)−π(·)||_TV =0, ∀x∈ X

Det har den betydning, at uanset hvor kæden startes vil Markovkæden konvergere mod sin sta- tionære fordeling. Endvidere gælder der ogs˚a, at hvis en Markovkæde er aperiodisk og Harris rekurent, vil den ogs˚a opfylde at være ergodisk. Til de efterfølgende afsnit er det vigtigt, at de benytte- de Markov Chain Monte Carlo algoritmer opfylder egenskaben om, at være en ergodisk kæde. De Markovkæder som der vil blive benyttet befinder sig i diskret tid med et kontinuerligt tilstandsrum.

Det komme fra det data som der findes i den finansielle verden. Da kurser, renter osv. er givet til bestemte tidspunkter, som kan indeles it = 1, 2, .... Udviklingen i f.eks. kursen p˚a en aktie, vil være givet som et kontinuert tilstandsrum, da disse potentielt kan indholde alle tænkelige værdier.

(18)

3.3 Monte Carlo

En stor del af stokastiske simuleringsteknikker danner grundlag i Monte Carlo metoden. Monte Car- lo er en metode som bruges til numerisk approksimation af en forventet værdi, hvis det ikke er muligt ved en lukket form. Metoden simulere den stokastiske procesngange. Fordelen ved Monte Carlo integration kommer til udtryk i dens evne, til at løse komplicerede integraler numerisk. Tit kan disse integraler være kompliceret at udregne analytisk og s˚a kan Monte Carlo bruges som væktøj. I prak- tisk vil man gerne findeE[g(Y)] = R

g(y)π(y)dy = µ, men dette er ikke muligt analytisk. Derved kan en approksimation af den forventede værdi findes ved ˆµn= _n¹_∑ⁿ_i₌₁g(Y_i). Her erY_ien samling af i.i.d. simulationer fra en sandsynlighedsmodel. Denne metode bygger p˚a to vigtige egenskaber, store tals lov og den centrale grænseværdisætning. Store tals lov siger, at hvisY₁,Y₂, ... er uafhængige med samme fordeling, med følgende middelværdi,E[Y_i] =µ, og varians,Var[Y_i]<_{∞, s˚a vil}

ˆ

µ_n→µ, n˚arn→_∞

Den centrale grænseværdisætning siger, at hvisY₁,Y₂, ... er uafhængige og identiske fordelte, med følgende middelværdi,E[Y_i] =µ, og varians,Var[Y_i]<_{∞, s˚a vil}

Y¯_n∼ N

µ,σ² n

Hvis der vendes tilbage til nævneren i ligning 2.1.2 fra afsnittet om Bayesiansk inferens, vil man kunne approksimativt estimere den ved Monte Carlo integration.

E[p(y)] =

Z

p(y|θ)p(θ)dθ (3.3.1)

hvor b˚ade θ og y kan være vektorer. Hvis man kan simulere fra et tilfældig udfald af θ₁, ...,θ_n fra posterior fordelingen p(θ|y), da vil den simpleste Monte Carlo approksimation af integralet i 3.3.1 være givet ved gennemsnittet

Eˆ[p(y)] = ¹ n

∑

n i=1

p(y_i) (3.3.2)

(19)

som ved store tals lov, vil der gælde, at det konvergerer til den sande middelværdi.

Eˆ[p(y)]≈E[p(y)]

Givet den centrale grænseværdi sætning, vil ˆE[p(y)] = p¯ og fordelingen vil være approksimativ normalfordelt,N p,¯ s²

. Dermed kan præcisionen af estimatet blive evalueret ved den estimerede standard afvigelse af Monte Carlo gennemsnittet, givet ved

s = s

1 n−1

∑

n i=1

(p(_y_i)−p¯)²

Det har den egenskab, at middelværdien er unbiased ogs → 0 n˚arn → ∞, som har den evne, at middelværdien kan findes med en given præcision.

3.4 Metropolis-Hastings

Metropolis-Hastings algoritmen er en Markov Chain Monte Carlo algoritme som kan generere prøver fra fordelinger som ellers kan være vanskeligt at gøre analytisk. Metoden vil simulere fra en given m˚alfordelingπ, som er defineret p˚a et udfaldsrum, hvor Metropolis-Hastings algoritmen konstruerer en Markovkæde som er ergodisk og stationær. Det har den egenskab, at hvisX_n ∼ π(x)s˚a gør X_n+1 ∼ π(x)det ogs˚a, og desuden vil fordelingen af kæden konvergere modπved nok iterationer.

Markovkæder konstruerer et foreløbeligt billede af m˚alfordelingen, ved at efterforske lokalt p˚a ud- faldsrummetX, indtil et tilpas stort omr˚ade er blevet undersøgt.

Metropolis-Hastings algoritmen genererer nye værdier baseret p˚a den forg˚aende værdi. Dette kan gøres eftersom den følger egenskaben om Markovkæder. Den mulige nye værdi trækkes fra en betinget fordeling med tætheden q(y|x) som vil fungere som vores forslags fordeling. Fordelingen fungerer som en overgangskerne, som er en simpel m˚ade at bevæge sig til et nyt tilfældigt sted i udfaldsrummet(y)givet den nuværende position(x). Hvisq(y|x)er kontinuert, vilq(y|x)opfylde

Z

q(y|x)dx=₁ ∀x

(20)

3.4.1 Algoritmen

Algoritmen bygger p˚a en startværdiX₀ =x₀hvorπ(x₀)>0. Man opdaterer hele tiden modellen via Monte Carlo, hvor en enkelt opdatering afXkan skrives op ved følgende trin:

GivetXn= xn

1. GenererYn∼q(y|xn)

2. Værdien afX_n+1fastlægges som

X_n+1 =







Y_n med sandsynlighedρ(x_n,Y_n) xn med sandsynlighed 1−ρ(xn,Yn) hvor

ρ(x,y) =min

π(y)q(x|y) π(x)q(y|x)^{, 1}

Her erρ(x,y)sandsynligheden for, at man vælger at acceptere den nye værdiY_nsom værdi forX_n+1. Forholdet mellem posterior sandsynligheden foryogx

r(x,y) = ^π(y)q(x|y) π(x)q(y|x)

kaldes forHastings’ ratio. I overgangen fra XntilX_n+1bevares en eventuel stationær tæthedπ hvis kæden er irreducibel, det sker ved, atqrammer bredt i udfaldsrummetX med en positiv masse un- derπ.

Som beskrevet ovenover, accepterer vi den foresl˚aede værdiYnmed sandsynlighedρ(x,y). I praksis foreg˚ar det ved, at man trækker et tilfældigt uniformt tal,u, mellem 0 og 1, og hvis dette tal er mindre endρ(x,y), accepterer vi den foresl˚aede værdi ellers beholder man den nuværende.

Til det efterfølgende teorem, bruges udtrykket støtte. Støtte er defineret som et sæt af punkter i X, hvor f ikke er nul.

supp(f) ={x ∈X|f(x)6=0}

(21)

Teorem 3.4.1.

Lad X_n være en kæde som er produceret ved den generelle Metropolis-Hastings algoritme, ved brug af en forslags fordeling hvilken støtte ogs˚a inkludererπ’s støtte. S˚a vil

(i) overgangskernen af kæden opfylde den detaljerede balance betingelse medπ, som medfører (ii) og (iii) (ii) πvære en stationær fordeling for Markovkæden X₁,X₂, ...,X_n

(iii) Markovkæden X₁,X₂, ...,X_nvære reversibel

Vi behøver kun at bevise (i), da vil (ii) og (iii) være opfyldt givet den detaljerede balance p˚a grund af teorem 3.2.1. Beviset tager udgangspunkt i det diskrete tilstandsrum, hvor det tilsvarende kan vises i det kontinuerte tilstandsrum.

Hvis y = x ses det let, at den detaljerede balance m˚a holde da π(x)p(x,y) = π(y)p(y,x) ⇔ π(x)p(x,x) =π(x)p(x,x)⇔π(y)p(y,y) =π(y)p(y,y).

Hvisy6= x

p(x,y) =_P(X_n+1 =y|X_n= x)

= ^P(X_n+1 =y,X_n =x) P(X_n =x)

= ^P(X_n+1 =y,u≤ρ(x,y),Xn=x) P(X_n =x)

= ^P(Y=y,u≤ρ(x,y),X_n= x) P(Xn= _x)

= ^P(Y=y,Xn= x)

P(Xn= x) ^P(u≤ ρ(x,y))

=P(Y=y|Xn =x)ρ(x,y)

=q(x,y)ρ(x,y) hvor

ρ(x,y) =min(r(x,y), 1) ={₁(r(x,y)≥1) +₁(r(x,y)<1)r(x,y)}

(22)

Givet overgangsmatricen, p(x,y), fra Xn = x til X_n+1 = y, som er givet ved sandsynligheden for y som forslagsværdi og sandsynligheden for, at y accepteres som værdi. Dermed kan man skrive venstresiden i den detaljerede balance som

π(x)p(x,y) =π(x)q(y|x){₁(r(x,y)≥1) +₁(r(x,y)<1)r(x,y)} (3.4.1) Bemærk der gælder, atr(y,x)er den inverse afr(x,y), alts˚ar(y,x) =1/r(x,y). Derfor gælder det, at 1(r(x,y)≥1) =₁(r(y,x)≤1)og1(r(x,y)<1) =₁(r(y,x)>1).

Bevis.

π(x)p(x,y) =π(x)q(y|x){₁(r(x,y)≥1) +₁(r(x,y)<1)r(x,y)}

=π(x)q(y|x)

1(r(x,y)≥1) +₁(r(x,y)<1)^π(y)q(x|y) π(x)q(y|x)

={π(x)q(y|x)·₁(r(x,y)≥1) +₁(r(x,y)<1)·π(y)q(x|y)}

=π(y)q(x|y)

1(r(y,x)≤1)^π(x)q(y|x)

π(y)q(x|y)+₁(r(y,x)>1)

=π(y)q(x|y){₁(r(y,x)≤1)r(y,x) +₁(r(y,x)>1)}

=π(y)p(y,x)

Denne relation vil dermed holde i alle tre mulige udfald for r(x,y), det betyder derfor at den detaljerede balance holder, som medfører at Markovkæden vil være reversibel ogπer den tilhørende stationære fordeling for Markovkæden.

Et simpelt tilfælde p˚a en forslags fordeling er en en Random Walk fordeling, hvorygenereres ud fra den nuværende position ixplus et normaltfordelt tal. Dette kan dermed skrives som

y= x+N(_µ,σ²)⇔y|x ∼ N(x+_µ,σ²)

(23)

Dermed er

q(y|x) = ¹ σ

√2πexp

"

−¹ 2

y−(x+µ) σ

2#

Taget eksemplet fra før, medµ = 0, om en Random Walk som forslag, vil man have, atq er symmetrisk. Dette kan skrives vedq(y|x) =q(x|y), hvor sandsynligheden for at acceptere kan forkortes til

r(x,y) = ^π(y) π(x)

Dette specieltilfælde hvorqer symmetrisk, er den oprindelige Metropolis algoritme fra 1953. Hvor Hastings i 1970 implementerede den mere generelle model hvor q kan være asymmetrisk, som er Metropolis-Hastings algoritmen.

3.4.2 Konvergens

Det er blevet vist, at Metropolis-Hastings algoritmen har den ønskede m˚alfordeling som den sta- tionære fordeling. Men for at sikre at konvergens betingelsen holder, skal der ogs˚a sikres at kæden er aperiodisk og Harris rekurent. Hvis kæden skal være aperiodisk er det nok, er at sandsynligheden for en hændelse{X_n+₁ =Xn}ikke er nul. Dette er gældende, hvis

P(π(Xn)q(Y|Xn)≤π(Y)q(Xn|Y)<1)

Det betyder med andre ord, at kæden frit kan bevæge sig imellem de forskellige tilstande uden at være fanget i cyklusser. Det næste der skal være gældende er irreducibilitet og Harris rekurent, hvor en Metropolis-Hastings kæde er irreducibel, hvis ethvert sæt iX kan n˚as med et enkelt skridt. Dette er givet, hvis

q(y|x)>_0, ∀x,y∈ supp(π)

Det har den betydning, at der frit kan bevæges rundt i en mængde tilhørende en tilpas stor mængde, med en positiv sandsynlighed.

(24)

Lemma 3.4.2.

En Metropolis-Hastings kæde(X_n)som erπirreducibel er ogs˚a Harris rekurent.

Der vil ikke blive bevist lemma 3.4.2.

Teorem 3.4.3.

En Metropolis-Hastings kæde(Xn)med overgangskerne P, vil væreπirreducibel, hvis følgende gælder (i) For ethvertπirreducibel funktion h,

P lim

n→_∞

1 n

∑

n i=1

h(X_n) =

Z

h

(x)π(x)dx

!

=1

(ii) Hvis kæden tilmed er aperiodisk, vil den ogs˚a være ergodisk.

Til bevis for dette, skal der sikres at kæden er irreducel og aperiodisk. Disse to egenskaber er givet i det næste lemma. Lemmaet bygger p˚a Roberts & Tweedie som Uta Hahn skriver.

Lemma 3.4.4.

Antagπer begrænset og positiv for ethvert sæt af dens kompakte støtte. Hvis der eksisterer eteogδsom begge er positive tal, s˚a

|x−y|< δ⇒q(y|x)> e

da vil Metropolis-Hastings kæden(Xn)væreπirreducibel og aperiodisk.

Dermed giver resultatet betingelser for, at Metropolis-Hastings kæden konvergerer. Hastigheden af hvor hurtigt kæden konvergerer afhænger af valget af forslags fordelingen,q. Nogle valg afqvil lede til at værdierne sjældent accepteres, og dermed vil kæden være for meget i sin nuværende tilstand, som gør konvergens langsommere. Der er dermed fundet frem til, at Metropolis-Hastings simulerer en Markovkæde som har en unik stationær fordeling. Endvidere vil den ogs˚a opfylde, at den sta- tionære fordeling vil være lig med m˚al tætheden. For dette skal gælde, vil Markovkæden skulle være aperiodisk, irreducibel og Harris rekurent.

(25)

3.4.3 Eksempel

Eksemplet tager udgangspunkt i en Random Walk som forslag, som beskrevet tideligere i afsnittet hvorqer symmetrisk og med en m˚al tæthedπ(x)som er betafordelt medα = 2 ogβ= 8. Her skal man være opmærksom p˚a, at startværdien har stor betydning. Da en betafordeling er givet ved tal p˚a]0; 1[og vælger man noget udenfor, vil værdien være nul og fordelingen vil aldrig konvergere.

Med dette kan algoritmen skrives op som følger:

GivetX₀=0, 99 som opfylderπ(0, 99)>0 1. Genererere∼ N(0, 2), hvorY_n= x_n+e 2. GenerererU∼Uni f(0, 1)

3. Udregnρ(x_n,Y_n) =min

π(Yn) π(xn), 1 4. HvisU< ρ(x_n,Y_n)

X_n+1=Y_n ellers

X_n+1= x_n

For at illustrere vigtigheden af antal iterationer for at n˚a den stationær fordeling, er algoritmen kørt igennem med henholdsvis 1.000, 10.000 og 100.000 iterationer. Dette er illustreret i figur 4, hvor ven- stre siden er de genereret Markovkæder med tilhørende løbende gennemsnit. Højresiden er et hi- stogram over værdierne der trukket fra algoritmen og den bl˚a linje er tætheden for en Beta(2, 8) fordeling, som er m˚al fordelingen.

(26)

0 200 400 600 800 1000

0.00.20.40.60.81.0

MCMC iteration

n Xn

Xn

Density

0.0 0.2 0.4 0.6 0.8 1.0

01234

0.0 0.2 0.4 0.6 0.8 1.0

01234

0 2000 4000 6000 8000 10000

0.00.20.40.60.81.0

MCMC iteration

n Xn

Xn

Density

0.0 0.2 0.4 0.6 0.8 1.0

01234

0.0 0.2 0.4 0.6 0.8 1.0

01234

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

0.00.20.40.60.81.0

MCMC iteration

n Xn

Xn

Density

0.0 0.2 0.4 0.6 0.8 1.0

01234

0.0 0.2 0.4 0.6 0.8 1.0

01234

Figur 3: Plot af Metropolis-Hastings algoritmens resultat for hhv. 1.000, 10.000 og 10.000 iterationer.

I tabel 1 ses et overblik hvordan de estimerede middelværdier og varianser er.

Iterationer Middelværdi Varians

1.000 0,18292 0,01380

10.000 0,20709 0,01561

100.000 0,19994 0,01403

Tabel 1: Middelværdi og varians for forskellige længder af antal iterationer.

Hvis resultatet sammenholdes med den teoretiske middelværdi, som er p˚a 0, 2 og den teoretiske varians p˚a 0, 01455, ses det tydeligt hvilken effekt antal iterationer har p˚a resultatet. Den estimerede middelværdi og varians forbedredes ved øgning af antal iterationer, de ligger simpelthen tættere p˚a det teoretiske. Rent visuelt kan det ses p˚a tæthedsfunktionen, hvor der ved 1.000 og 10.000 iterationer ikke helt rammer den ønskede fordeling. Dette skyldes, at algoritmen ikke har haft mulighed nok for at udforske tilstandsrummet. Det ses ogs˚a p˚a de generede Markovkæder, selvom middelværdien hurtigt konvergere mod den sande middelværdi. Effekten af antal iterationer ses tydeligt ved 100.000, hvor den ønskede fordeling ses at være n˚aet tilstrækkeligt.

(27)

3.5 Gibbs sampler

En anden metode man kan bruge er Gibbs sampler, som er forskellig fra Metropolis-Hastings metoden ved, at den estimerer paramterne en af gangen i stedet for simultant som i Metropolis-Hastings.

Gibbs sampler er en metode, hvor overgangsmatricen er formet ved den fulde betinget fordeling f₁, ...,f_p. Det er dermed f vi er interesseret i, alts˚a i dette tilfælde f(x)som udgør den fulde betinget fordeling, hvor X = (X₁, ...,Xp). Her er hvert element X_i en tilfældig variabel, hvor metoden genererer udfald fra den simultane fordeling afX ved at opdatere en variabel af gangen. Det antages dermed, at den fulde betinget fordeling f_i(x_i) = f(x_i|x₋_i)fori =1, ..,per tilgængelig. Det betyder, at de er kendt og der derved kan trækkes stikprøver fra disse fordelinger. Her erX₋_ien samling af X, hvor det i’te element er frasorteret

X₋_i = X₁, ...,X_i−1,X_i+1, ...,Xp 3.5.1 Algoritmen

Algoritmen køres igennemngange, hvor en enkelt iteration er beskrevet ved 1. Sæt initial værdi forX₀ = X_1,0, ...,X_p,0

med f(x₀)>0 2. Genererer nye værdier forX_n+1= X_1,n+1, ...,X_p,n+1

givetX_n= X_1,n, ...,X_p,n X_1,n+1∼ f x₁|x_2,n, ...,x_p,n

X_1,n+1∼ f x₂|x_1,n+1,x_3,n, ...,x_p,n ...

X_p,n+1∼ f X_p|x_1,n+1, ...,x_p−1,n+1

Tricket ved Gibbs sampler metoden er at finde den betinget fordeling, det kan gøres ved at observere

f(x_i|x₋_i) = ^f(x_i,x−i)

f(x₋_i) ^∝ ^f(x_i,x₋_i) (3.5.1) s˚a længe f(x₋_i)>0. Som til en hvis grad giver os al den nødvendige information om den simultane fordeling undtagen normaliseringskonstanten i nævneren. Hvor der gælder, at man kan behandle

(28)

X₋_i som en konstant og p˚a den m˚ade f˚a den betingede fordeling afX_igivetX₋_i.

3.5.2 Specieltilfælde af Metropolis-Hastings

Det kan vises, at Gibbs sampler er et specieltilfælde af Metropolis-Hastings, med en accept rate p˚a

´en for forslaget til værdien. Forslags fordelingen i Gibbs sampler vil dermed være givet som

q(x_i,n+1,x₋_i,n|x_i,n,x₋_i,n) = p(x_i,n+1|x₋_i,n) (3.5.2) Med denne givende forslags fordeling, kan man omskrive accept raten vedX^∗ = (X_i,n+1,X₋_i,n), som er den forsl˚aet værdi forX_igivetX_n = (_X_i,n_,X₋_i,n)fra forslags fordelingen,

ρ(x^∗|x_n) =min

p(x^∗)q(x_n|x^∗) p(x_n)q(x^∗|x_n)^{, 1}

3.5.2= min

p(x^∗)p(x_i,n|x₋_i,n) p(x_n)_p(x_i,n+1|x₋_i,n)^{, 1}

=

kædereglenmin

p(x_i,n+1|x₋_i,n)p(x₋_i,n)p(x_i,n|x₋_i,n) p(x_i,n|x₋_i,n)p(x₋_i,n)p(x_i,n+1|x₋_i,n)^{, 1}

=min(1, 1) =1

Der udnyttes, at man ved hjælp af kædereglen, kan skrive den simultane fordeling som et produt af to led

p(x^∗) = p(x_i,n+1,x₋_i,n) =p(x_i,n+1|x₋_i,n)p(x₋_i,n) og

p(x_n) = _p(_x_i,n_,x₋_i,n) =_p(_x_i,n|x₋_i,n)_p(x₋_i,n) 3.5.3 Konvergens

Ligesom for Metrpolis-Hastings er der nogle betingeseler for, hvorn˚ar den stationære fordeling er n˚aet. Hvis der kigges p˚a overgangskernen for Gibss sampler, som kan skrives som

p(x_i−1,x_i) =

∏

p i=1

f_i(x_i|x_1,i, ...,x_i−1,i,x_i+1,i−1, ...,x_p,i−1)

(29)

Da vil Gibbs sampler være konstrueret s˚aledes, at den har den ønskede m˚al fordeling som dens stationære fordeling. Det vil sige, at hvisX₀ er fordelt med tæthed f, da vilX₁ være fordelt med samme tæthed.

Den simultane fordeling givet af tætheden f , er den tilhørende stationære fordeling til kæden(X_n)genereret ved Gibbs sampler algoritmen.

En fordeling med f(x₁, ...,xp) som den simultane fordeling og marginale tætheder f_i, siges det at opfylde positivitetsbetingelsen, hvis der for alle(x₁, ...,x_p)gælder

f_i(x_i)>0⇒ f(x₁, ...,x_p)>0,∀i=1, ...,p

Hvis dette er opfyldt, s˚a vil den Markovkæde genereret ved Gibbs sampler være irreducibel og Harris rekurent.

3.5.4 Eksempel

I dette eksempel vil det være en 2-stage Gibbs sampler der bruges. Et eksempel kunne være, hvis man ønskede at trække stikprøver uniformt fra

(x₁,x₂)∈_R²_:x²₁+x²₂≤₁

Først findes den simultane fordeling, som er givet

f(x₁,x2)_∝_I(x₁²+x²₂ ≤1)

Dernæst bruges ligning 3.5.1, hvor vi behandlerx₂som en konstant, s˚a kommer man frem til følgende

f(x₁|x₂)_∝_I(x²₁+x²₂ ≤1)

∝

− q

1−x₂²≤ x₁≤ q

1−x²₂

(30)

Samme fremgangsmøde laves forx₂, hvor man behandlerx₁som en konstant

f(x₂|x₁)_∝_I(x²₁+x²₂ ≤1)

∝

− q

1−x₁²≤ x₂≤ q

1−x²₁

Disse to kan omskrives til

X₁|X₂∼ U

− q

1−X²₂, q

1−X₂²

og X₂|X₁∼ U

− q

1−X²₁, q

1−X₁²

Med dette kan algoritmen skrives op følgende m˚ade for en iteration 1. X₀ = (0, 1)

2. Genererer nye værdier forX_n₊₁= (X_1,n+1,X_2,n+1)givetX_n= (X_1,n,X2,n) X_1,n+1 ∼ f(x₁|x_2,n)

X_2,n+1 ∼ f(x₂|x_1,n+1)

(31)

−1.0 −0.5 0.0 0.5 1.0

−1.0−0.50.00.51.0

X2

X1

Figur 4: Plot af en uniformfordeling p˚a enhedscirklen med 10.000 iterationer.

3.6 Effektivisering

Som med alle andre algoritmer ønskes det, at være s˚a effektivt og tidsbesparende som muligt. For denne type algoritmer (Metropolis-Hastings og Gibbs sampler) som bygger p˚a Monte Carlo simuleringer vil de altid være lidt tunge og tidskrævende, da de kræver et vist antal simuleringer. M˚aden hvorp˚a man kan øge effektiviseringen, er ved indførelse af en en s˚akaldtburn-inperiode i den simule- rede Markovkæde. Man vælger f.eks., at undlade de første 10% af simuleringerne fra Markovkæden, dette gøres for at gennemsnittet skal konvergere hurtigere mod dens stationære fordeling. Grunden kan være, at man vælger sin startværdi meget langt væk fra den stationære fordeling, s˚a vil Marko- vkæden dermed ogs˚a kræve flere simuleringer for at konvergere.

(32)

4 Tidsvarierende volatilitets modeller 31

4 Tidsvarierende volatilitets modeller

Historien har vist, at over tid er volatiliteten for et finansielt aktiv ikke konstant og viser typisk vola- tilitetsklynger, hvor variationen i tidsserien klynger sig i perioder. Med andre ord vil finansielle data have tidsvarierende volatilitet med perioder hvor volatiliteten er høj og perioder med lav volatilitet.

Til modellering af denne tidssvarierende volatilitet vil der blive brugt en GARCH model, General Auto-Regressive Conditional Heteroskedasticitet og stokastisk volatilitet eftersom de kan modellere heteroskedasticitet. I afsnittet om GARCH bruges der primært artiklen af Bollerslev (1986). Afsnittet om stokastisk volatilitet bygger p˚a Hautsch et al. (2009).

4.1 GARCH

ARCH modellen af Engle (1982) blev udvidet som en generaliseret ARCH (GARCH) model af Bol- lerslev (1986). Modellen lader den betingede volatilitet afhænge af tideligere kvadreret afkast og tideligere betingede volatiliteter. Fordelen ved GARCH er, at den tillader vedholdende volatilitet, som det ikke er muligt for i ARCH. GARCH(p,q) modellen ser ud som følger

yt=^phtut, ut ∼ N(0, 1) h_t=α₀+

∑

q i=₁

α_iy²_t₋_i+

∑

p j=₁

β_jh_t−j

hvor

q>₀ p≥₀ α₀ >₀

α_i ≥_0, i=_{1, ...,}q β_j ≥0, j=1, ...,p

Hvisp = 0, er man tilbage til en ARCH(q), og hvis p = _q = _{0 vil}_y_t bare være en hvidstøjsproces.

Endvidere skal der gældea_i+b_j <1⁷. I modellen eru_tgaussisk hvidstøj, som er i.i.d. fordelt,α₀er det

7Beskrevet af Tim Bollerslev (1986)Generalized Autoregressive Conditional Heteroskedasticity

(33)

langsigtede niveau for volatiliteten,hter den betingede volatilitet forytsom er afkastet givetY_t−1 = (y_t₋₁,y_t−2, ...). Parametrene(α₀,α₁, ...,α_q,β₁, ...,β_p)opfylder passende begrænsninger, s˚a der gælder, at ht > 0, for volatiliteten skal ikke kunne blive mindre end nul. Orden q beskriver hvor mange foreg˚aende afkast led(y²_t)der skal inkluderes ogper hvor mange foreg˚aende betingede volatiliteter (ht)som skal indg˚a i modellen. Den simple udgave og nok mest brugte udgave af GARCH(p,q) er GARCH(1,1) modellen, som der vil blive brugt i denne afhandling, er givet ved

y_t= ^ph_tu_t, u_t ∼ N(_{0, 1}) h_t= α₀+α₁y²_t₋₁+β₁h_t₋₁ hvor

α0 >0, α₁ ≥0, β₁ ≥0

For, athter positiv, skal ovenst˚aende gælde med restriktionen om, atα₁+β₁ < 1, dette er ogs˚a sta- tionaritets betingelsen. Denne model, vil dermed kunne forecast´e volatiliteten p˚a tidspunktt, som et vægtet gennemsnit af konstantenα₀, den foreg˚aende volatilitet og det foreg˚aende kvadrerede afkast.

Et eksempel p˚a en GARCH(1,1) proces kunne se ud som følger

0 200 400 600 800 1000

−1.0−0.50.00.51.0

Simuleret afkast

Tid yt

0 200 400 600 800 1000

0.050.150.250.35

Simuleret volatilitet

Tid ht

Figur 5: Med parametreα₀ =_{0, 01,}α₁ =_{0, 1 og}β₁ =0, 8 og med starværdierh₀ =_{0, 1 og}y₀=_{0. Det} ses, atα₁+β₁ <1, som opfylder kriteriet.