Download Una distribución útil para modelar el número de reclamaciones: la

Document related concepts

Regresión de Poisson wikipedia , lookup

Cuasi-verosimilitud wikipedia , lookup

Distribución normal wikipedia , lookup

Proceso de Poisson wikipedia , lookup

Distribución de Poisson wikipedia , lookup

Transcript
ESTADÍSTICA ESPAÑOLA
Vol. 53 Núm. 176, 2011, págs. 49 a 65
Una distribución útil para modelar el
número de reclamaciones: la distribución Poisson-Lindley sobrevalorada en
cero(*)
por
E. GÓMEZ-DÉNIZ
Departamento Métodos Cuantitativos para la Economía y la Empresa,
Universidad de Las Palmas de Gran Canarias. España
A. HERNÁNDEZ-BASTIDA
Departamento Métodos Cuantitativos para la Economía y la Empresa,
Universidad de Granada. España
y
M.P. FERNÁNDEZ-SÁNCHEZ
Departamento Métodos Cuantitativos para la Economía y la Empresa,
Universidad de Granada. España
(*) EGD y AHB agradecen al Ministerio de Educación y Ciencia (proyecto ECO-200914152) por la financiación parcial de este trabajo.
Los autores agradecen las sugerencias de los evaluadores que han contribuido a mejorar
el trabajo.
50
ESTADÍSTICA ESPAÑOLA
RESUMEN
En este trabajo se estudia la distribución Poisson-Lindley sobrevalorada en cero como una distribución adecuada para modelar la variable número de reclamaciones, obteniendo sus principales características. Además, se obtienen los estimadores por el método de los momentos y por el método de la máxima verosimilitud y se construye un
test score para contrastar el ajuste a la distribución Poisson-Lindley
versus la distribución Poisson-Lindley sobrevalorada en cero. Por
último, se aplican los resultados obtenidos a datos reales sobre números de siniestros declarados.
Palabras clave: distribución Poisson-Lindley sobrevalorada en cero;
estimador de la máxima verosimilitud; estimador de momentos;
test score.
Clasificación AMS: 60E05
1. INTRODUCCIÓN
En el modelado de la variable aleatoria número de reclamaciones una distribución históricamente considerada ha sido la distribución de Poisson (de aquí en
adelante distribución P), ver por ejemplo Goovaerts y Kass (1991). No obstante, la
presencia en los conjuntos de datos observados en la práctica del fenómeno conocido como sobredispersión, es decir, valor de la varianza superior al valor de la
media, ha llevado a utilizar diversas distribuciones alternativas a la distribución de
Poisson, como por ejemplo, las distribuciones mezcladas de Poisson, obtenidas
combinando la distribución de Poisson con otras distribuciones. Para una revisión
de estos modelos puede consultarse, entre otros, Cohen (1966), Willmot (1986),
Grandell (1997), y más recientemente Karlis y Xekalaki (2005), Nadarajah y Kotz
(2006a; 2006b) o Nikololoupoulos and Karlis (2008), entre otros. La distribución de
Poisson-Lindley (de aquí en adelante distribución PL) es una de esas alternativas.
La distribución PL es una distribución obtenida por una mixtura de la distribución
de Poisson de parámetro λ, considerando que λ sigue una distribución de Lindley
(de aquí en adelante distribución L), ver Lindley (1958), dada por
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
51
Fue introducida y estudiada por Sankaran (1970) y se define por la siguiente función de probabilidad
Los valores de la media y de la varianza vienen dados, respectivamente, por
siendo su función generatriz de momentos
En Ghitany et al (2009) se desarrolla la estimación por el método de los momentos y por la máxima verosimilitud para el parámetro .
La distribución PL truncada en cero dada por
se analiza en Ghitany et al (2008).
La distribución PL, reparametrizada para que el parámetro varíe entre 0 y 1, ha sido
utilizada como distribución primaria en un Modelo Colectivo de Riesgo para determinar
el valor de las Primas en Estadística actuarial (ver Hernández-Bastida et al (2011)).
Una generalización biparamétrica de la distribución PL (que no consideramos en
este trabajo) se desarrolla en Mahmoudi y Zakerzadeh (2010) a partir de la distribución de Lindley, generalizada también con dos parámetros, introducida por Zakerzadeh y Dolati (2010).
En este trabajo se considera la distribución PL sobrevalorada en cero (de aquí en
adelante distribución ZIPL) como una alternativa muy conveniente para el modelado del
número de reclamaciones. El trabajo está organizado de la siguiente manera: en la
sección 2 se desarrolla la distribución ZIPL y sus principales características. En la
sección 3 se obtiene la estimación de los parámetros por el método de los momentos y
por la máxima verosimilitud, y un test score para contrastar el ajuste a la distribución PL
versus la distribución ZIPL. En la sección 4 se lleva a cabo una aplicación práctica de la
distribución ZIPL para modelar el número de reclamaciones. La sección 5 recoge las
principales conclusiones.
52
ESTADÍSTICA ESPAÑOLA
2. LA DISTRIBUCIÓN DE POISSON-LINDLEY SOBREVALORADA EN CERO
(ZIPL)
En las poblaciones de número de reclamaciones observadas en la práctica actuarial, además del fenómeno de la sobredispersión antes mencionado, se ponen
de manifiesto otras peculiaridades como la denominada “sobrevaloración en cero”
(si se observa una frecuencia del valor cero apreciablemente superior a la frecuencia teórica determinada con la distribución de Poisson) o la denominada “infravaloración en uno” (cuando se observa la desigualdad contraria para el valor uno).
Puede consultarse el excelente catálogo de poblaciones de Álvaraz-Jareño y
Muñiz-Rodríguez (2010), para estas afirmaciones.
A continuación, se pone de manifiesto que la distribución PL presenta estas dos
peculiaridades antes indicadas.
La distribución PL asigna mayor probabilidad al valor 0 que la distribución P, y
por tanto es más adecuada para recoger el fenómeno de la sobrevaloración en
cero. Esto se comprueba sin más que considerar la función,
que recoge la diferencia entre las probabilidades indicadas para una PL y una P de
igual media. Dicha función es siempre no negativa, es monótona creciente hasta
en donde alcanza un máximo que vale 0,165913, y a
aproximadamente
partir de ahí es monótona decreciente presentando una asíntota en el eje de abscisas.
Para valores de la media no demasiado grandes, la distribución PL asigna menor
probabilidad al valor 1 que la distribución P, resultando más idónea para recoger el
fenómeno de la infravaloración en uno que la distribución de Poisson. Para justificar
esta afirmación consideramos la siguiente función que compara, como antes, una
PL y una P con la misma media,
Esta función es monótona decreciente hasta =0,3327, en donde alcanza un
mínimo que vale -0,0896357; a continuación es monótona creciente hasta
=1,443, en donde alcanza un máximo que vale 0,108052, y a partir de ahí es
monótona decreciente presentando una asíntota en el eje de abscisas. A partir de
=0,64785, o lo que es lo mismo, para valores de la media común menores o iguales
a 2,4803, lo que supone prácticamente todos los casos con datos reales, la función
es positiva.
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
53
El gráfico siguiente ilustra los dos comentarios anteriores,
Gráfico 1
0.15
0.10
0.10
0.05
0.05
2
4
6
8
10
0.05
2
4
6
8
10
De lo expuesto anteriormente se deduce que la distribución PL es una alternativa
válida para el modelado que nos ocupa.
A continuación se desarrolla la distribución ZIPL, que en muchos casos puede
ser una alternativa más conveniente que la distribución PL para modelar el número
de reclamaciones.
La distribución ZIPL, como cualquier distribución sobrevalorada en cero, puede
escribirse de diversas formas que son equivalentes. En concreto, una variable aleatoria X que toma valores en los números enteros no negativos se dice que sigue una
distribución ZIPL si su función de probabilidad es,
donde
Si en la función anterior se hace el cambio
Cohen (1966), se obtiene la siguiente expresión,
donde
-
-
, propuesto por
54
ESTADÍSTICA ESPAÑOLA
Finalmente si en la función anterior se hace el cambio v=
; propuesto
por Gupta et al (2004), se obtiene la siguiente expresión,
donde
Cada una de las tres expresiones anteriores presenta ventajas e inconvenientes.
porque el estimador
En este trabajo consideraremos la primera de ellas
de la máxima verosimilitud de φ adopta una expresión cerrada y más sencilla que
en las otras formulaciones. Se puede comprobar que
no tiene asíntotas
verticales y presenta una asíntota horizontal en el eje de abscisas. Los gráficos
siguientes recogen 4 situaciones caracterizadas por un valor de . En cada una de
ellas se recogen varios casos del parámetro φ en los que
es
. Las diversas curvas de cada situación siempre
estrictamente mayor que
están ordenadas y son fácilmente identificables observando su valor en 0. El más
pequeño corresponde a
y a continuación aparecen en orden decreciente
.
en φ las funciones
Gráfico 2
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.5
1.0
1.5
2.0
0.5
1.0
1.5
2.0
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
55
Gráfico 3
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.5
1.0
1.5
2.0
0.5
1.0
1.5
2.0
Diversas características de la distribución ZIPL se obtienen directamente de las
correspondientes características de la distribución PL. Así, la función generatriz de
momentos es igual a,
El valor de la esperanza viene dado por,
y el valor de la varianza es,
56
ESTADÍSTICA ESPAÑOLA
3. ESTIMACIÓN DE LOS PARÁMETROS DE LA DISTRIBUCIÓN ZIPL Y
CONSTRUCCIÓN DE UN TEST SCORE
3.1
Estimación de los parámetros y
tos y por la máxima verosimilitud
por el método de los momen-
Notamos con
, a las magnitudes muestrales media, varianza y momento no central de orden dos, respectivamente.
Del sistema,
se obtiene, despejando en la primera ecuación, que
y, sustituyen-
do en la segunda ecuación, se llega a
. El discrimi-
nante de la ecuación es
, y siempre es positivo porque
; por
tanto, la ecuación tiene dos soluciones, una de las cuales es fácil comprobar que es
negativa y por eso la descartamos. En definitiva, los estimadores por el método de
los momentos vienen dados por,
Para obtener los estimadores de la máxima verosimilitud se considera una muescon frecuencias
donde
tra aleatoria
La función de verosimilitud viene dada por,
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
57
El logaritmo de la función de verosimilitud es,
Las derivadas parciales del logaritmo de la verosimilitud son,
De la ecuación
se deduce que el estimador de la máxima verosimilitud de ,
que claramente es único, viene dado por,
El estimador de la máxima verosimilitud de , que notaremos , será la única raíz
positiva de la ecuación
.
Para comprobar que
es único, consideramos por una parte la función
y por otra, la función
Con un poco de álgebra se puede comprobar que las dos funciones anteriores,
para
, existen; son positivas; continuas; monótonas decrecientes; no presentan
tiende a
máximos ni mínimos porque las derivadas no se anulan nunca; cuando
cero divergen a infinito, y cuando
diverge a infinito las funciones convergen a
cero. Por tanto, las funciones se cruzan en a lo sumo un punto. Que se cruzan en al
suficientemente pequeños
menos un punto se deduce de que para valores de
y para valores de
suficientemente grandes se da la desigualdad
contraria, es decir,
.
58
ESTADÍSTICA ESPAÑOLA
3.2
Test score para contrastar el ajuste a la distribución PL versus
distribución ZIPL
La metodología para el desarrollo de un test score para el contraste indicado es
conocida (ver Gupta et al (2004)) y brevemente la describimos a continuación para
el logaritmo de la función de verosimilitud
un parámetro k-dimensional. Sea
basada en una muestra de tamaño n de una distribución con función de densidad
donde
' es un vector de parámetros desconocidos que toma
valores en
. Se denomina vector score
al vector de componentes
, , que son las siguientes derivadas parciales
Notamos por
a la matriz de información de Fisher que tienes de componentes
Bajo amplias condiciones,
tiene una distribución asintóticamente normal con
vector de medias
y matriz de covarianzas I(θ). Entonces, el estadístico
tiene asintóticamente una distribución chi-cuadrado con k
grados de libertad, y puede usarse para contrastar la hipótesis
. Como
estamos interesados en un contraste sobre un subconjunto de los , el vector
donde
es un vector de dimenpuede dividirse de la siguiente forma
sión
y
es un vector de dimensión . A continuación,
se dividen de la siguiente forma:
;
Para
dado, sea
obtenido maximizado
;
-
el estimador de la máxima verosimilitud de
.
Entonces, con
el estadístico
tiene
asintóticamente una distribución chi-cuadrado con p grados de libertad, que puede
.
usarse para contrastar la hipótesis
A continuación se determinan las magnitudes pertinentes para el caso que nos
ocupa.
Para determinar la matriz de información de Fisher se calculan las derivadas de
segundo orden del logaritmo de la verosimilitud que son,
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
;
En definitiva, si notamos a la matriz de Fisher con
y a su inversa con
donde
es el cofactor de
, se obtiene,
;
Para determinar
se tiene por una parte que,
y por otra, operando,
59
60
ESTADÍSTICA ESPAÑOLA
Como este último sumatorio es igual a la función Hurwitz Lerch trascendente (de
aquí en adelante función HLP) (ver http://functions.wolfram.com/10.06.02.001.01),
se obtiene,
Además, esta función HLP puede escribirse en términos de la función hipergeométrica de Gauss (ver http://functions.wolfram.com/07.23.02.0001.01), con lo que
el término
es igual a,
Finalmente, el siguiente estadístico sigue una distribución
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
61
Este estadístico permite realizar el siguiente contraste:
-
4. APLICACIÓN DE LA DISTRIBUCIÓN ZIPL AL MODELADO DEL NÚMERO
DE RECLAMACIONES
En este apartado se lleva a cabo una aplicación práctica de la distribución ZIPL
para modelar el número de siniestros de 15 carteras de responsabilidad civil de
automóviles. Las carteras han sido extraídas, íntegramente, del trabajo de ÁlvarezJareño y Muñiz-Rodríguez (2010), en el que presentan y analizan una serie de
anomalías muestrales de estas carteras, fijándose en la sobredispersión y redefiniendo los parámetros de las distribuciones más usuales de probabilidad para
estudiar el número de reclamaciones en función de dicha característica. Las carteras se nombran de la misma forma que en el artículo citado, con C1 a C15. Todas
ellas presentan datos sobre el número de pólizas en los que se han declarado
desde 0 hasta un máximo de 8 siniestros o más.
El análisis se centra, no en comparar el ajuste de todas las posibles distribuciones que se pueden aplicar a este tipo de datos (lo cual haría inviable el estudio),
sino en comprobar si, tal y como se ha argumentado desde el principio, dadas las
características muestrales de los datos observados, la distribución ZIPL es una
distribución adecuada, y más idónea que la distribución PL para el modelar dichos
datos, utilizando el test score construido para esta finalidad.
Así la siguiente tabla recoge, para todas las carteras:
− La media y varianzas muestrales.
− La estimación por el método de los momentos de los parámetros del modelo.
− La estimación por el método de la máxima verosimilitud, de los parámetros del
modelo.
− La media y varianza de la distribución ZIPL ajustada utilizando los estimadores
de la máxima verosimilitud
.
− El valor del estadístico T, que permite contrastar la distribución PL versus la
distribución ZIPL.
62
ESTADÍSTICA ESPAÑOLA
Tabla 1
Datos muestrales
Estimación
por el método
de los
momentos
Estimación
por la
máxima
verosimilitud
Características
de la ZIPL
ajustada con
E.M.V.
Estadístico
Media
Varianza
T
0,1713 4,6108 0,1672 4,1376
0,2142
0,2753
72,005
0,1768
0,1276 7,2893 0,1251 6,3991
0,1470
0,1700
7,2037
0,1551
0,1793
0,1347 7,3248 0,1342 7,1357
0,1551
0,1780
3,7932
C4
0,1317
0,1385
0,1207 11,7113 0,1207 11,6956 0,1317
0,1385
5133,42
C5
0,1011
0,1074
0,0934 13,0031 0,0934 13,052
0,1011
0,1074
388,633
C6
0,1782
0,1974
0,1559 7,7137 0,1558 7,6956
0,1782
0,1975
6688,58
C7
0,1057
0,1149
0,0964 11,178 0,0967 11,5391 0,1057
0,1142
89,10
C8
0,1036
0,1115
0,0951 11,493 0,0951 12,0301 0,1036
0,1113
255,69
C9
0,1255
0,1300
0,1161 13,2129 0,1161 13,193
0,1255
0,1300
10319,80
C10
0,2308
0,3378
0,1711 3,4136 0,1795 4,1073
0,2306
0,3081
2217,49
C11
0,0789
0,0847
0,0732 13,8743 0,0733 14,1327 0,0789
0,0844
353,05
C12
0,0692
0,0762
0,0638 12,5093 0,0638 12,509
0,0692
0,0762
1991,75
C13
0,1034
0,1175
0,0923 9,1057 0,0927 9,4133
0,1034
0,1166
775,37
C14
0,0890
0,0983
0,0810 11,0730 0,0812 11,205
0,0890
0,0981
264,46
C15
0,0790
0,0867
0,0725 12,1081 0,0726 12,273
0,0790
0,0865
375,19
Media
muestral
Varianza
muestral
C1
0,2143
0,2889
C2
0,1470
C3
Tal y como se observa en la tabla, todas las carteras consideradas muestran
sobredispersión, al ser mayores los valores obtenidos para la varianza que para la
media.
En todas las carteras consideradas el valor del estadístico muestral es superior
al valor teórico de la distribución 2 con un grado de libertad, y por tanto, se rechaza
la hipótesis nula de que los datos procedan de una distribución PL, aceptando la
hipótesis alternativa, es decir, que los datos proceden de una distribución ZIPL.
Además, esto ocurre sea cual sea el nivel de significación considerado.
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
63
5. CONCLUSIONES
En las poblaciones de número de reclamaciones observadas en la práctica actuarial, es usual encontrar que los valores de la varianza son mayores que la media,
fenómeno conocido como sobredispersión, así como otras peculiaridades tales
como la sobrevaloración en cero o la infravaloración en uno (ver Álvarez-Jareño y
Muñiz-Rodríguez (2010)). Todas estas características muestrales han llevado a
buscar otras alternativas a la distribución de Poisson, que es la que históricamente
se ha utilizado para modelar la variable número de reclamaciones. Una de esas
alternativas son las distribuciones mezcladas de Poisson, entre las que se encuentra la distribución Poisson-Lindley (distribución PL). En este trabajo se presenta la
distribución Poisson-Lindley sobrevalorada en cero (distribución ZIPL) como una
distribución útil para modelar este tipo de variables y se desarrollan sus principales
características. Además, para un conjunto de 15 carteras de datos de siniestros de
automóviles, se obtienen los estimadores de los parámetros del modelo por el
método de los momentos y por el de la máxima verosimilitud, y se construye un test
score para contrastar el ajuste a la distribución PL versus distribución ZIPL. Los
resultados ponen de manifiesto que, en todas las carteras, la distribución ZIPL es
más adecuada para modelar este tipo de datos que la distribución PL.
REFERENCIAS
ÁLVAREZ-JAREÑO, J.A. Y MUÑIZ-RODRÍGUEZ, P. (2010), «Reparametrización de las
principales distribuciones de probabilidad en el estudio del número de siniestros
debido a las anomalías muestrales en las carteras del seguro de responsabilidad civil de automóviles. Determinación del índice de dispersión», Anales de
Instituto de Actuarios Españoles, 16, 1-24.
COHEN, A.C. (1966),«A note on certain discrete mixed distributions», Biometrics, 22,
2, 566-572.
GHITANY, M.E. ; AL-MUTAIRI, D.K. AND NADARAJAH, S. (2008), «Zero-truncated Poisson-Lindley distribution and its applications», Mathematics and Computers in
Simulation, 79, 279-287.
GHITANY, M.E. ; AL-MUTAIRI, D.K. (2009), «Estimation methods for the discrete
Poisson-Lindley distribution», Journal of Statistical Computation and Simulation,
79, 1-9.
GOOVAERTS, M.J. Y KASS, R. (1991), «Evaluating compound generalized Poisson
distributions recursively», Astin Bulletin,, 21, 193-197.
64
ESTADÍSTICA ESPAÑOLA
GRANDELL, J. (1997), «Mixed Poisson Processes», New York, Chapman and Hall.
GUPTA, P. L.; GUPTA, R.C. Y TRIPATHI, R.C. (2004), «Score Test for Zero Inflated
Generalized Poisson Regression Model», Communications in Statistics: Theory
and Methods, 33, 1, 47-64.
HERNÁNDEZ-BASTIDA, A.; FERNÁNDEZ-SÁNCHEZ, M.P. Y GÓMEZ-DÉNIZ, E. (2011) «Collective Risk model: Poisson-Lindley and exponential distributions for Bayes
premiums and operational risk», Journal of Statistical Computation and Simulation, 81, 6, 759-778.
KARLIS, D. Y XEKALAKI, E. (2005), «Mixed Poisson distributions», International Statistical Review, 73, 35-58.
LINDLEY, D.V. (1958), «Fiducial Distributions and Bayes’s Theorem». Journal of the
Royal Stat. Soc. Series B, 1; 102-107.
MAHMOUDI, E. Y ZAKERZADEH, H. (2010), «Generalized Poisson-Lindley distribution»,
Communications in Statistics: Theory and Methods, 39, 1785-1798.
NADARAJAH, S. Y KOTZ, S. (2006A), «Compound mixed Poisson distributions I»,
SCANdinavian Actuarial Journal, 3, 41-162.
NADARAJAH, S. Y KOTZ, S. (2006B), «Compound mixed Poisson distributions I»,
Scandinavian Actuarial Journal, 3, 163-181.
NIKOLOULOPOULOS, A.K. Y KARLIS, D. (2008), «On modeling count data: a comparison
of some well known discrete distributions», Journal of Statistical Computation
and Simulation, 78, 3, 437-457.
SANKARAN, M. (1970), «The Discrete Poisson-Lindley Distribution». Biometrics, 26,
1, 145-149.
WILLMOT, G. (1986), «Mixed compound Poisson distributions», Astin Bulletin, 16, 59-79.
ZAKERZADEH, H. Y DOLATI, A. (2010), «Generalized Lindley distribution», Journal of
Mathematical Extension, in press.
UNA DISTRIBUCIÓN ÚTIL PARA MODELAR EL NÚMERO DE RECLAMACIONES...
A USEFUL DISTRIBUTION FOR MODELING THE NUMBER OF
CLAIMS: THE ZERO INFLATED POISSON-LINDLEY DISTRIBUTION
ABSTRACT
This paper studies the zero inflated Poisson-Lindley distribution as
an adequate distribution for modeling the variable number of claims,
obtaining its main characteristics. Furthermore, the method of moments and maximum likekihood estimators are obtained and a test
score is developed to compare between the Poisson-Lindley and the
zero inflated Poisson-Lindley distribution. Finally, the results obtained
are applied to real data about declared automobile claims.
Keywords: zero inflated Poisson-Linley distribution; maximum likelihood estimator; moments estimator; test score.
AMS Classification: 60E05
65