–
Room P3, Mathematics Building, IST
Robust statistics: an overview
Robust statistics: an overview
Robust estimators in Generalized Partially Linear Models
Semiparametric models contain both a parametric and a nonparametric component. Sometimes the nonparametric component plays the role of a nuisance parameter. The aim of this talk is to consider semiparametric versions of the generalized linear models where the response $y$ is to be predicted by covariates $({\bf x},t)$, where ${\bf x}\in\mathbb{R}^{p}$ and $t\in\mathbb{R}$. It will be assumed that the conditional distribution of $y|({\bf x},t)$ belongs to the canonical exponential family $\exp\left[y\theta({\bf x},t)-B\left(\theta({\bf x},t)\right)+C(y)\right]$, for known functions $B$ and $C$. The generalized linear model (McCullagh and Nelder, 1989), which is a popular technique for modelling a wide variety of data, assumes that the mean is modelled linearly through a known link function, $g$, i.e., \[ g(\mu\left({\bf x},t\right))=\theta({\bf x},t)=\beta_{0}+{\bf x}^T{\bf\beta}+\alpha t\;.\] In many situations, the linear model is insufficient to explain the relationship between the response variable and its associated covariates. A natural generalization, which suffers from the curse of dimensionality, is to model the mean nonparametrically in the covariates. An alternative strategy is to allow most predictors to be modeled linearly while one or a small number of predictors enter the model nonparametrically. This is the approach we will follow, so that the relationship will be given by the semiparametric generalized partially linear model \begin{equation} \mu\left({\bf x},t\right)=E\left(y|({\bf x},t)\right)=H\left(\eta(t)+{\bf x}^T{\bf\beta}\right)\qquad(\text{GPLM})\end{equation} where $H=g^{-1}$ is a known link function, ${\bf\beta}\in\mathbb{R}^{p}$ is an unknown parameter and $\eta$ is an unknown continuous function. Severini and Wong (1992) introduced the concept of generalized profile likelihood, which was later applied to this model by Severini and Staniswalis (1994). In this method, the nonparametric component is viewed as a function of the parametric component, and root--$n$ consistent estimates for the parametric component can be obtained when the usual optimal rate for the smoothing parameter is used. Such estimates fail to deal with outlying observations. In a semiparametric setting, outliers can have a devastating effect, since the extreme points can easily affect the scale and the shape of the function estimate of $\eta$, leading to possibly wrong conclusions on $\beta$. Robust procedures for generalized linear models have been considered among others by Stephanski, Carroll and Ruppert (1986), Künsch, Stefanski and Carroll (1989), Bianco and Yohai (1995), Cantoni and Ronchetti (2001), Croux and Haesbroeck (2002) and Bianco, García Ben and Yohai (2005). The basic ideas from robust smoothing and from robust regression estimation have been adapted to deal with the case of independent observations following a partly linear regression model with $g(t)=t$; we refer to Gao and Shi (1997) and Bianco and Boente (2004), and He, Zhu and Fung (2002). In this talk, we will first remind the classical approach to generalized partly linear models. The sensitivity to outliers of the classical estimates for these models is good evidence that robust methods are needed. The problem of obtaining a family of robust estimates was first considered by Boente, He and Zhou (2006). However, their procedure is computationally expensive. We will introduce a general three--step robust procedure to estimate the parameter ${\bf\beta}$ and the function $\eta$, under a generalized partly linear model (GPLM), that is easier to compute than the one introduce by Boente, He and Zhou (2006). It is shown that the estimates of ${\bf\beta}$ are root--$n$ consistent and asymptotically normal. Through a Monte Carlo study, we compare the performance of these estimators with that of the classical ones. Besides, through their empirical influence function we study the sensitivity of the estimators. A robust procedure to choose the smoothing parameter is also discussed. We will briefly discuss the generalized partially linear single index model which generalizes the previous one since the independent observations are such that $y_{i}|\left({{\bf x}_{i},t_{i}}\right)\sim F\left(\cdot,\mu_{i}\right)$ with $\mu_{i}=H\left(\eta({\bf\alpha}^T{\bf t}_{i})+{\bf x}_{i}{\bf\beta}^T\right)$, where now ${\bf t}_{i}\in\mathbb{R}^{q}$, ${\bf x}_{i}\in\mathbb{R}^{p}$ and $\eta:\mathbb{R}\to\mathbb{R}$, ${\bf\beta}\in\mathbb{R}^{p}$ and ${\bf\alpha}\in\mathbb{R}^{q}$ ($\|{\bf\alpha}\|=1$) are the unknown parameters to be estimated. Two families of robust estimators are introduced which turn out to be consistent and asymptotically normally distributed. Their empirical influence function is also computed. The robust proposals improve the behavior of the classical ones when outliers are present.
A Bioestatística integrada numa perspectiva multidisciplinar
Actualmente os investigadores das áreas biomédicas estão mais sensibilizados para a intervenção da Estatística nos seus projectos de investigação. A participação tardia do estatístico (apenas na fase da análise de dados) ainda é frequente. Contudo, existe uma maior preocupação na integração atempada do estatístico na fase do planeamento e recolha de dados. Por outro lado, o desenvolvimento das áreas biomédicas (e.g. Biologia Molecular) tem suscitado o desenvolvimento de metodologias estatísticas cada vez mais sofisticadas e que requerem a intervenção da Teoria das Probabilidades, da Investigação Operacional e das Ciências da Computação, habitualmente, não contempladas nas instituições biomédicas. Neste trabalho aborda-se a problemática do diálogo, nem sempre fácil, com outras áreas do saber de forma a reforçar o papel da Bioestatística em alguns projectos de investigação. Fazendo referência ao Projecto “Epidemiologia e Controlo da Leptospirose nos Açores” ilustram-se os esforços e as dificuldades sentidas no terreno para realizar uma amostragem aleatória e recolher os dados. Outra área importante na Bioestatística relaciona-se com o estudo da sensibilidade e especificidade de técnicas laboratoriais na ausência de uma técnica de referência fiável (Gold standard). Os Modelos de Classes Latentes, tradicionais na Psicologia e Sociologia, têm sido aplicados para estimar especificidades e sensibilidades de técnicas laboratoriais sem fixar uma técnica como referência. Através de um problema prático exemplifica-se a importância destes modelos no diagnóstico de algumas doenças tropicais. Paralelamente, ao explorar este problema prático, surgiu a necessidade de revisitar alguns problemas antigos da Estatística, relacionados com os intervalos de confiança para proporções (próximas de $0$ ou $1$) e, consequentemente, com o cálculo do tamanho da amostra. Em suma, a multidisciplinaridade está naturalmente presente na Bioestatística e as linhas de investigação, em oposição à Estatística Teórica, podem ser enriquecidas pela diversidade de problemas práticos e pelo diálogo com outros profissionais.
Desde os finais do século XIX que a regressão é uma espécie de pão de cada dia para uma vasta população de utilizadores da estatística nos mais variados domínios. O método dos mínimos quadrados é como que a manteiga que prepara e facilita a ingestão, permitindo o estudo do modelo. Nesta apresentação mostra-se que este pão com manteiga da Estatística nem sempre tem o sabor delicioso que o seu consumo voraz parece sugerir. A receita pode falhar e o sabor pode ser amargo. Para prevenir acidentes e desconfortos propõe-se um condimento muito abrangente, capaz de satisfazer e deixar mais tranquilo o utilizador em geral, mesmo o mais exigente, aquele que trabalha em domínios ou casos em que a aplicação dos mínimos quadrados conduz a soluções enganadoras. Trata-se da regressão robusta cuja análise constitui a preocupação central do seminário: o que é, que vantagens, que limitações, que métodos e que popularidade, são alguns dos tópicos a abordar.
Métodos robustos para regressão com erros autocorrelacionados
Uma das suposições associadas ao modelo de regressão linear múltipla é a independência dos erros. No entanto em muitas aplicações, nomeadamente em econometria, essa suposição não se verifica. Têm sido, por isso, propostos desde longa data métodos de diagnóstico para esta situação (um deles é o conhecido teste de Durbin-Watson) e métodos adequados de estimação (por exemplo, mínimos quadrados generalizados). Neste trabalho mostra-se que esses métodos não são robustos em relação a outras violações das suposições do modelo, tais como a não normalidade dos erros e/ou a existência de outliers, e apresentam-se métodos alternativos adequados para diagnosticar de forma robusta a existência de erros autocorrelacionados, bem como estimadores robustos para os parâmetros do modelo de regressão na presença daquele tipo de erros. Os métodos propostos são avaliados com base em estudos de Monte Carlo e em dados reais.
Erros nos regressores: realismo, desconforto e desafios
Os modelos de regressão constituem uma das ferramentas mais usadas pelos utilizadores da Estatística — por vezes ignorando que as variáveis são medidas com erro. Que fazer quando um regressor contém erros? Os modelos com erros-nas-variáveis dão a resposta. São uma extensão dos modelos de regressão, que disponibiliza uma descrição mais realista dos fenómenos em análise. Apesar das aparentes vantagens da modelação, os modelos com erros-nas-variáveis não têm tido a procura dos seus congéneres, nem a mesma aceitação. Porque será? Nesta apresentação procura-se responder às questões anteriores, divulgando esta família de modelos, comparando-os com os modelos de regressão, apontando os métodos a usar, as vantagens e os desafios associados à sua aplicação.
Análise bayesiana de privação das famílias portuguesas
Neste trabalho pretende-se analisar multidimensionalmente a pobreza das famílias portuguesas considerando quatro dimensões de bem-estar — Habitação, Bens de Conforto, Capacidade Económica e Redes de Sociabilidade — com base no Painel Europeu de Agregados Domésticos Privados do Eurostat. Propõe-se uma abordagem em várias etapas permitindo uma análise parcial e global da privação, recorrendo-se, para tal, à análise de modelos bayesianos de classes latentes através do método Monte Carlo via Cadeias de Markov. Os resultados obtidos evidenciam uma melhoria substancial no bem-estar das famílias entre 1995 e 2001. As dimensões Capacidade Económica e Redes de Sociabilidade são as que mais contribuem para a situação de privação das famílias.
Análise Probabilística de Opções Reais
A análise de opções reais, muito em voga nos meios financeiros actuais, lida com a necessidade premente de prever preços futuros de opções (de compra ou venda) num cenário aleatório, de forma a estabelecer preços contractuais justos para ambas as partes. Neste contexto a componente estocástica tem um papel relevante, que será explorado nesta apresentação. Veremos como o movimento Browniano, por exemplo, é indispensável na análise em horizonte finito de produtos financeiros, e como no dia a dia de "traders" especializados aparecem integrais estocásticos.
Estimation of matrix rank: historical overview and more recent developments
Partial Differential Equations ans Stochastic Differential Equations Arising in Particle Systems