O desenvolvimento de Modelos Estatísticos para Detecção de Fraudes em Testes tem ganhado relevância nos últimos, particularmente aqueles baseados na Teoria da Resposta ao Item (TRI). Exames e avaliações podem ter suspeitas de fraude associadas se os resultados estiverem vinculados a vantagens financeiras ou vagas em instituições de ensino. Serão apresentados os principais modelos, comportamentos estatísticos associados, desempenho computacional para execução dos mesmos e uma aplicação a dados reais. Foi construído um pacote computacional no R que será apresentado e disponibilizado ao público.
Agências nacionais de estatística do mundo inteiro têm experimentado uma necessidade crescente de fornecer estimativas confiáveis de índices económicos e sociais, como proporções ou taxas, a nível de pequenas áreas ou pequenos domínios a partir de dados de pesquisas amostrais. No entanto, devido ao pequeno tamanho da amostra nessas áreas, não é viável obter estimativas com um nível de precisão aceitável sem usar abordagens baseadas em modelos. Este trabalho propõe modelar conjuntamente o estimador direto de índices no intervalo (0,1) e suas respectivas precisões utilizando-se as distribuições Beta e Beta prime. A novidade é modelar também o estimador de precisão amostral como uma distribuição Beta prime. Um estudo de avaliação com dados reais mostra que há ganho extra na modelagem conjunta do estimador direto e seu estimador de precisão com relação ao modelo Beta que não utiliza informação amostral sobre a precisão das estimativas. Uma aplicação para estimar o índice de insegurança alimentar em pequenas áreas do Estado de Minas Gerais, usando dados da Pesquisa Nacional de Orçamentos Familiares (POF) para o ano de 2018 é também apresentada.
Trabalho conjunto com Soraia Pereira (CEAUL/FCUL) e Giovani Silva (CEAUL/IST).
The maximum likelihood problem for Hidden Markov Models is usually numerically solved by the Baum-Welch algorithm, which uses the Expectation-Maximization algorithm to find the estimates of the parameters. This algorithm has a recursion depth equal to the data sample size and cannot be computed in parallel, which limits the use of modern GPUs to speed up computation time. A new algorithm is proposed that provides the same estimates as the Baum-Welch algorithm, requiring about the same number of iterations, but is designed in such a way that it can be parallelized. As a consequence, it leads to a significant reduction in the computation time. We illustrate this by means of numerical examples, where we consider simulated data as well as real datasets.
Understanding co-infection systems with multiple interacting strains remains difficult. High dimensionality and complex nonlinear feedbacks make the analytical study of such systems very challenging. When similar strains are similar, we can model trait variation as parameter perturbations, simplifying analysis. Applying singular perturbation theory to such a multi-strain system we have obtained the explicit collective dynamics in terms of fast (neutral) dynamics, and slow (non-neutral) dynamics. The slow dynamics are given by the replicator equation for strain frequencies, a key equation in evolutionary game theory, which in our case governs selection among N strains. In this talk, I will highlight some key features of this derivation, the use of the replicator equation to understand such a multi-strain system better, and discuss links with diversity data both in epidemiology and ecology.
Dynamic event prediction, using joint modeling of survival time and longitudinal variables, is extremely useful in personalized medicine. However, estimating joint models that include multiple longitudinal markers remains a computational challenge due to the large number of random effects and parameters that need to be estimated. We propose a model-averaging strategy to combine predictions from several joint models for the event, including models with only one longitudinal marker or pairwise longitudinal markers. The prediction is computed as the weighted mean of the predictions from the one-marker or two-marker models, with the time-dependent weights estimated by minimizing the time-dependent Brier score. This method enables us to combine a large number of predictions issued from joint models to achieve a reliable and accurate individual prediction. The advantages and limitations of the proposed methods are highlighted by comparing them with the predictions from well-specified and misspecified all-marker joint models, as well as one-marker and two-marker joint models, using the available PBC2 dataset. The method is used to predict the risk of death in patients with primary biliary cirrhosis. The method is also used to analyze a French cohort study called the 3C data. In our study, seventeen longitudinal markers are being considered to predict the risk of death.