Recent seminars

Europe/Lisbon
Amphitheatre Fa2, IST — Online

Renata M. C. R. Souza, Universidade Federal de Pernambuco

Avanços em Ciência de Dados no Paradigma de Análise de Dados Simbólicos (Symbolic Data Analysis - SDA)

Os avanços das tecnologias da informação e dos computadores têm permitido a possibilidade de armazenar grandes e múltiplas bases de dados e frequentemente estes dados podem ser não estruturados com variáveis definidas por múltiplos valores ou múltiplas unidades. Por exemplo, temperaturas diárias registadas por valores mínimos e máximos e preferência de usuários para analisar fenômenos por regiões ao invés de habitantes. A fim de reduzir o tamanho e melhorar a eficiência de modelos associados a esses dados, uma solução é obter novas unidades estatísticas para descrever os fenômenos via dados multivalorados. Em Análise de Dados Simbólicos (ADS) as entradas das bases de dados são novas unidades descritas por variáveis que não se limitam a serem valores reais uma vez que podem ser selecionados de uma lista mais ampla: conjuntos, intervalos, histogramas, árvores, gráficos, funções, fuzzy, etc. O objetivo de ADS é estender as técnicas estatísticas e aprendizagem de máquina (árvores de decisão, regras de classificação, redes neurais, análise fatorial) para dados mais complexos, chamados de dados simbólicos. Nesta última década, diferentes métodos de regressão e agrupamento para dados multivalorados têm sido propostos na literatura de ADS. Diferentes aplicações ilustram o uso desses métodos.

Joint seminar CEMAT and CEAUL

Europe/Lisbon
SASlab (6.4.29) Faculty of Sciences of the Universidade de Lisboa — Online

Heliton Tavares, Universidade Federal do Pará, Brasil

Modelos Estatísticos para Deteção de Fraudes e Aplicações

O desenvolvimento de Modelos Estatísticos para Detecção de Fraudes em Testes tem ganhado relevância nos últimos, particularmente aqueles baseados na Teoria da Resposta ao Item (TRI). Exames e avaliações podem ter suspeitas de fraude associadas se os resultados estiverem vinculados a vantagens financeiras ou vagas em instituições de ensino. Serão apresentados os principais modelos, comportamentos estatísticos associados, desempenho computacional para execução dos mesmos e uma aplicação a dados reais. Foi construído um pacote computacional no R que será apresentado e disponibilizado ao público.

Joint seminar CEMAT and CEAUL

Europe/Lisbon
SASlab (6.4.29) Faculty of Sciences of the Universidade de Lisboa — Online

Fernando Moura, Universidade Federal do Rio de Janeiro, Brasil

Modelo Beta-Beta Prime para Índices e suas Precisões com Aplicação à Estimação em Pequenas Áreas

Agências nacionais de estatística do mundo inteiro têm experimentado uma necessidade crescente de fornecer estimativas confiáveis de índices económicos e sociais, como proporções ou taxas, a nível de pequenas áreas ou pequenos domínios a partir de dados de pesquisas amostrais. No entanto, devido ao pequeno tamanho da amostra nessas áreas, não é viável obter estimativas com um nível de precisão aceitável sem usar abordagens baseadas em modelos. Este trabalho propõe modelar conjuntamente o estimador direto de índices no intervalo (0,1) e suas respectivas precisões utilizando-se as distribuições Beta e Beta prime. A novidade é modelar também o estimador de precisão amostral como uma distribuição Beta prime. Um estudo de avaliação com dados reais mostra que há ganho extra na modelagem conjunta do estimador direto e seu estimador de precisão com relação ao modelo Beta que não utiliza informação amostral sobre a precisão das estimativas. Uma aplicação para estimar o índice de insegurança alimentar em pequenas áreas do Estado de Minas Gerais, usando dados da Pesquisa Nacional de Orçamentos Familiares (POF) para o ano de 2018 é também apresentada.

Trabalho conjunto com Soraia Pereira (CEAUL/FCUL) e Giovani Silva (CEAUL/IST).

Joint seminar CEMAT and CEAUL

Europe/Lisbon
Room P3.10, Mathematics Building — Online

Diogo Pereira, CEMAT, Instituto Superior Técnico

A new algorithm for inference in Hidden Markov models with lower span complexity

The maximum likelihood problem for Hidden Markov Models is usually numerically solved by the Baum-Welch algorithm, which uses the Expectation-Maximization algorithm to find the estimates of the parameters. This algorithm has a recursion depth equal to the data sample size and cannot be computed in parallel, which limits the use of modern GPUs to speed up computation time. A new algorithm is proposed that provides the same estimates as the Baum-Welch algorithm, requiring about the same number of iterations, but is designed in such a way that it can be parallelized. As a consequence, it leads to a significant reduction in the computation time. We illustrate this by means of numerical examples, where we consider simulated data as well as real datasets.

Joint seminar CEMAT and CEAUL

Europe/Lisbon
Online

Ben Stevenson, University of Auckland, New Zealand

Penalised Regression Splines For Spatial Capture-Recapture

Understanding co-infection systems with multiple interacting strains remains difficult. High dimensionality and complex nonlinear feedbacks make the analytical study of such systems very challenging. When similar strains are similar, we can model trait variation as parameter perturbations, simplifying analysis. Applying singular perturbation theory to such a multi-strain system we have obtained the explicit collective dynamics in terms of fast (neutral) dynamics, and slow (non-neutral) dynamics. The slow dynamics are given by the replicator equation for strain frequencies, a key equation in evolutionary game theory, which in our case governs selection among N strains. In this talk, I will highlight some key features of this derivation, the use of the replicator equation to understand such a multi-strain system better, and discuss links with diversity data both in epidemiology and ecology.

Joint seminar CEMAT and CEAUL