Download PDF

Modern Methods for Smarter Data: From Metadata to Data Quality Techniques in Central Bank Statistics

Organiser

Participants

Mr Ibrahim Cagan Kaya (Presenter/Speaker)

Making Sense of Data: The Role of Metadata Standards in Statistical Literacy

Detecting Outliers in Pension Schemes' and Insurance Corporations' Datasets: A Machine Learning Approach (co-authored with Kristen Carabott)

Giulia Maria Tabone (Presenter/Speaker)

Uncovering Anomalies in the Granular Securities Holding Data: An Ensemble Modelling Approach using Unsupervised Machine Learning Techniques

Conference

Regional Statistics Conference 2026

Abstract

Making Sense of Data: The Role of Metadata Standards in Statistical Literacy

In today’s data-centric environment, statistical literacy is vital. While data analysis and visualization receive significant attention, metadata—the descriptive information about data—plays a foundational role. Standards such as SDMX and DDI provide structured frameworks that enhance clarity, comparability, and usability. By embedding metadata throughout the data lifecycle, institutions gain deeper insights into origins, methodologies, and limitations. This paper examines how metadata standards promote data quality, interoperability, and effective communication, empowering users to navigate complex data landscapes confidently.

Uncovering Anomalies in the Granular Securities Holdings Data

This paper proposes a semi-automatic anomaly detection framework using time series analysis and ensemble modelling. Combining Isolation Forest, One-Class SVM, and HDBSCAN through majority voting, the approach improves robustness in identifying irregular patterns in granular securities data. Implemented fully in Python, findings are illustrated with visualizations, demonstrating the potential of machine learning for data quality assurance.

Detecting Outliers in Pension Schemes' and Insurance Corporations' Datasets: A Machine Learning Approach

This paper introduces an unsupervised machine learning model, Isolation Forest, implemented via KNIME and Python integration, to detect anomalies in pension schemes' and insurance corporations' datasets. The approach captures discrepancies in short and long time series, improving data reliability. Results are presented through tables and graphs, with discussion on efficiency, limitations, and future enhancements.

Together, these papers showcase how metadata-driven practices and machine learning can transform statistical operations, ensuring smarter, more reliable data for central banking.