a carregar...

UC.PT

Divisão de Projetos e Atividades

PTDC/EEI-ESS/1189/2014

PTDC


Código da Operação:
POCI-01-0145-FEDER-016759

Acrónimo: DataScience4NP

Referência: PTDC/EEI-ESS/1189/2014

Título: Data Science para Não-Programadores

Área Científica: Engenharia Eletrotécnica e Engenharia Informática - Engenharia de Software e Sistemas de Informação

Síntese do Projeto: • Contexto -  A empresa de consultoria McKinsey identificou uma escassez de cientistas de dados (data scientists) que não permitirá a muitas organizações explorar o potencial do Big Data. Em 2018, os EUA terão de enfrentar uma escassez de 140.000-190.000 profissionais. Esta carência será mais dramática em Portugal uma vez que, em contraste com várias universidades norte-americanas (por exemplo, Berkeley e Carnegie Mellon University) que já oferecem graus sobre a ciência dos dados há vários anos, as universidades portuguesas estão a dar os primeiros passos. Sem profissionais, a vantagem competitiva que o Big Data traz para as empresas portuguesas permanecerá inexplorado.
• Problema - Esta escassez de profissionais não pode ser facilmente mitigada. Formar alunos para se tornarem cientistas de dados requer tempo e recursos para ensinar capacidades oriundas de várias áreas do conhecimento, tais como: engenharia informática, estatística, e visualização de dados. Visto que os cientistas de dados estão envolvidos em todo o ciclo de vida dos dados, precisam dominar linguagens de programação (por exemplo, Python e Perl) para limpar, integrar e transformar dados, e usar bibliotecas de programação complexas (por exemplo, scikit-learn para análise e o Matplotlib para visualização). Dominar este tipo de ambiente de trabalho não é simples.
• Objetivo - O objetivo do projeto DataScience4NP é explorar o uso de paradigmas de programação visual para permitir que não-programadores possam fazer parte da força de trabalho de análise de dados.
• Abordagens existentes - Em contraste com as abordagens existentes, que necessitam de conhecimentos de linguagens programação, os Sistemas de Gestão de Workflows Científicos (SGWCs) são uma alternativa que permite a programação visual de projetos de análise científica de dados. Estes sistemas (por exemplo, o Taverna e o Kepler) usam representações gráficas simples, baseadas em grafos, para desenvolver aplicações. Essa simplicidade mostrou-se adequada em várias áreas científicas, como a bioinformática, geofísica, e análise climática.
• Limitações - Apesar do sucesso dos SGWCs, estes não podem ser usados por não-programadores. Os SGWCs existentes requerem conhecimentos de programação para desenvolver pequenas aplicações de software para o processamento de tarefas que fazem parte de um workflow. Isto explica porquê as equipes de trabalho que utilizam estes sistemas são compostas por cientistas e por programadores de software. É por isso necessário esforços de investigação adicionais para remover qualquer conhecimento de linguagens de programação para massificar o seu uso.
• Abordagem proposta - Propomos estender os SGWCs atuais de forma a permitirem a parametrização de workflow templates genéricos e pré-construídos. O conceito de workflow parametrizável foi desenvolvido no campo empresarial nos anos 70 de forma a aumentar a reutilização de software. Os workflow templates capturam as tarefas de processamento de dados que fazem parte de um projeto científico de análise de dados. Um template pode ser visto como uma formalização das melhores práticas que cientistas podem reusar para resolver desafios de análise de dados recorrentes. Os templates são desenvolvidos por equipes multidisciplinares de especialistas e reutilizados por cientistas de dados sem conhecimentos de programação.
• Implementação - A abordagem proposta será implementada no Taverna, um SGWC de código aberto para o desenho e execução de workflows usado por 350 instituições de investigação em todo o mundo. A plataforma myexperiment.org será usada para partilhar workflow templates entre cientistas.
• Avaliação - A Portugal Telecom (PT) e a agência nacional para a modernização da administração pública (AMA), que gere os Dados Abertos em Portugal, avaliarão o sistema final. A avaliação incluirá um hackathon no Codebits, um evento organizado pela Portugal Telecom há já vários anos, que convidará jovens participantes, não programadores, interessados em desenvolver projetos científicos para analisar dados sobre ciência, negócios e tecnologia.
• Benefícios - Por um lado, um sistema de software será implementado para que estudantes e profissionais possam conduzir experiências científicas sobre dados a nível mundial. Por outro lado, o projeto irá gerar uma riqueza de material – workflow templates, conjuntos de dados, artigos, documentação e software – que irá ser usado para preparar uma nova disciplina sobre Ciência de Dados a ser oferecida tanto na Universidade de Coimbra (UC), como no Instituto Universitário de Lisboa (ISCTE-IUL).
• Equipe - DataScience4NP reúne um operador de telecomunicações (PT), que necessita de soluções para a análise de Big Data; a agência para a modernização da administração pública (AMA) que requer técnicas para a análise de dados governamentais abertos; e dois grupos de investigação (UC e ISCTE-IUL).

Investigador Responsável: Doutor António Jorge Cardoso

Programa de Financiamento: PT2020 – SAICT –PTDC/ICDT

Instituição Financiadora: FCT - Fundação para a Ciência e a Tecnologia

Data de início: 15-06-2016

Data de conclusão: 14-06-2019

Instituições participantes no Projeto: Universidade de Coimbra (proponente);  ISCTE - Instituto Universitário de Lisboa

Custo total elegível (EUR): 186.450,00€

Apoio financeiro da UE: 139.569,00€

Apoio financeiro público nacional: 46.881,00€

Técnico do Projeto: Ana Lopes

Contacto: 239247027