Kaggle: Competições de Machine Learning

By António Cruz | January 5, 2017

Muita da informação presente neste post foi diretamente traduzida da wikipedia. Para quê inventar a roda?

O que é a Kaggle

Em 2010, a Kaggle foi fundada como uma plataforma para competições de modelos preditivos, nas quais empresas e pesquisadores disponibilizam os seus dados e cientistas de dados de todo o mundo competem para produzir os melhores modelos.

Esta abordagem crowdsourcing baseia-se no facto de que existem inúmeras estratégias que podem ser aplicadas a qualquer tarefa de modelagem preditiva e é impossível saber, no início, qual a técnica ou analista que será mais eficaz. A Kaggle também aloja competições de recrutamento em que os cientistas de dados competem por uma hipótese de conseguir entrevistas de trabalho nas empresas líderes em ciência de dados como Facebook, Winton Capital e Walmart.

A provavelmente mais famosa competição feita deste género terminou em 2009 e foi patrocinada pela Netflix.

A Netflix oferecia 1.000.000 US Dólares ao competidor (individual ou equipa) que conseguisse uma melhoria de 10% no seu algoritmo de predição dos ratings dos utilizadores.

Tipos de competições e categorias de cientistas de dados

Na Kaggle existem diversos tipos de competições que estão direcionadas para 3 grandes áreas:

  • Problemas de negócio

  • Recrutamento

  • Investigação

Existem 5 categorias de cientistas de dados:

  • Novice

  • Contributor

  • Expert

  • Master

  • Grandmaster

Para vos dar uma ideia, e sendo esta a maior plataforma de competição deste tipo, existem à data de hoje (02-01-2017) 88 Grandmasters, 800 Masters, 2157 Experts e 44440 Contributors.

No entanto a comunidade Kaggle tem mais de 700 mil utilizadores (conhecidos como kagglers) de quase 200 países e espera atingir o utilizador um milhão em 9 de setembro de 2017.

Disposições finais

Irei publicar alguns artigos da minha experiência em competições kaggle, começando por descrever as já terminadas e ir atualizando conforme vá participando em novas competições.

Normalmente as competições são muito interessantes e os dados são reais.

Espero que gostem.

comments powered by Disqus