Dans cet épisode, on discute avec Sam Bessalah de ce “nouveau” métier qu’est le data scientist. On explore aussi l’univers Apache Hadoop et l’univers Apache Mesos. Ces endroits sont pleins de projets aux noms bizarres, cette interview permet de s’y retrouver un peu dans cette mythologie.

Enregistré le 16 décembre 2014

Téléchargement de l’épisode LesCastCodeurs-Episode-115.mp3

Interview

Ta vie, ton oeuvre

@samklr
Ses présentations, encore ici et

Data scientist

Késako ?!
C’est nouveau ? On a toujours eu des données pourtant dans nos S.I. ?!
Le job le plus sexy du 21eme siecle ?
Drew conway’s Data Science Venn diagram

Traiter les données, les plateformes

MapR, Hadoop, … C’est Quoi ? C’est nouveau ? Ca vient d’où ? Comment ça marche ? À quoi ça sert ?

Ca s’intègre à tout ? Et nos sources de données legacy (Mon bon vieux mainframe et son EBCDIC) ?

Où sont passés mes EAI, ETL, et autres outils d’intégration B2C/B2B ?

EAI
ETL
EBCDIC
BI (Business Intelligence)

Hadoop

MapReduce
Doug Cutting
Apache Lucene - moteur de recherche full-text

Apache Hadoop - plateforme de process distribués et scalables
HDFS - système de fichier distribué
Apache Hive - data warehouse au dessus d’Hadoop offrant du SQL-like
Terradata
Impala - database analytique (“real time”) SQL queries etc
Apache Tez - directed-acyclic-graph of tasks
Apache Shark remplacé par Spark SQL
Apache Spark - Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing
Apache Storm - process de flux de données de manière scalable et distribuée

Data Flow
Machine Learning - apprendre de la donnée

Graph Lab

Et l’infrastructure dans tout ça ?

De nos bons vieux serveurs qui remplissent les salles machines au cloud (IAAS, PAAS), en passant par la virtualisation (), les conteneurs (XLC, Docker, …) …. Des ressources à gogo c’est bien mais comment les gérer ?

YARN

Apache Mesos

Apache Mesos
Comment démarrer Mesos
Tutoriaux
Data Center OS de Mesosphere
Presentation de Same à Devoxx sur Mesos
Mesos et les container docker
Cluster Management and Containerization by Benjamin Hindman
Integration continue avec Mesos par EBays

Docker

Docker
Démarrer un cluster Spark avec Docker
Shell Spark dans Docker
Docker et Kubernetes dans Apache Hadoop YARN
Cluster Hadoop sur Docker
Docker, Kubernetes and Mesos

cgroups
LXC
Docker vs LXC
Marathon
Chronos
Code de Chronos
Aurora

Kubernetes
Kubernetes workshop

Oscar Boykin
Scalding
Présentation Scala + BigData et une autre
Apache Ambari

Comment je m’y mets ?

Comment devient-on data scientist ? (se former, ouvrages de références, sources d’infos, …) Mesosphere

Cours de Andrew Ng sur le Machine Learning
Introduction to data science sur Coursera
Kaggle
MLlib
Mahout
R
Scikit-learn (Python)
Machine Learning pour Hackers (livre)
Scala TypeSafe Activator

iPython NoteBooks
Autres référence iPython NoteBooks
Notebooks temporaires en line - démarre un container docker sur rackspace gratuitement (pour vous)
Des notebooks
Parallel Machine Learning with scikit-learn and IPython
Visualiser les notebooks en ligne sans les télécharger
Spark / Scala notebooks for web based spark development
http://zeppelin-project.org/
Spark et Scala avec un notebook ipython

Nous contacter

Contactez-nous via twitter http://twitter.com/lescastcodeurs
sur le groupe Google http://groups.google.com/group/lescastcodeurs
ou sur le site web http://lescastcodeurs.com/
Flattr-ez nous (dons) sur http://lescastcodeurs.com/
En savoir plus sur le sponsoring ? sponsors@lescastcodeurs.com