Alternant Data Engineer H/F
Detail de l'annonce :
DESCRIPTION DE L'ENTREPRISE
SOGETI APPLICATION TESTING & SÉCURITÉ
Sogeti France (filiale du groupe Capgemini) est une entreprise de
services du numérique.
Nous accompagnons la transformation des entreprises dans 4 domaines :
Digital, Testing, Sécurité et Infrastructure.
Aujourd’hui notre entreprise figure parmi les 15 meilleurs
employeurs du secteur high-tech en France.
DESCRIPTION DE LA MISSION
Intégré(e) au sein d’une équipe projet pour l’un de nos clients
grands comptes du secteur tertiaire (banques, transports, secteur
public, assurances, télécommunications etc.), vous intervenez sur
plusieurs phases du projet : la conception, le développement et la
qualification.
Au sein d’une équipe, votre mission portera sur plusieurs
facettes/stacks de compétences :
* Usage des langages suivants : Java, Python, Scala
* Développement sur une des distributions Big Data majeures du
marché : HortonWorks (HDP/HDF), MAPR, Cloudera.
* Conception de pipeline d’ingestion de données sur des frameworks
de calcul distribués (Spark, Akka, Flink, etc.) temps réel (Kafka,
Storm, Spark Streaming).
* Choix de la persistence des données à adopter selon les use cases
à traiter (HDFS, Hive, Hbase, MongoDB, Cassandra, ElasticSearch,
Neo4j etc.).
* Appréhension d’un environnement BI type datawarehouse
d’entreprise (modélisation relationnelle, stockage RDBMS, SQL
Fluent)
* Consommation des données véhiculées et transformées dans ce
type d’architecture avec des outils éditeurs (Tableau, Qlik,
Spotfire, Dataiku) ou des outils Opensource (Kibana, D3 JS, Zeppelin,
Graffana, Rshiny, Jupyter)
* Intervention sur des environnements containérisés (Docker,
Kubernetes, Mesos, etc.)
Usage de stacks d'outils d'aide au développement collaboratif et à
l'intégration continue (JIRA, Bitbucket, Confluence, Bamboo, Github,
GitLab, Jenkins, Ansible, etc.)
PROFIL
Vous êtes passionné par les données et la technologie, diplômé
d'une grande école d'ingénieur, spécialisé en informatique. Vous
connaissez et utilisez les technologies de référence en terme de :
PROGRAMMATION :
Connaissances impératives en programmation objet (Java, Scala,
Python, Ruby, C++ ou autre) et en structures de données
Notions de parallélisation
BASES DE DONNÉES :
Solides connaissances en bases de données relationnelles et langage
de requêtes SQL Architecture d’un SGBD
Connaissance NoSQL, « Cassandra »
ENVIRONNEMENT BIG DATA / DISTRIBUÉ :
Spark, Hortonworks, Cloudera, Kafka, Docker, WorkingExperience on
cloud, AWS, Google Cloud, Microsoft Azure…
Algorithmique et structures de données
Analyse d’algorithmes : estimation et optimisation de complexité en
temps et espace, notation asymptotique, structures de données
Méthodes de conception et d’optimisation d’algorithmes :
récursivité, diviser pour régner, force brute…