Depuis un an, je travaille exclusivement sur la plate-forme Hadoop, la cible actuelle étant Cloudera. De la phase de cadrage jusqu'au build, je participe aux différentes étapes en tant qu'architecte et concepteur afin d'industrialiser un socle big data.
Auparavant, je travaillais sur des projets Oracle dans les domaines suivants: architecture, conception et développement, tuning ( 8i et plus ).
L'étude de l'optimiseur fut un de mes sujets favoris. Sur ce point, je vous conseille des auteurs comme Jonathan Lewis, Christian Antognini ou encore Wolfgang Breitling. Je m'intéressais aussi à la haute disponibilité ( RAC, expérience en 10g ).
Avant de travailler sur une plate-forme Hadoop, j'ai étudié les bases nosql sous forme de POC ( MongoDB - > http://stnotter.blogspot.fr/2014/04/mongodb.html , Cassandra, SAP HANA sur AWS - > voir mon blog ). Je vous encourage à explorer ces nouvelles bases de données, qui ouvrent de nouveaux horizons en terme de clustering et d'in-memory.
Un aperçu de SAP HANA: http://blogdesexperts.infotel.com/2015/01/16/sap-hana-sur-amazon-web-services-lin-memory-pour-booster-lanalytique/
Dernièrement, Amadeus a référencé Couchbase Server ( hybride memcache + couchdb ) dans son catalogue de bases de données. Idem pour Criteo. De plus, leur offre couchbase mobile mérite d'être étudiée.
Une nouvelle version de MongoDB, la 3.0, vient de sortir avec un nouveau moteur, WiredTiger.
Dans le sillage d'Hana, Kudu arrive: http://fr.slideshare.net/cloudera/kudu-new-hadoop-storage-for-fast-analytics-on-fast-data
Sur Twitter, une série de podcasts sur le big data: https://twitter.com/bigdatahebdo
Pensez in-memory: http://blog.tanelpoder.com/2015/11/30/ram-is-the-new-disk-and-how-to-measure-its-performance-part-3-cpu-instructions-cycles/
Quelques outils: http://st.notter.free.fr/docs/oracle/tools/
Voici quelques sites pour bien aborder Oracle:
- http://asktom.oracle.com
- http://www.oracle-base.com
- http://allthingsoracle.com/topics/all-things-oracle-exclusives/
- http://jonathanlewis.wordpress.com
- http://blog.tanelpoder.com/
Voici une liste de liens à découvrir:
- Un lien utile sur les hints souvent utilisés à tort et à travers:
http://jonathanlewis.wordpress.com/2009/05/09/hints-on-hints/
- Quelques présentations sur les nouveautés de l'optimiseur en 12c: https://blogs.oracle.com/optimizer/entry/oracle_open_world_2013_it
- Un article pédagoqique sur les latchs: http://tech.e2sn.com/oracle/troubleshooting/latch-contention-troubleshooting
- Pour bien aborder les index b-tree: http://richardfoote.files.wordpress.com/2007/12/index-internals-rebuilding-the-truth-ii.pdf
- Quelques outils pour tuner des requêtes: ASH Viewer + real-time sql monitoring + sql tuning advisor + sql access advisor.
- Si vous utilisez le C , pensez à tester l'ocilib: http://orclib.sourceforge.net/
- Les présentations du CERN: http://canali.web.cern.ch/canali/main.htm
- Un blog sur la migration: https://blogs.oracle.com/UPGRADE/
- In-memory: https://blogs.oracle.com/In-Memory/
- Un état de l'art sur les outils de monitoring: http://www.oraclerealworld.com/best-oracle-performance-tools/
- Une série sur la compression des données: http://jonathanlewis.wordpress.com/2013/01/24/compression/
- Une VM prête à l'emploi : http://www.oracle.com/technetwork/database/enterprise-edition/databaseappdev-vm-161299.html
- Le site de R.Geist pour la parallélisation des requêtes: http://oracle-randolf.blogspot.fr/
Pour finir, un petit peu de pub:
- Dataiku, un outil permettant de démocratiser le machine learning dans l'entreprise.
- Delphix, un outil de virtualisation des bases de données.
- AWS ( Amazon Web services ), un vrai datacenter du 21e siècle. Un exemple: l'autoscaling.
- Violin, une startup implémentant de la mémoire flash de manière optimisée.
Mes compétences :
Dba
Oracle
MongoDB
Big Data
Cassandra
BBL/Formation
Couchbase
Hadoop
Stack Cloudera