dimanche 30 décembre 2012

Ordinateur, mon pote

Laurent SALTERS pour La banque des savoirs m'a demandé une réaction à L'ordinateur a de la mémoire mais aucun souvenir.
La voici, la voilà.

Ordinateur, mon pote. T’as zéro mémoire. Si je coupe ton courant, ta mémoire va se décomposer. T’auras tout oublié. Ta mémoire, c’est une passoire. Et je suis assez bête pour te confier mes souvenirs les plus précieux ! Tu ranges ça au fond de ton disque. A tout hasard Balthazar, tu planques ça quelque part dans les nuages. Déconne-pas ! Ta mémoire, ce sont mes souvenirs, pas les tiens.  Car passent les jours et passent les semaines. Les photos s’effacent, les chansons s’évanouissent, les courriels se fanent. Mes souvenirs se perdent au bout de la nuit. J’ai tout oublié. Mais pas toi ! Quel bazar, t’as tout phagocyté ! Mes souvenirs sont devenus les tiens, même ceux que j’aurais préféré effacer. Ordinateur, mon pote. T’as trop de souvenirs pour me laisser mourir tranquille.

Voir Questions de sciences

dimanche 9 décembre 2012

Enseignement de l'informatique en prépa - suite

La situation de cet enseignement est désolante.

Une proposition de programme allant dans le bon sens est en consultation jusqu'au 15 décembre sur le site du ministère. Les "grands papas ronchons" de Michel Serres sont à la manœuvre contre ce programme, ce qui serait tout à fait au détriment des petites poucettes de prépa et de leurs potes. Soyez nombreux à soutenir le programme existant à consultation.

La position de la Société Informatique de France

Objet : Sur l’enseignement de l’Informatique et des Sciences du Numérique dans les programmes rénovés des CPGE scientifiques

L'acquisition de bases en science informatique est indispensable à tout ingénieur d'aujourd'hui.

La Société Informatique de France (SIF) constate donc avec satisfaction que les nouveaux programmes des CPGE scientifiques accordent une place réelle à l'Informatique et aux Sciences du Numérique, et donnent ainsi aux étudiants qui vont les suivre, les clés pour appréhender la société du XXIème siècle.

La SIF salue également les efforts et l'esprit de dialogue qui ont permis l'élaboration des nouveaux programmes en CPGE.

La SIF estime néanmoins nécessaire que les volumes horaires soient plus importants (par exemple, 1 heure de plus par semaine) et que, dans un futur proche, tous les enseignants en charge des modules d'informatique en CPGE aient des compétences disciplinaires attestées dans le cadre de leur formation initiale.

Le 3 décembre 2012

Le Conseil d’Administration de la Société Informatique de France
Le Conseil Scientifique de la Société Informatique de France

dimanche 25 novembre 2012

Tout est pas mirifique dans le numérique

Je me reproche parfois - boulot oblige - d'avoir tendance à oublier un peu trop le coté obscure des nouvelles technologies. Un buzz sur Internet vient de me rappeler que tout n'est pas angélique dans le numérique.

Ca se passe en Arabie Saoudite. On savait que les femmes devaient pour quitter le pays avoir l'autorisation de leur "tuteur mâle". Yuk ! Maintenant elles peuvent être surveillées électroniquement et leur tuteur reçoit un SMS quand elles sortent du pays...  Beurk ! Yuk !

Lire  http://www.rawstory.com/rs/2012/11/22/saudi-arabia-implements-electronic-tracking-system-for-women/

PS: On se rassure en se disant que si l'informatique est une composante centrale du numérique, elle  n'en est qu'une composante. Au moins on partage la responsabilité avec d'autres.

vendredi 23 novembre 2012

La littérature peut-elle raconter la science ?

Je ne crois pas qu'on ait résolu le problème, mais en tous cas, on en a causé...

France Culture, Science publique, de Michel Alberganti
Ecouter: http://www.franceculture.fr/player/reecouter?play=4535323

Invités:
Serge Abiteboul, Directeur de Recherche à INRIA, l'institut de recherche en informatique et automatique, membre de l'académie des sciences.
François Bon, écrivain, auteur de théâtre, organisateur d’atelier d’écriture en résidence d’écrivain sur le plateau de Saclay d’avril à décembre 2012
Jean-Michel Frodon, journaliste, longtemps au Monde et aujourd’hui sur Slate.fr, critique de cinéma, professeur associé à Sciences-Po Paris, Coorganisateur des Artssciencefactory Day jusqu'au 29 novembre à Palaiseau.
 Valérie Masson Delmotte, paléoclimatologue au Laboratoire des sciences du climat et de l’environnement du CEA et membre du GIEC.

mardi 6 novembre 2012

Feit, Thompson et Gonthier

Le théorème de Feit-Thomson qui traite de la classification des groupes finis simples a été démontré par Walter Feit et John Griggs Thompson in 1963. Il dit (ne me demandez pas de détail) que chaque groupe fini d'ordre impair est résoluble. Georges Gonthier et son équipe du labo INRIA-Microsoft ont achevé en Septembre sa preuve formelle en utilisant le système Coq développé à l'INRIA. Bravo!

Polémique hier au café au LSV:
  • C'est un truc techniquement super mais les mathématiciens s'en foutent.
  • Ils s'en foutent peut-être mais cela va changer profondément les mathématiques.
  • Pas le moins du monde... 
Tout ce que je vais écrire est purement spéculatif et discutable. Je sais que de nombreux collègues mathématiciens hurleraient en le lisant. Mais comme nous sommes entre nous... 

Développer une preuve mathématique est quelque chose de purement artisanal, souvent impliquant seulement un crayon et une feuille de papier. On peut imaginer l'arrivée d'outils qui aideront les mathématiciens en vérifiant leurs hypothèses, en proposant des pistes, en développant des preuves formelles. Le mathématicien serait libéré de la partie fastidieuse des démonstrations. On sort de l'artisanat.

Développer une preuve mathématique est quelque chose de purement individuel (le plus souvent). On peut imaginer des collaborations entre des groupes de mathématiciens autour d'outils informatiques qui leurs permettraient d'additionner leurs talents, leurs efforts.

Bien sûr, tout ce que je dis s'applique aussi aux preuves de programme. C'est finalement un peu la même chose.

Il est énormément plus complexe de découvrir une preuve que de la vérifier. Les ordinateurs font mieux que nous dans la vérification. J'ose le sacrilège. Seront-ils un jour meilleurs que nos meilleurs mathématiciens pour démontrer des théorèmes? Et il nous resterait quoi? Peiner à comprendre leurs preuves? Proposer des théorèmes?

jeudi 25 octobre 2012

OGM et académies: J'y suis pour rien

On m'a demandé si j'avais quelque chose à voir dans la prise de position de l'académie sur les travaux de Gilles-Eric Séralini sur l'OGM NK603.

NON!!! Je ne connais rien à ce domaine mais si je devais avoir un avis, je soutiendrais Séralini.

On ne peut que s'étonner de cette prise de position précipitée de l'académie. 

Voir par exemple un article du nouvel obs.

mercredi 3 octobre 2012

Enseignement de l'informatique en prépas

Un article dans 01.net sur un sujet important: l'enseignement de l'informatique en classes prépas.

mardi 2 octobre 2012

Enseignement de l'informatique

La Société d'Informatique de France (la SIF)  est co-auteur et co-promotrice d'une lettre de soutien pour le développement de l'informatique en France, signée par un grand nombre d'établissements d'enseignement supérieur et/ou de recherche en Informatique en France.

Merci de diffuser cette lettre le plus largement possible. C'est notamment important en ce moment où se discute l'enseignement de l'informatique en prépa. Les classes préparatoires sont souvent en retard sur les facs dans ce domaine. C'est le moment de passer devant!!!

samedi 29 septembre 2012

Les désarrois de la recherche publique en France

  Réaction après une lecture très rapide du rapport sur la recherche publique en France de l'Académie des sciences: http://www.academie-sciences.fr/activite/rapport/rads0912.pdf

Simplifier. Le rapport est plutôt intéressant. Excellent départ avec comme première recommandation : « simplifier la gestion et les structures de la recherche publique ». Malheureusement, ce n’est pas le premier comité à proposer de simplifier les structures. J’ai participé récemment à un comité qui a proposé la fusion d’INRIA et du département informatique du CNRS. Il ne s’est rien passé. Les structures des labos d’info restent toujours aussi illisibles avec les deux instituts, les universités, les écoles d’ingénieurs, l’institut des télécoms et le reste. Et pour clarifier on a ajouté les labex, idex, et autres bidules annexes. Erk ! Big Erk !

AERES. Ne tirez plus sur l’ambulance. L’AERES est la dernière victime expiatoire. Pourtant, l’idée d’une structure un peu indépendante pour évaluer n’avait rien de sot, plutôt que de faire ça à l’arrache sur un coin de tables entre copains des ministères. Le problème ce n’est pas l’AERES, c’est sa réalisation. Il fallait ériger en  dogmes : l’éthique, la légèreté et la simplicité. Prenons INRIA. Nous avions une évaluation plutôt bien faite (qui s’alourdit en parfait accord avec le Théorème (français) de la Dérive Bureaucratique). L’AERES a rajouté une deuxième évaluation alors qu’il lui aurait suffi de s’approprier l’évaluation existante, de la simplifier, de l’alléger et pas le contraire.  Les évaluations à répétition de nos structures sont ubuesques. Elles seraient juste risibles sans la dictature de la note qui condamne à disparaître si on n’est pas dans une structure à A+.

Salaires jeunes chercheurs. Le rapport insiste sur un point important : « la revalorisation des rémunérations des jeunes chercheurs … dans les dix, douze premières années de leurs carrières. » Tout à fait Thierry. Moi j’aurais dit enseignant-chercheurs.

On reste quand même sur sa faim. J’aurais aimé qu’on parle de la séparation entre deux classes, chercheurs et enseignants-chercheurs, qui rigidifie notre environnement et qui, en tout cas en informatique, a peu de sens. Et puis, comme beaucoup, j’avoue ne pas trop comprendre les idex et autres machinex, à ne pas être convaincu que ça améliore les choses, que les euros sont bien utilisés. Le rapport n’a pas répondu à mes questions.

jeudi 13 septembre 2012

01Net: Le big data est avant tout un effet de mode

Un article de moi dans 01Net. Interview de Marie Jung.

J'aime bien la photo d'Agathe Caazard:
Serge Abiteboul








Il est possible qu’une entreprise commerciale, comme Facebook ou Google, finisse par concentrer toutes les informations personnelles du monde. Nous n’aurons plus alors qu’à lui faire confiance. Ou bien, je l’espère, nos données seront distribuées sur des milliards de systèmes. Une configuration qui permettra à chacun d’en garder la maîtrise ; ce qui n’est pas encore le cas...


jeudi 6 septembre 2012

Gilles Dowek's Show - A ne pas rater

Photo

Il faut absolument écouter l'interview de Gilles à Place de la Toile (France Q) sur l'enseignement de l'informatique (et la nouvelle section en Terminal C).

Son écoute devrait être obligatoire pour tous les membres de l'éduc nat et du gouvernement.

Ecouter jusqu'au bout, la conclusion de Gilles est savoureuse...

PS: il mentionne Janet Wing.

lundi 27 août 2012

Trouvez des idées dans les labos publics !

J'ai commis un article sur ce sujet dans 01Net. Désolé si ça fait un peu donneur de leçons, c'est le genre de la rubrique.

lundi 13 août 2012

Datalog revival (for database geeks only)


In research, sometimes, a new topics rises, blooms, slows down, and perhaps dies. I have worked many years on two such topics, deductive databases and object databases. These topics never died but at some points people would laugh when you would submit a paper on one of them. There was something like the feeling of being a Dinosaur coming directly from before the Web, i.e. from the Stone Age.
I was invited last year to give a talk in a Dagstuhl workshop on Relationships, Objects, Roles, and Queries in Modern Programming Languages. I discovered a new community interested in object databases. The success of systems such as DB4o also demonstrates that object databases are back. I am not surprised: this was a great idea. (Interestingly, I was not attending that workshop but another one on workflow, because of some works on Active XML, a language in the Datalog spirit.)
Deductive database with Datalog was also a great idea. I am speaking about this here to answer to a request of a friend (Dave Maier): I'm working with Todd Green on a contribution to the book for David Warren's symposium, on the history of Datalog. One of the things we want to address is the reasons behind the resurgence of Datalog.  To set the stage for that, we probably need to talk about why interest declined in Datalog and deductive databases after the 1980's.  We're asking around for insight…
What caused the decline of Datalog? What is causing its revival?
Warning: I am not sure I am the right person to ask since I never left the boat. I have been a constant fan. Ask those who deserted why they stopped caring about Datalog? Ask the new converts why they discover it now?
I can see 3 reasons:
1.     The language is a scam.
2.     The lack of killer applications.
3.     The guru system guys shied away (because of 1-2?).
Let us elaborate on (1): the scam. This is back to the advantages of “declarative programming”. The first scam was Prolog: The language is not really declarative. The second scam was Datalog:  It is declarative, but there is not much you can do with it.
Datalog is simple and beautiful – Horn clauses. We theory guys had a ball with it. There were beautiful results to obtain even at the cost of further simplifications (e.g., monadic to be able to decide containment). But the scam is that if you want to do anything serious beyond your stupid positive first-order queries, you need more.
There was no fix that I know of for Prolog. There were fixes for Datalog. Extend the language. And this was done during the last 30 years: Updates [e.g. SA. and Vianu], Skolem [e.g. Gottlob], Constraints [e.g. Revesz], Time [e.g. Chomicki], Distribution and Trees [e.g. SA. in ActiveXML], Aggregations [e.g. Consens, Mendelzon], Delegation [e.g. SA in Webdamlog]. I am sure I am missing some.
Now we get to (2): the lack of killer apps. The main argument for Datalog was the computation of transitive closure. This was stupid. Transitive closure could easily be expressed in supported versions of SQL. The bizarrerie is that although the language was simplistic, the killer apps had to be intense. They have to be such that they cannot be easily supported by the good old relational systems. The jury is still out but we now have candidates: Declarative networking [e.g. Lou, Hellerstein et al], Data integration [e.g. Clio, Orchestra], Program verification [e.g. Semmle], Data extraction from HTML [e.g. Gottlob, Lixto], Knowledge representation [e.g. Gottlob], Business Artifact and workflows [e.g. SA., ActiveXML], Web data management [e.g. SA., Webdamlog]…
Finally, let us now consider (3): the guru system guys. These guys were often working or at least consulting for relational vendors. They were rapid at denigrating ruptures with the good old SQL engines. They did the same for object databases. It is interesting to see that some of the renewed interest in Datalog engines comes from the works of Hellerstein. A top system guy, who once wrote with Stonebraker that Datalog was trash, developing a Datalog system. This is nothing but Oedipus killing his father and bedding his mother.
Now beyond the true pleasure of fans like me to read the mea culpa of Hellerstein, it is important to observe that Joe Hellerstein (1) used many known extensions to the pure Datalog in his systems and (2) promoted his works with beautiful applications such as networking in the thesis of Boon Tau Loo.
In Webdamlog, we propose for killer apps data management on the Web. In brief, reasons for that:
1.     The Web is a graph so recursion is built in: you ask someone, who asks someone who asks you.
2.     Web users don’t want to write in a programming language. Declarative languages seem the right way to go.
But of course, Datalog is too simplistic. This is why I spent years studying extensions of Datalog for Web data management.
Wouldn’t that be cool if Datalog (properly extended) was the data language of the Web.

mercredi 1 août 2012

L'informatique, combien de divisions ?

Je n'arrête pas de répéter que l'enseignement de informatique est important et pas seulement pour "faire" des informaticiens mais pour de meilleurs scientifiques, de meilleurs ingénieurs dans toutes les disciplines, de meilleurs citoyens. Une fois n'est pas coutume, je vais aussi insister sur l'importance d'éduquer des informaticiens. Mais bien sûr, c'est pas parce que les ricains le font qu'on doit s'y mettre... Donc cette opinion n'engage que moi...

For the first time in Stanford's history, computer science has become the most popular undergraduate major -- a milestone for a school conceived on a farm but now located in the holy land of technology...

http://www.siliconvalley.com/news/ci_21175486/computer-science-becomes-stanfords-most-popular-major?refresh=no

mardi 3 juillet 2012

Le texte de ma leçon inaugurale

disponible gratuitement : http://lecons-cdf.revues.org/529

soon in English

disponible chez Fayard:

jeudi 28 juin 2012

Enseignement de l'informatique - suite

Un excellent article de Jean-Pierre Archambault, Gérard Berry, et Maurice Nivat.

vendredi 22 juin 2012

L'informatique est une science bien trop sérieuse...

Un article du monde.fr cosigné avec
Colin de la Higuera président de la Société informatique de France ;
Gilles Dowek co-auteur du programme de la spécialité informatique et science du numérique en Terminale S.

http://www.lemonde.fr/idees/article/2012/06/22/l-informatique-est-une-science-bien-trop-serieuse-pour-etre-laissee-aux-informaticiens_1722939_3232.html


jeudi 21 juin 2012

Big Data ou Grosses Données


Quand j’ai entendu parler pour la première fois de "Le Big Data" et de "La Data", j'ai haussé les épaules. D’abord, data c’est pluriel. C’est vrai que les « grosses données », c’est moins glamour. Mais surtout, nous travaillons depuis des années sur les Very Large Data ou même Extremely Large Data. Big c'est encore plus grand ? Quand en 2000, avec Xyleme, nous développions un entrepôt pour des millions de documents XML sur des clusters de PC, c’était du Ti-Data. Ou faisions-nous déjà du Big Data sans le savoir ?

Crash course en Big Data

  • La société moderne génère des volumes de données de plus en plus infernaux.  Le tsunami de ces données est tel que les techniques traditionnelles de gestion de données sont dépassées.
  • Dans de nombreux domaines, les données dont on dispose peuvent présenter une valeur considérable si on arrive à les traiter. Les exemples standards: sciences de la vie et physiques, environnement, gouvernement (sécurité intérieure), journalisme, santé, transport...
  • Typiquement, il s’agit de croiser les données d’une organisation avec la masse de données beaucoup moins structurées du Web (comme des blogs), personnelles (comme des emails), ou autres (comme des senseurs) pour proposer de nouveaux services. Le but est ce trouver de « nouvelles connaissances ».

Les compagnies ont déjà l’habitude de réaliser des tâches de business intelligence dans des systèmes dédiés (comme la gestion de clients). Ce sont ces mêmes calculs que l’on retrouve dans le Big Data :
  • Acquisition/Extraction : Il faut aller chercher les données dans tous les matériels et systèmes concernés, qui sont hétérogènes et n’adorent pas donner leurs données. Souvent, il faut aller le chercher dans du texte en utilisant des techniques de classification et d’étiquetage sémantique.
  •  Intégration/Nettoyage : La difficulté est encore l’hétérogénéité des sources qui typiquement utilisent des organisations/ontologies distinctes. Il faut éliminer les réplicas, résoudre les contradictions.
  •  Requête/souscription/analyse/fouille : On arrive vraiment à la valeur ajoutée des données dans sa grande variété. Pas mal de progrès ont déjà été réalisés, mais la fouille de données sur des volumes considérables reste hors portée. Les techniques sont souvent ad hoc sans vrai fondement statistique, sans garantie de précision/qualité.
  • Interprétation/visualisation. L’utilisateur est celui qui en dernier ressort décide de l’intérêt et de la valeur des résultats. Les techniques de visualisation occupent une place centrale dans le paysage comme d’ailleurs les outils graphiques pour contrôler la recherche d’information (« drilling », navigation, spécification de contraintes). Aussi, l’utilisateur doit pouvoir, s’il le souhaite, se faire expliquer des résultats. 
  • La mode est de faire participer des humains dans ces différentes étapes via le crowd sourcing.

On commence à envisager des systèmes qui pourront supporter de croiser les données de l’entreprise avec des données comme celles du Web dans de nombreuses compagnies : Web bien sûr, mais aussi télécom, commerce, santé, finance, etc. Les difficultés ne sont pas nouvelles :
  • Taille des données : c’est Big !
  • Hétérogénéité: organisation, ontologie…
  • Vélocité: importance du temps, taux de changement/d'arrivée…
  • Protection des données : données privées, réglementation…
  • Qualité: erreurs, incomplétude, confiance,
  • Et encore de la qualité: provenance,  fraicheur...

Pour tuer quelques idées reçues

  • « Ma data est Big. » Vos données sont-elles vraiment Big ! Par exemple, demandez-vous si vous pourriez faire le même boulot avec une machine gonflée en RAM et en SSD.
  • « Si si ma data est Big Big. » OK. Mais n'y-a-t-il pas une façon simple de réduire la dimension soit en filtrant soit en échantillonnant ?
  • « Je vais y foutre un coup de Hadoop. » Hadoop est un super logiciel libre (autour de l'algo Map Reduce de Google). Il résout super bien des problèmes (i) "embarrassingly parallel" (ii) sur de gros volumes de données. Mais ce n'est pas la solution à tout. Interrogez-vous sur (i) et (ii). Et puis même dans des extensions comme Pig, Hadoop est quand même très bas niveau.

Évidemment, vous avez le droit d'affirmer que vous faites dans le Big Data: pour impressionner un client, une agence de capital risque ou de soutien à la recherche, votre copain/copine ou votre concierge. Mais dépêchez-vous avant que la mode ne change.

Les questions qu’on pourrait poser

Ce qu'on voit aujourd'hui, c'est de grosses compagnies, Google, Facebook, Amzone... mais en fait presque tout les sociétés avec de gros volumes de données, qui cherchent à faire de l'argent avec ces données en les utilisant comme support de marketing. En gros, elles prennent toutes les données sur lesquelles elles peuvent mettre la main, elles bourrent un entrepôt de données jusqu’à la gueule et ensuite font mouliner des algos pour découvrir des connaissances monnayables. Pourraient-elles utiliser ces mêmes technologies pour aider les gouvernements et les ONG à prévoir les crises de santé, d'environnement, les catastrophes naturelles, et à mieux y répondre ? Pourraient-elles participer à l'amélioration du transport, de l'aide aux personnes en difficultés, etc. ? Ne pourraient-elles pas même gagner de l'argent en réglant de vrais problèmes ? Certaines le font...

On va où ?

Les scénarios :
  • Facebook (ou un autre) gagne le jackpot. Une compagnie met la main sur toutes les données du monde, vos photos, vos mails, vos listes d’amis… Facebook voudrait bien mais Google aussi, et les opérateurs de télécoms, et les autres aussi.
  • Ça ne se passe pas comme ça et des tas de systèmes vont avoir à collaborer pour évaluer des requêtes, faire de la fouille. Et c’est plutôt comme ça que je verrais le futur. Mais je ne suis pas Madame Soleil. Et alors comment on fait du Big Data en distribué. Ça c’est fun…   

PS : Nous sommes aujourd'hui au pic de la mode. En un mois, sur le sujet des Big Data, j’ai du donner mon avis à deux organismes publics de financement de la recherche, donner une interview, participer à une table ronde dans un colloque scientifique, intervenir dans deux séminaires industriels et un séminaire académique. Évidemment, tout ça va se calmer. La mode de Web 2.0 a duré un an. Les tweets et les réseaux sociaux n'ont pas disparu depuis. Nous continuerons à travailler sur les grosses données après la mode du Big Data. Dans quelques dizaines d’années, le taux de croissance des données mondiales se calmera peut-être. Mais c'est pas pour demain. Donc c’est pas demain la veille du début de la fin des Big Data.

PPS : Merci de m’excuser pour la taille inhabituelle de cet article.




lundi 18 juin 2012

La sémantique du capitalisme

http://www.iterature.com/adwords/

mardi 22 mai 2012

Derniers cours du cours du College de France

Serge Abiteboul 
16 mai 10:00
Gestion de données distribuées
30 mai 10:00
Datalog distribué et Webdamlog

Weikum
16 mai 11:00
Gerhard Weikum, Max-Planck-Institut
Knowledge Harvesting from the Web


Marie-Christine Rousset 30 mai 11:00
Marie-Christine Rousset, Université de Grenoble
Raisonnement dans le Web sémantique

Pierre Senellart 30 Mai 11:30
Pierre Senellart, Télécom ParisTech
Réseaux sociaux

dimanche 6 mai 2012