Friday, 1 September 2017

croissance conceptuelle


1. La plupart des problèmes humains sont bien moins formalisés que ne l'est le Pattern Matching [PaMa], un des prototypes de l'IA.
Dans le PaMa, de nombreux exemples sont disponibles pour lesquels la classification 0/1 est disponible, une "exubérance" peu réaliste dans le quotidien humain réel.
On peut même arguer que disposer de la classification c'est avoir déjà résolu le "problème".

2. Prenons l'exemple de l'enfant qui se donne un "concept" encodé via l'opposition chien ⊦ poupée : cette pré-conceptualisation vise par exemple le concept animé ⊦ inanimé, mais l'enfant tâtonne et il lui faudra acquérir de nombreux exemples, - voire même de nouvelles connaissances - pour faire évoluer son ébauche conceptuelle.
Autre exemple, passer du pré-concept assureur ⊦ assuré à celui d'asymétrie de l'information, suppose de franchir un pas que la plupart des gens ne feront pas spontanément. Stiglitz a obtenu le prix Nobel notamment pour son travail sur le sujet.
En math, Galois généralise ses 'manipulations' sur les racines d'un polynomes et les éléments d'un ensemble de cardinal fini en la notion de groupe.
La catégorie des topos généralise la notion de sous-ensemble (http://math.ucr. edu/home/baez/topos.html).
La notion de 'symétrie' / 'structures' se généralise en la théorie des catégories.

3. Précisément, l'humain doit - pour faire avancer son "problème", i.e. sa pré-conceptualisation - collecter des exemples ou chercher des "professeurs".
Apprendre à apprendre, c'est apprendre à collecter (seul) des exemples ou apprendre à collecter des 'tutors'. Dans la plupart des cas bien-sûr l'humain recours aux deux heuristiques.
En Machine Learning on a bien ainsi la notion d'apprentissage supervisé qui est au cœur du PaMa.

4.1 Or cette démarche est coûteuse, et exposée à l'erreur : un exemple ne sera sûrement pas en général de type 0/1, pour la bonne raison que l'apprenant ne dispose pas encore du concept terminal qui lui permettrait de classer sans ambigüité un quelconque exemple.
Le "bruit" est peut-être la principale difficulté de l'exercice.
Prenons le cas du mauvais "professeur" ou tutor:
a. il peut être focus sur des points de détails, c'est " l'arbre qui cache la forêt" : il manque d'esprit d'abstraction
b. il est peu rigoureux, ou à côté du sujet, ou ne domine pas son sujet : manque de pertinence
c. c'est un épigone, résonnant plutôt que raisonnant : manque d'originalité ou de créativité
Selon wikipedia "concept learning", "the classical views of concepts and concept learning in philosophy speak of a process of abstraction, data compression, simplification, and summarization". En réalité les quatre items se ressemblent beaucoup. Etonnament, pertinence et créativité ne sont pas mentionnées.

4.2 Pour le cas de collecter des exemples, prenons la pratique de résolution d'un exercice / problème de maths. Polya est l'auteur d'une compilation d'heuristiques bien connue, dont Terence Tao s'est inspiré encore très jeune pour briller aux Olympiades internationales de maths. Polya insiste essentiellement sur les notions d'analogie et de transformation progressive des données du problème.
On peut encore penser à l'heuristique analogs / antilogs de Mullins et Komisar ('Getting to Plan B'). Analogs et antilogs sont autant d'exemples où l'apprenti entrepreneur esquisse à tâtons le concept de sa future entreprise. Rapprocher et différencier (/opposer) (RD) une base d'exemple permet de progresser dans la 'formulation' (un proxy de résolution) du problème.
On peut arguer que la capacité à générer automatiquement des exemples de qualité est à la source des récents succès de l'AI en apprentissage de jeu : Backgammon, Go.

5. En pratique, la collecte de bons "professeurs" par l'apprenant doit presque tout aux différents graphes sociaux ou institutionnels que les humains bâtissent "spontanément". Les publications scientifiques en constituent le parangon : un article possède un contenu de qualité "minimale" (pair review, higher education), et donne des références pointant vers d'autres auteurs qui sont autant de "professeurs" potentiels pour l'apprenant. Naturellement ces références ne doivent rien au hasard, et tout au travail de l'auteur de l'article, qui a fait un tri soigneux, tant en terme de contenu ('relevance') qu'en terme de qualité.
Lorsque l'apprenant tient une "bon" auteur, il a toutes les chances de trouver de nouvelles pépites dans les "relations" de cet auteur.
Bien entendu, la qualité est partiellement subjective : un "bon" auteur est aussi un bon "traducteur" ou "passeur" pour l'apprenant : il sait se rendre compréhensible à l'apprenant, ce qui dépend du niveau de connaissance de ce dernier. Vikipédia sera plus adapté aux enfants que Wikipédia.
Revenant au cas de la résolution de problèmes de math, et au-delà la recherche en math, se donner de "bons" exemples est en fait la marque des grands découvreurs. Un bon exemple est en effet ce qui permet de remonter vers le bon point de vue, souvent la bonne généralisation conceptuelle.
De ces remarques découlent que le véritable algorithme de résolution de problèmes humains réels est un .. human made graph. C'est bien ce que l’on constate sur internet, où émergent chaque jour de nouveaux graphes spécialisés, comme par exemple dans le domaine médical, le développement informatique, etc.
Bien souvent ces graphes sont cependant très "bruités", au sens précisé ci-dessus. Les auteurs sont en effet insuffisamment identifiés, de sorte que l'apprenant nouveau venu aura bien du mal à séparer l'ivraie du bon grain.
On retombe naturellement sur les problématiques de recommandation qui ont eu le vent en poupe ces dernières années, où l’on distingue aisément deux approches : collaborative ou content-based. Mais encore une fois, l’algorithme est le graphe lui-même, sa qualité borne celle de toute search algo afférant.

6. L’approche par auteur au sens de 5., ou 'collaborative' dans le cas des réseaux sociaux, est infiniment plus simple que l’approche par contenu : le nom d'un auteur encode des contenus bien plus simplement que la description des contenus. On a bien une idée de ce que représente Heidegger, il est bien plus difficile de décrire ce dont Heidegger parle. Plutôt que de chercher si un auteur traite de certaines idées ‘heideggériennes’ (aussi bien partiellement aristotéliciennes, parménidiennes, kantiennes,…) , il est beaucoup plus simple de vérifier qu’il le cite.
En philosophie comme dans la plupart des domaines de connaissance, un encodage minimale performant est le contraste x ⊦ y . Dans notre notation, on écrira x ⊦ y ~ x’ ⊦ y’ pour décrire une équivalence de classe (ou morphisme), et x ⊦ y ⇒ z pour un foncteur conceptuel, au sens où z est une traduction conceptuelle de x ⊦ y .
Exemple 1: chat ⊦ lion ~ chien ⊦ loup ⇒ domestiqué ⊦ sauvage.
Exemple 2: étant donné 2 espaces topologiques homéomorphes x →y, leurs groupes fondamentales sont isomorphes, ici z est l'homotopie. la 'pré-conception' x →y (qui bien-sur est rigoureuse dans le cas présent), se conceptualise plus simplement via la traduction en terme de groupe.
L'apprenant qui encode son pré-concepte par le morphisme chat ⊦ lion ~ chien ⊦ loup, espère tomber, via une interrogation digitale, sur un 'tutor' qui l'aide à aller au niveau conceptuel supérieur. Ce niveau supérieur, que par définition il ignore au moment de sa recherche, et qu'il ne sait représenter que via un morphisme, est domestiqué ⊦ sauvage. Dans le cas de Galois :
opération sur racines ~ opération sur listes ⇒ Group.
De manière générale, l'apprenant encode son apprentissage sous forme de graphe, dans l'esprit de notre 'Conceptual Representation' ou des graphes conceptuelles (CF John Sowa). C'est un encodage 'haut niveau'. Il faut une traduction de cet encodage qui permette l'interrogation digitale. Un telle transformation doit accommoder la versatilité essentielle du langage humain, et consiste essentiellement en du PaMa.

MyGrowingCG ⇝s ⇒ PaMa (⇝s : search engine)
CG : conceptual Graph
En résumé, l'apprenant fait croître simultanément son graphe conceptuel et son 'tutor' graphe ou graphe de référence.
MyGrowingCG ⇌ MyGrowingRG
RG : Referential graph

7. le PaMa fixe la data (eg N documents) et la représentation (word distribution, sentiment, Structure Mapping Engine (SME), ...)
Au contraire la croissance conceptuelle CC ne fixe pas la data, qui peut couvrir tout internet par exemple, ni la représentation, ni le concept, qui est découvert itérativement. Elle reste à la discrétion de l'apprenant pour une large part.
A chaque itération t un doc D(t) donne (l'apprenant choisit) un contenu encodé x(t) ou un auteur X(t); x(t) permet de lancer une nouvelle recherche débouchant sur un nouvel auteur X(t+1).
Notons * à coté de x ou X pour signifier un intérêt, une valorisation de l'apprenant.
On peut distinguer plusieurs cas : en effet soit x(t)* est associé à un auteur qui devient du coup X(t+1), soit X(t)* cite X(t+1), soit x(t)* mais sans qu'un auteur n'y soit attaché, auquel cas il faut faire un (digital) Search :
t : D(t) : X(t), x(t)
X(t)* ⇝ X(t+1)
x(t)*, X ⇝ X(t+1)=X
x(t)* ⇝s X(t+1)
Une fois X(t+1) obtenu, l'apprenant choisit un x(t+1) dans un D(t) dont il est l'auteur.
L'apprenant n'est pas tenu de rester sur un pur affinage de son pré-concept initial. En effet chemin faisant il peut découvrir un autre (pré-)concept y* qui de par sa valeur l'incite à suivre ce fil conceptuel, qui peut aussi bien le conduire à un X* de grand intérêt, qui l'aide à accélérer en retour son 'éclaircissement' (alètheia) de x : les chemins de la découverte ne sont pas linéaires, et le "coup d'oeil" de l'apprenant y joue un rôle déterminant.
Autrement dit c'est autant la valeur de z(t)∈{x(t),X(t)} que sa détermination x ou X qui importe, dans la mesure où la qualité appelle la qualité : z(t)* ⇝ z(t+1)*
Il ne s'agit pas purement d'optimisme dans l'incertain comme pour les bandits manchots : la quality greediness n'est pas une simple curiosity greediness.