Dao to learn

Thursday, 20 August 2020

tdkg algebra

On motive ici une approche conceptuelle structurée tdkg qui partage quelques traits communs avec une algèbre.

Objectif :

1. Sémantique : mettre au cœur de la représentation les concepts clefs de l’utilisateur

2. Réduction dimensionnelle / compression

3. Désambiguation

4. Polymorphisme

On distingue les niveaux 0,1,2,…, < est la relation d’ordre associée.

Le 1. force l’utilisateur à définir les ‘features’ clefs qu’il souhaite voir constituer l’ossature sémantique de sa représentation conceptuelle. Dès lors il se contraint à ne plus utiliser que ce ‘petit’ nb de features pour sa représentation. On a bien-sur ce principe en théorie des types (en informatique) : on a le type entier ℕ, les fonctions de ℕ->ℕ, les fonctions de 2 variables ℕ->ℕ->ℕ, etc. dans notre notation ℕ_ℕ_ℕ).

On retrouve une capacité générative/compositionnelle dans toutes les langues : géo_graphie, re_con_struction, auto_nomie, anthropo_logie, camion_citerne, etc. En générale il y a un ordre : a_b \( \ne \) b_a

Dans tdkg on trouve par exemple : cloud < N_(comput + storage_data)

Idéalement on aimerait pouvoir avoir ab < a_b, comme dans ab = ‘artificial intelligence’. Bien entendu c’est impossible la plupart du temps (et c’est bien la raison d’être de tdkg!). typiquement intelligence recouvre plusieurs sens en anglais, et de nombreux mots du jargon technophile ont le même sens que artificial : virtual/ai/autonom, comme dans ‘virtual assistant’. De ce fait, même si a et b sont des concepts typés de tdkg, dc a :A, b :B, on aura pas en général ab < a_b. si on a effectivement ab < a_b, c’est parce que le sens de a et b dans ab correspond au sens de a_b, comme par exemple dans tdkg: renewable energy < renew_energy.

Le 2. passe par une structuration de type a_b_c pour les concepts haut niveau, où a :A (‘a de type A’), b :B,… Il est clair que si #A = n, #B=m, etc, on a accès à un ensemble de concept de taille n*m*…

Le choix des set A, B, doit être fait avec soin et correspondre à la représentation cherchée. Dans tddic on distingue des niveaux d’innovation, et de ce point de vue on a un ordre A>B>… par exemple dans N_storage_data on considère que storage ‘opère’ sur data, et N sur storage_data. N est une fonction abstraite qui correspond à ‘parallélisation / coopération à l’échelle’.

Le 3. doit être un soucis constant, à mi-chemin entre granularité/pouvoir expressif et compression ; ex : supply chain < supply_chain ?, artificial intelligence < artificial_intelligence ? Chain et intelligence (en anglais) recouvre chacun plusieurs sens, il convient de lever les ambiguïtés dès le niveau 1.

Le 4 permet d’aller au-delà des contraintes très fortes des structures d’arbre (ex : Gics, Revere). Dans tdkg on a par exemple cloud < (N_comput , N_storage_data). Cette propriété très utile est bien entendu présente dans un graphe.

Au total cette structuration permet de garder le polymorphisme d’un graphe mais d’avoir une forte structure qui facilite considérablement l’utilisation par rapport à un graphe.

Examinons qq exemples, partant du niveau 1.

formal_language_natural_language [computational linguistics] : (formal_language)_(natural_language ) la notion de computational dans ‘computational linguistics’ n’est pas forcément inintéressante, mais ici nous privilégions la notion de formalisation. Si nécessaire, on peut (en utilisant la possibilité de polymorphisme), ajouter comput_language.

artificial_intelligence_tutoring [intelligent tutoring system]: intelligence dans tdkg est au sens du français intelligence, et non au sens d’information /renseignement. tdkg conserve artificial et le distingue d’automat.

chemical reaction_elec_hydrogen [electrolysis] : ici chemical reaction est une relation qui lie réactant et produit de la réaction chimique : elec -> hydrogen. Dans tdkg les concepts elec et hydrogen sont des concepts importants de sustain, et on voit tout l’intérêt de substituer à electrolysis le ‘produit’ : elec_hydrogen.

Monday, 24 December 2018

autoapprentissage

Pierre Cartier :

«Moi, qui ne suis pas marxiste, je vais me permettre de rappeler à Alain Badiou, qui se réclame du marxisme, qu’il a une vision trop statique, ahistorique des maths. Un seul exemple, s’il existe une internationale des maths, c’est parce que la Chine, après le Japon, s’est ralliée, il y a trente ans, au langage et à la formalisation définis en Occident. Par ailleurs, la vérité mathématique n’est pas immuable elle est faite pour être dépassée. Les maths sont le produit d’une histoire.»

Le cheminement :

«Badiou dit qu’il faut enseigner dans les mathématiques ce travail de raisonnement, car l’exemplarité mathématique est dans ce chemin. C’est vrai. Mais je pense que la démonstration n’est pas tout dans les maths. Il y a aussi la création et l’organisation de concepts nouveaux. Et la démonstration est le moyen le plus sûr d’organiser des concepts nouveaux.»

Le dépassement :

«La vérité mathématique n’est pas immuable. Certes, il n’y a pas de remise en cause, Euclide a raison si l’on s’en tient à la géométrie plane. Mais, la géométrie post-euclidienne est un dépassement. Il y a des révolutions mathématiques aussi. De temps en temps, le point de vue change. Un triangle reste un triangle, pi reste égal à 3,1415, mais on remet en cause la perception, l’organisation. Au fond, c’est de la métaphysique.»

La diffusion :

«Je ne suis pas sûr que le fossé se creuse entre les maths de monsieur Tout-le-Monde, celles de l’ingénieur et celles de la recherche la plus avancée. Ma petite fille de 4 ans s’amuse avec les nombres négatifs quand, en 1945, des ouvriers à qui je donnais des cours avaient toutes les peines du monde à les assimiler. Aujourd’hui, monsieur Tout-le-Monde sait que quand on a une dette, c’est moins quelque chose. Le but des maths est de devenir transparent au plus grand nombre et, de ce point de vue, on peut être optimiste.»

Un étrange outil.

Pierre Cartier, répondant à Badiou : la leçon de philosophie d’un mathématicien à un ‘philosophe’.

La philosophie devrait être entendue comme sophistique : réflexion sur le langage. (CF B. Cassin).

Chez les Grecs, réfléchir sur la ‘langue’ est en quelque sorte inné : leur théatre (tragédie) en est déjà un lieu inspiré (et CF Heidegger).

Cartier dit métaphysique…

Donc : plutôt que ‘s'inspirer des maths’ (Badiou), comprendre que les mathématiques sont un exercice de philosophie.

Langage ? outil… de représentation.

Si l'outil évolue d'abord par confrontation à la pierre et au métal, le langage lui suit une voie plus intime, fruit d'une retraite de l'esprit, produit d'une forge abstraite.

Mathématiques : Parangon de l'auto-apprentissage.

Grothendieck, à l'occasion (algèbre homologique), parle de yoga.

«Les mathématiciens russes sont connus pour raisonner à partir d'exemples mais, tout le point est là, d'exemples ‘non triviaux' au point d'en devenir au contraire ‘génériques'. Le jeu consiste grosso modo à trouver le ‘premier' exemple (en ordre informel de complexité), le premier objet ‘concret' qui contienne, expose le phénomène ou la difficulté ‘générique'. Puis à se concentrer sur et raisonner à partir de ce qui apparaît bel et bien, nonobstant la contradiction in adjecto, comme un ‘exemple générique'. Qui plus est la physique demeure très rarement hors jeu, y compris dans les branches des mathématiques qui en paraissent les plus éloignées. Un bon exemple parmi bien d'autres, relativement récent (début des années quatre-vingt), est fourni par le rapport entre la diffusion quantique et l'introduction des catégories tressées (entre autres) par V.G.Drinfel'd (voir quelques détails à la fin du §6.4 ci-dessus). Il faudrait pousser les choses beaucoup plus loin mais on entrevoit déjà que le chemin qui mène de l'imaginaire vers le symbolique est très fréquenté dans ces parages.» " Mathématiques et finitude '' , P. Lochak, p121.

A quoi peut bien servir la conscience ? A jouer contre soi : jeux de langage (Wittgenstein).

Que ne doit la physique moderne aux mathématiques ?

«One should allow oneself to be led in the direction which the mathematics suggests. [...] one must follow up a mathematical idea and see what its consequences are, even though one gets led to a domain which is completely foreign to what one started with... Mathematics can lead us in a direction we would not take if we only followed up physical ideas by themselves.» Paul Dirac.

Kant a raison... sauf sur un point, essentiel : la table des catégories évolue... évidement (par symétrie !). philosophie, c'est le dl du l(angage).

Un problème n'existe que dans une théorie (langage) donnée : une question de langage. Loin d'être un objet extrinsèque ou exogène à celui-ci, il en constitue un bord. Le ‘réel’ se montre dans les termes de la théorie.

Vertu première d'un langage l : son pouvoir de généralisation.

Le langage en / pour lui-même (qua) : plutôt que se focaliser sur des problèmes spécifiques perçus comme objets extérieurs à l, le fait de raisonner sur (les propriétés, la puissance, la virtus, le caractère structuré de) l en général, comme c’est de facto - si ce n’est implicitement - le cas en mathématique, amène à se poser des questions beaucoup plus profondes, comme avec le programme d’Erlangen, en abordant globalement la puissance de l.

«Mathematics is often thought of in the public mind as concerned with technic and performance, or with problem solving, rather than ideas, and it is perhaps for this reason that the association of mathematics with fear is common. It would be better to see mathematics not as a subject capable of a finished description and account, but as a process, involving refinement of arguments and concepts, and where new fundamental ideas are still possible, even if subject to the usual difficulties of any revolution in science. These new ideas may in fact bypass the apparent and accepted priorities for solving already formulated problems.» Brown, Porter 'Intuitions of higher dimensional algebra'.

«Another way of putting the first stage of this process is that to solve some geometric problem may require a new structures language. For the Greeks, this language was the geometry of Euclid. The most notable recent instance of success of this approach of developing a new language to solve problems is the monumental work of Alexander Grothendieck, which laid necessary foundations for the work of Andrew Wiles on Fermat's last theorem. We have a letter of Grothendieck in which he speaks of " the difficulty of bringing new concepts out of the dark ", and this suggests that he also saw as an aim for mathematics the development of language for an area, regardless of its success in a a well known problem.» Brown, Porter, op. cit.

Mathématiques : apprentissage in vitro.

«Le rôle déterminant des symétries en physique confère à l'objectivité physique un statut très particulier, qui oppose cette objectivité à toute ontologie substantialiste d'étants singuliers et individués, existant de façon transcendante comme entités séparées. Cette vieille tradition métaphysique aristotélicienne est incompatible avec la physique moderne. L'objectivité physique est transcendantale au sens où c'est une objectivité « faible » qui inclut dans son concept d'objet les conditions d'accès et les conditions de possibilité de détermination de ses objets. Plus précisément : ce qui est accessible à la théorie, son contenu positif, y est défini négativement, c'est-à-dire par ce qui lui est inaccessible (à cause des symétries). Les symétries imposent une auto-limitation à ce que la théorie peut connaître et dire qu'elles sont constitutives, c'est dire que ce que la théorie peut connaître est déterminé par ce que la théorie ne peut pas connaître. Il s'agit là du principe de base qui disjoint l'objectivité physique de toute ontologie. On peut le qualifier de principe galoisien dans la mesure où un principe analogue a été formulé pour la première fois de façon claire par Galois dans la façon dont celui-ci a complètement repensé le problème de la résolution des équations algébriques.

Cette nature galoisienne a été excellemment soulignée par l’éminent spécialiste de géométrie symplectique et des travaux de Witten qu'est Daniel Bennequin, en particulier dans son long article en hommage à Thom : « Questions de physique galoisienne». Dire philosophiquement que l'objectivité physique est transcendantale, c'est dire techniquement qu'elle est galoisienne.» (J. Petitot)

Autocatalyse du langage : c'est bien elle qui explique ce qui émerveille Zalamea (« synthetic philosophy of contemporary mathematics ») : l'exubérante croissance conceptuelle des mathématiques modernes.

Friday, 14 December 2018

Invariance

Invariance en linguistique.

« Chacun des articles composant ce numéro double s’attache à déployer une facette d’un programme de recherche qui s’est développé autour du travail d’Antoine Culioli pour étudier les formes linguistiques au travers de leurs variations. L’une des caractéristiques de ce travail est ce parti-pris de placer les faits de variation au centre de l’étude des langues et de considérer que l’identité des entités langagières en général réside dans le détail de leur variation, dans ce qui constitue le contour de cette variation et dans ce qui l’organise. Sur ce parti-pris s’appuie le concept d’invariant : les entités langagières prises dans ces variations forment des invariants. Contrairement à ce que pourrait laisser penser le préfixe négatif in, ces invariants s’entendent moins comme une négation de la variation en question, que comme ce qui se retrouve d’une variation à l’autre ; en quelque sorte, l’invariant intègre toutes les variantes ; le décrire suppose de décrire les variations auxquelles il est soumis.
Le concept d’invariant est paradoxal, mais le programme associé est relativement simple : étant donné des formes linguistiques, il s’agit d’observer comment ces formes varient d’un emploi à l’autre – comment elles changent de valeur, comment leur distribution change (distribution syntaxique, mais aussi genre de texte, registre, type d’usage), et aussi comment elles s’échangent avec d’autres (comment elles commutent), puisque c’est bien l’une de leurs façons de varier. On observe ces données empiriques que constituent les variations auxquelles sont soumises les formes linguistiques, et on considère qu’elles sont ce qui fait l’identité de ces formes et donc ce qu’il faut décrire pour arriver à restituer cette identité dans ce qu’elle a de singulier. »
\( https://journals.openedition.org/linx/1562\#ftn1 \)

En Anthropologie structurale.

La transformation en analyse structurale est définie comme une variation structuralement déterminée (non aléatoire) de configuration d'un phénomène collectif donné, qu'il s'agisse d'une langue, d'un récit collectif comme un mythe, de relations de parenté ou encore de rites religieux ou sacrés. Par exemple, les variantes d'un phénomène entre des peuples voisins constituent autant de transformations de ce phénomène, et ces transformations sont structuralement liées (selon une logique propre) aux différences locales entre ces peuples, chacun produisant une variante du phénomène considéré en fonction de sa propre structure sociale.
\( https://fr.wikipedia.org/wiki/Transformation_(anthropologie_structurale) \)
peuples \( \rightarrow \) (foncteur) mythe / relation de parenté / …

Apprentissage fonctoriel.

L’approche classique consiste à disposer d’une data \( d \) et d’un ‘modèle’ (paramétré) \( m \) que l’on fit sur \( d \). En l’absence d’information, ce fit est ‘gratuit’ : rien ne permet d’en apprécier la pertinence, i.e. sa capacité à généraliser. En principe, on inclut l’hypothèse que \( d \) est représentatif pour justifier la procédure. On sait que ce résonnement est fallacieux : par exemple l’observation d’une série temporelle financière sans fat tail \( x_0 \) n’est généralement pas représentative. Une parade peut constituer à plonger cette série dans un ensemble plus vaste, avec l’idée que cet ensemble n’est pas exactement statistiquement homogène, mais que le ‘passage’ de la série \( x_0 \) à une série \( x_1 \) correspond à certaines réalités connues qui doivent se ‘réfléchir’ dans les `propriétés' du modèle : si celles-ci ne sont pas validées, l’emploi du modèle dans ce contexte doit être révisé. Il est fondamentalement surprenant de ne pas exploiter cette métaheuristique, qui certes suppose de fournir , outre \( d \), \(d_1,d_2,… \): un talent très humain ? CF le \textit{data grocissement} in Learning fallacy II.
Plus précisément on est ainsi amené à modéliser \( m \) comme un foncteur \( H : D \rightarrow \Omega \), et à jauger de sa pertinence en plongeant \( d \) dans une catégorie \( D \) avec \( D_0 = d \) et \( D_i \xrightarrow{f} D_j \) (symétrie connue) et en vérifiant qu'on a bien fonctoriellement dans \( \Omega \) \(o_i \xrightarrow{H(f)} o_j \), avec \( o_i = H(D_i) \) et \( o_j = H(D_j ) \) .
\( H \) peut dépendre de \( D \) : on cherche un \( H \) tel qu’on sache quelque chose sur \( H(f) \).
Dans un contexte informationnel d’étiquettes (features, variables aléatoires) : on a un schéma \( X_z \rightarrow o_z \), où \( X \) est une (famille de) feature(s) et \( z \) est une feature vue comme un paramétrage de conditionnement – feature ou temps, et \( o \) un (ensemble de) mesure(s) statistique(s) ; on observe les variations selon \(z\) de \(o\).\\
Cas élémentaire : supposant donnée une variable à expliquer \( Y\) et un ensemble de variables explicatives \( X_i \) , \( z \) correspond à faire varier (i.e. à regarder) \( Y \) dans le contexte \( X_i \) : \( \{ X_i \} \xrightarrow{H} \{ cor ( Y, X_i ) \} \), étant supposé qu'on a des flèches entre les \( \{ X_i \} \), qui induisent fonctoriellement des flèches entre les \( \{ cor ( Y, X_i ) \} \).

Supposons qu'on a dans \( D \) deux classes dont on notera \( \rightarrow \) (resp. \( \vdash \) ) les morphismes intraclasses (resp. extraclasses), et que deux résultats de mesures seulement sont possibles, \( o \) et \( -o \) : on attend par exemple que si \( D_i \rightarrow D_j \), \( H(D_i) = H(D_j)=o \), et si \( D_i \vdash D_j \), \( H(D_i) = o, \space H(D_j)=-o \), simplement parce qu'on attend \( H( \rightarrow ) = id\) et \( H(\vdash) = g\) avec \( o \xrightarrow{g} -o \). Si \( H \) correspont à une mesure opérée par un système faillible, le fait de ne pas observer le résultat attendu peut amener à : douter de la mesure \( H(D_j) \), ou ... du modèle \( H \) !
Une théorie physique se jauge à sa capacité prédictive, soit son pouvoir de généralisation : on part de \( D_0 = d \) et de l'observation \( H(D_0) \), on échafaude une théorie \( H \), qui porte à la fois sur les relations des relations dans \( D \) avec les relations de mesures dans \( \Omega \) et sur les `mesures' que \( H \) explicite. Une prédiction consiste à prendre un \( D_i \) et à exploiter les flèches \( D_k \xrightarrow{f} D_i \) des \( D_k \) supposés connus vers cet objet pour prédire la mesure \( H(D_i) \), via \( H(D_k) \xrightarrow{H(f)} H(D_i) \).

Friday, 9 March 2018

text representation and summary

La recherche d’information dans un texte est une des tâches classiques du text mining.

Un résumé peut consister à mettre en avant les concepts souvent répétés dans un texte : c’est une approche en fréquence absolue.

Ou l’on peut se baser sur une distribution de référence et mettre en avant les concepts du texte relativement plus fréquents que la référence.

On peut encore itérer cette approche, et regarder les n-grams relativement plus fréquents.

Mais ces n-grams peuvent être ou non constitués de concepts accolés dans la phrase (modulo les stop words que l’on aura pris soin de retirer). En général, on peut combiner ces deux cas.

Prenons à titre d’exemple le texte de Polya bien connu, ‘How to solve it’.

Par ordre de fréquence relative par rapport à un benchmark (ici wikipédia), on a les différents concepts et leurs associations de type \(x \rightarrow y\), là aussi dans l’ordre fréquentiel.

Par exemple \( auxiliari\_problem \rightarrow origin\_problem\) , etc.

On voit apparaitre des concepts qui sont bien connu des lecteurs de ce livre : auxiliari-problem, sign of progress, variate the problem, heuristic reasonning...

Polya donne à voir comme personne un art de la découverte qu’il n’hésite pas rapprocher des Grandes Traversées du XVe s.

Cette représentation du texte permet aussi de créer un résumé automatique, en ordonnant les phrases représentant le mieux les structures \( x_i \rightarrow Y_i=\{ Y_{j}^{i} \} \):

AUXILIARI_PROBLEM

The auxiliary problem was, as a special case, in fact much less ambitious than the original problem

To sum up, we used the less difficult, less ambitious, special, auxiliary problem as a stepping stone in solving the more difficult, more ambitious, general, original problem

ORIGIN_PROBLEM

Convertible reductions are, in a certain respect, more important and more desirable than other ways to introduce auxiliary problems, but auxiliary problems which are not equivalent to the original problem may also be very useful

SIGN_PROGRESS

The day before that memorable date on which they sighted the island of San Salvador, as the floating objects in the water became so frequent, they thought: "It looks Signs of Progress as if we were approaching some land”

Our undertaking may be important or unimportant, our problem of any kind when we are working intensely, we watch eagerly for signs of progress as Columbus and his companions watched for signs of approaching land

WORK_BACKWARD

Modern Heuristic : There are articles discussing methodical questions often important in elementary mathematics, as pappus, WORKING BACKWARDS (already quoted under 3) , reductio AD ABSURDUM AND INDIRECT PROOF, INDUCTION AND MATHEMATICAL INDUCTION, SETTING UP EQUATIONS, TEST BY DIMENSION, and WHY PROOFS

Analysis is neatly defined by pappus, and it is a useful term, describing a typical way of devising a plan, starting from the unknown (or the conclusion) and working backwards, toward the data (or the hypothesis)

LOOK_UNKNOWN

There are, however, questions and suggestions which are frequently helpful, as look at the unknown

There is a suggestion that puts our finger on an essential common point: Look at the unknown

VARIAT_PROBLEM

Variation of the problem may lead us to auxiliary ELEMENTS, or to the discovery of a more accessible auxiliary PROBLEM

Variation of the problem may lead to some appropriate auxiliary problem: // you cannot solve the proposed problem, try to solve first some related problem

DECOMPOS_RECOMBIN

Many questions aim at the variation of the problem by specified means, as going back to the definition, using analogy, generalization, SPECIALIZATION, DECOMPOSING AND RECOMBINING

There are certain modes of varying the problem which are typically useful, as going back to the definition, DECOMPOSING AND RECOMBINING, introducing AUXILIARY ELEMENTS, GENERALIZATION, SPECIALIZATION, and the use of ANALOGY

USE_RESULT

Using the result of the auxiliary problem we easily solve our original problem (we have to complete the parallelogram)

We may use the result of the auxiliary problem

DRAW_FIGUR

We start the detailed consideration of such a problem by drawing a figure containing the unknown and the data, all these elements being assembled as it is prescribed by the condition of the problem

HEURIST_REASON

It is concerned with the nature of heuristic reasoning and, by extension, with a kind of reasoning which is nondemonstrative although important and which we shall call, for lack of a better term, plausible reasoning

We could call the reasoning that underlies this kind of evidence "heuristic reasoning" or "inductive reasoning" or (if we wish to avoid stretching the meaning of existing terms) "plausible reasoning

BRIGHT_IDEA

A sudden advance toward the solution is called a bright idea, a good idea, a happy thought, a brain-wave (in German there is a more technical term, Einfalt)

" Bright idea, or "good idea," or "seeing the light," is a colloquial expression describing a sudden advance toward the solution

SPECIAL_CASE

This auxiliary problem is a special case of the original problem (the extreme special case in which one of the two ships is at rest)

INTRODUC_AUXILIARI_ELEMENT

In general, having recollected a formerly solved related problem and wishing to use it for our present one, we must often ask: Should we introduce some auxiliary element in order to make its use possible

We aim at such an effect when, thinking about the possible use of a formerly solved related problem, we ask: Should you introduce some auxiliary element in order to make its use possible

KNOW_RELAT_PROBLEM

Setting a routine problem, the teacher thrusts under the nose of the student an immediate and decisive answer to the question: Do you know a related problem

Let us go back to the situation as it presented itself at the beginning of section 10 when the question was asked: Do you know a related problem

ANALOG

We may vary the problem by decomposing and RECOMBiNiNG its elements, or by going back to the definition of certain of its terms, or we may use the great resources of generalization, specialization, and analogy

Aller plus loin dans la compression de la représentation peut se faire en projetant Y sur \( X= \{ x_i, \; i<N \} \), i.e. en restreignant les \(Y_{j}^{k}\) aux \( x_i, \; i<N \), se souvenant que les \( x_i \) sont ordonnés selon leur fréquence relative.

Plus précisément, on cherche les occurrences des \(x_i \) dans chaque \( \{Y_{j}^{k}, j<cut \} \), imposant donc que \(x_i \) soit ‘proche’ de \(x_k \) (dans les \( cut \) premiers \( \{ Y_{j}^{k} \}_j \) ). D’où une nouvelle table \( x_i \rightarrow Z^i = {x_k^i} \) où l’on ordonne sur \( \| Z^i \| \) : le concept \(x_0 \) est le plus ‘central’ en ce qu’il est le plus connecté.

On supprime ensuite les \( x_i \) quand ils se trouvent dans les \( Z^k, \; i>k \). On choisit enfin de supprimer les \( x_i \) si 50% de \( Z^i \) se trouvent dans un \( Z^k \; i>k\). On obtient pour ‘How to solve it’ (partant de près de 1000 \(x_i \), cut = 10) :

On constate que la première thématique, ‘origin_problem’, contient 169 voisins, dont : 'auxiliari_problem',

'use_result',

'special_case',

'simpler_analog_problem',

'introduc_auxiliari',

'less_ambiti',

'restat',

'devis',

'reconsid',

'tri',

'step',

'familiar',

'simpler',

'vari',

'deriv',

'easier',

'auxiliari',

'various',

'combin',

'passag',

'modifi',

qui sont bien les voisins attendus de la thématique Variation-Comparaison.

On trouve aussi la thématique ‘sign_progress’, qui pointe sur ‘progress_achiev’, ‘approach_land’, mais aussi sur un versant psychologique : ‘subconsci_work’, ‘suspect’, ‘mental’…

La thématique ‘part_condit’ renvoie à ‘decompos_recombin’, ‘general_special’, mais aussi sur ‘restat’, ‘tri’ qu’on retrouve dans le premier cluster ‘origin_problem’.

‘technic_term’ pointe sur ‘heuristic_reason’, ‘bright_idea’ ,’relat’.

‘auxiliari_element’ pointe sur 'auxiliari_problem', ‘variat_problem’,’analog’, ‘familiar’, ‘relat’, et semble donc assez proche de ‘origin_problem’.

Autre cluster intéressant ‘plausibl_reason’ pointe sur 'heurist_reason', 'point_view', 'heurist_syllog', 'induct', 'infer'.

On obtient un peu plus de clusters avec cut = 5 :

Utilisant le logiciel de représentation de graphe et clustering Delphi , on retrouve essentiellement les mêmes résultats. ci dessous la partie haute puis basse du même graphe.

Wednesday, 22 November 2017

word embbeding : the short story

On donne un aperçu succinct sur la méthode de word embbeding en texte mining.
Résumé basé essentiellement sur le remarquable ‘Glove : Global Vectors for word representation’
\( X \): matrice de co-occurrence

Au commencement était le LSA : ‘global matrix factorization ’ / ‘count-based’ method
\( X = UΣV \)
‘While methods like LSA efficiently leverage statistical information, they do relatively poorly on the word analogy task, indicating a sub-optimal vector space structure’

Next move : predictation-based ~ probabilist method
‘The starting point for the skip-gram or ivLBL methods is a model \( Q_{ij} \) for the probability that word \(j \) appears in the context of word \(i \).’
Softmax model :
\( Q_{ij} = \frac{ e^{w_i^T \tilde{w}_j }}{ ∑_{k=1}^{V} e^{w_i^T\tilde{w}_k} } \)
‘Training proceeds in an on-line, stochastic fashion, but the implied global objective function can be written as’ : \(J = -\sum_{i \in corpus,j\in context(i)} \log⁡ Q_{ij} \) ,
‘Evaluating the normalization factor of the softmax for each term in this sum is costly. To allow for efficient training, the skip-gram and ivLBL models introduce approximations to \( Q_{ij} \) ’

But… (to read : p5) :
\(softmax \rightarrow (distance∶ ) \; entropy \Vdash \log \; least \; square \; objective \)
‘The idea of factorizing the log of the co-occurrence matrix is closely related to LSA and we will use the resulting model as a baseline in our experiments. A main drawback to this model is that it weighs all co-occurrences equally, even those that happen rarely or never. Such rare co-occurrences are noisy and carry less information than the more frequent ones — yet even just the zero entries account for 75–95% of the data in \( X \), depending on the vocabulary size and corpus.’
D’où : \( J =\sum f(X_{ij} ) (w_i^T \tilde{w}_j - \log⁡ X_{ij} )^2 \)

Compléxité : \( Glove \sim |C|^.8 \; vs \; w2v \sim |C| \)

Tuesday, 21 November 2017

Emergence d’un écosystème Big data

Le big data est souvent perçu comme une ‘fonction d’ubérisation’, un ‘choc de simplification’.

Il y a fort à parier que bien au contraire, le big data ( i.e. la digitalisation des relations économiques, sociales…) amène à l’émergence de nouvelles compétences et de nouveaux métiers : nouvel épisode de la division des tâches – spéciation, dirait un biologiste.

Stuart Kauffman a bien décrit dans ses derniers livres ( Investigations, Reinvented the sacred) le phénomène autocatalytique d’explosion de nouvelles niches.

L’écosystème big data voit l’externalisation partielle des tâches d’analyses traditionnellement dévolues au management des entreprises de type A (métiers ‘traditionnels’ : retail, banque, assurance…) à des entreprises de type B (souvent des startups : TinyClues, Proxem, Quid… ) qui exploitent des données fournies par des tiers C (réseaux sociaux, GAFA, cartes de crédit…) ou internes à A.

\(C\, / A \leadsto B \leadsto A\)

Cela ne signifie pas que la totalité de la réflexion est déléguée à B. Les tâches de B sont en fait relativement ‘bas niveau’. Elles output des ‘analytiques’ qui aident A à construire des stratégies informées. Exemples (B = Quid.com):

Exemple 1 : A = Navitas

Exemple 2 : A = Pfizer

Quid représente un compromis intéressant dans la relation Human /Machine, dans la même perspective que King et al. « Computer-Assisted Keyword and Document Discovery from Unstructured Text », ou celle de Ganascia / Floridi : ne pas jeter le bébé avec l’eau : mieux utiliser la compétence humaine : « push the boundaries of human intelligence ». Plus que jamais le sur mesure is your job, la machine « n’y entend goutte », mais des briques algorithmiques fondamentales démultiplient l’exploration humaine.

« As an illustration, the way semantic information is extracted from data can neither be reduced to the sole induction, i.e. to a generalization from particulars, nor to a representation in a universal digital ontology. The knowledge, which is relevant semantic information, takes its sense within interpretative processes, at a Level of Abstraction and in a given Context, i.e. with respect to the key concepts of the Philosophy of Information (Floridi, 2010). More generally, most of the open problems of Philosophy of Information can be enlightened by being envisaged under the light of the opposition between the “Sciences of nature” and the “Sciences of culture”. » Ganascia, EpistemologyAI

Il est tout à fait vain d’imaginer un traitement unique de ‘la’ data. Les sources de data sont hétérogènes, et le seront de plus en plus. Des acteurs nouveaux apparaissent chaque jour, dotés de compétences spécifiques, comme c’est par exemple le cas dans le domaine scientifique depuis fort longtemps. D’ailleurs, ‘le’ domaine en question ne cesse de se réinventer, au gré des découvertes scientifiques et techniques, soumis à ces mêmes forces autocatalytiques dont il était question il y a un instant. Le fantasme d'une AI venant uberiser toute forme de créativité humaine a toutes les résonances d'un conte messianique ou (plus probablement) d'une escroquerie. Là aussi, préadaptation et new unprestable adjacent possible à la Kauffman devrait refroidir certaines illusions.

(Voir aussi à ce sujet Floridi)
Il est ainsi peu probable que A ait intérêt à internaliser intégralement sa gestion big data : le big data, manifestation ecosystémique, implique des chaines de dépendances ad infinitum, et donc la ‘délocalisation’ de la data : toute data – aussi déportée soit elle - est potentiellement pertinente pour A. La soudaineté et la technicité de B plaide aussi en faveur de l’externalisation. Autrement dit, pour encore un moment, le ‘sens’ de l’histoire est plutôt que A continue à externaliser le big data vers des acteurs B spécialisés par métier.

Cette tendance va à l’encontre du mouvement de constitution de vastes DSI internes à A dans les années 1990-2000.

Il n’y a pas de raison que le graphe ci-dessus ne soit pas plus ramifié : \(B_n \leadsto B_{n-1}... \leadsto A\)

Dans le cadre d’une théorie de l’apprentissage, on dirait que l’information est traitée via un réseau profond. Chaque acteur dans la chaine interroge un niveau organisationnel de la réalité. Cette conception va évidemment à l’encontre des positions réductionnistes, qui en physique ou en biologie en particulier voire en mathématiques n’ont jamais fini d’épouvanter, figure du Commandeur toujours renaissante. (pour les maths CF Zalamea et Patras)

Friday, 1 September 2017

croissance conceptuelle

1. La plupart des problèmes humains sont bien moins formalisés que ne l'est le Pattern Matching [PaMa], un des prototypes de l'IA.
Dans le PaMa, de nombreux exemples sont disponibles pour lesquels la classification 0/1 est disponible, une "exubérance" peu réaliste dans le quotidien humain réel.
On peut même arguer que disposer de la classification c'est avoir déjà résolu le "problème".

2. Prenons l'exemple de l'enfant qui se donne un "concept" encodé via l'opposition chien ⊦ poupée : cette pré-conceptualisation vise par exemple le concept animé ⊦ inanimé, mais l'enfant tâtonne et il lui faudra acquérir de nombreux exemples, - voire même de nouvelles connaissances - pour faire évoluer son ébauche conceptuelle.
Autre exemple, passer du pré-concept assureur ⊦ assuré à celui d'asymétrie de l'information, suppose de franchir un pas que la plupart des gens ne feront pas spontanément. Stiglitz a obtenu le prix Nobel notamment pour son travail sur le sujet.
En math, Galois généralise ses 'manipulations' sur les racines d'un polynomes et les éléments d'un ensemble de cardinal fini en la notion de groupe.
La catégorie des topos généralise la notion de sous-ensemble (http://math.ucr. edu/home/baez/topos.html).
La notion de 'symétrie' / 'structures' se généralise en la théorie des catégories.

3. Précisément, l'humain doit - pour faire avancer son "problème", i.e. sa pré-conceptualisation - collecter des exemples ou chercher des "professeurs".
Apprendre à apprendre, c'est apprendre à collecter (seul) des exemples ou apprendre à collecter des 'tutors'. Dans la plupart des cas bien-sûr l'humain recours aux deux heuristiques.
En Machine Learning on a bien ainsi la notion d'apprentissage supervisé qui est au cœur du PaMa.

4.1 Or cette démarche est coûteuse, et exposée à l'erreur : un exemple ne sera sûrement pas en général de type 0/1, pour la bonne raison que l'apprenant ne dispose pas encore du concept terminal qui lui permettrait de classer sans ambigüité un quelconque exemple.
Le "bruit" est peut-être la principale difficulté de l'exercice.
Prenons le cas du mauvais "professeur" ou tutor:
a. il peut être focus sur des points de détails, c'est " l'arbre qui cache la forêt" : il manque d'esprit d'abstraction
b. il est peu rigoureux, ou à côté du sujet, ou ne domine pas son sujet : manque de pertinence
c. c'est un épigone, résonnant plutôt que raisonnant : manque d'originalité ou de créativité
Selon wikipedia "concept learning", "the classical views of concepts and concept learning in philosophy speak of a process of abstraction, data compression, simplification, and summarization". En réalité les quatre items se ressemblent beaucoup. Etonnament, pertinence et créativité ne sont pas mentionnées.

4.2 Pour le cas de collecter des exemples, prenons la pratique de résolution d'un exercice / problème de maths. Polya est l'auteur d'une compilation d'heuristiques bien connue, dont Terence Tao s'est inspiré encore très jeune pour briller aux Olympiades internationales de maths. Polya insiste essentiellement sur les notions d'analogie et de transformation progressive des données du problème.
On peut encore penser à l'heuristique analogs / antilogs de Mullins et Komisar ('Getting to Plan B'). Analogs et antilogs sont autant d'exemples où l'apprenti entrepreneur esquisse à tâtons le concept de sa future entreprise. Rapprocher et différencier (/opposer) (RD) une base d'exemple permet de progresser dans la 'formulation' (un proxy de résolution) du problème.
On peut arguer que la capacité à générer automatiquement des exemples de qualité est à la source des récents succès de l'AI en apprentissage de jeu : Backgammon, Go.

5. En pratique, la collecte de bons "professeurs" par l'apprenant doit presque tout aux différents graphes sociaux ou institutionnels que les humains bâtissent "spontanément". Les publications scientifiques en constituent le parangon : un article possède un contenu de qualité "minimale" (pair review, higher education), et donne des références pointant vers d'autres auteurs qui sont autant de "professeurs" potentiels pour l'apprenant. Naturellement ces références ne doivent rien au hasard, et tout au travail de l'auteur de l'article, qui a fait un tri soigneux, tant en terme de contenu ('relevance') qu'en terme de qualité.
Lorsque l'apprenant tient une "bon" auteur, il a toutes les chances de trouver de nouvelles pépites dans les "relations" de cet auteur.
Bien entendu, la qualité est partiellement subjective : un "bon" auteur est aussi un bon "traducteur" ou "passeur" pour l'apprenant : il sait se rendre compréhensible à l'apprenant, ce qui dépend du niveau de connaissance de ce dernier. Vikipédia sera plus adapté aux enfants que Wikipédia.
Revenant au cas de la résolution de problèmes de math, et au-delà la recherche en math, se donner de "bons" exemples est en fait la marque des grands découvreurs. Un bon exemple est en effet ce qui permet de remonter vers le bon point de vue, souvent la bonne généralisation conceptuelle.
De ces remarques découlent que le véritable algorithme de résolution de problèmes humains réels est un .. human made graph. C'est bien ce que l’on constate sur internet, où émergent chaque jour de nouveaux graphes spécialisés, comme par exemple dans le domaine médical, le développement informatique, etc.
Bien souvent ces graphes sont cependant très "bruités", au sens précisé ci-dessus. Les auteurs sont en effet insuffisamment identifiés, de sorte que l'apprenant nouveau venu aura bien du mal à séparer l'ivraie du bon grain.
On retombe naturellement sur les problématiques de recommandation qui ont eu le vent en poupe ces dernières années, où l’on distingue aisément deux approches : collaborative ou content-based. Mais encore une fois, l’algorithme est le graphe lui-même, sa qualité borne celle de toute search algo afférant.

6. L’approche par auteur au sens de 5., ou 'collaborative' dans le cas des réseaux sociaux, est infiniment plus simple que l’approche par contenu : le nom d'un auteur encode des contenus bien plus simplement que la description des contenus. On a bien une idée de ce que représente Heidegger, il est bien plus difficile de décrire ce dont Heidegger parle. Plutôt que de chercher si un auteur traite de certaines idées ‘heideggériennes’ (aussi bien partiellement aristotéliciennes, parménidiennes, kantiennes,…) , il est beaucoup plus simple de vérifier qu’il le cite.
En philosophie comme dans la plupart des domaines de connaissance, un encodage minimale performant est le contraste x ⊦ y . Dans notre notation, on écrira x ⊦ y ~ x’ ⊦ y’ pour décrire une équivalence de classe (ou morphisme), et x ⊦ y ⇒ z pour un foncteur conceptuel, au sens où z est une traduction conceptuelle de x ⊦ y .
Exemple 1: chat ⊦ lion ~ chien ⊦ loup ⇒ domestiqué ⊦ sauvage.
Exemple 2: étant donné 2 espaces topologiques homéomorphes x →y, leurs groupes fondamentales sont isomorphes, ici z est l'homotopie. la 'pré-conception' x →y (qui bien-sur est rigoureuse dans le cas présent), se conceptualise plus simplement via la traduction en terme de groupe.
L'apprenant qui encode son pré-concepte par le morphisme chat ⊦ lion ~ chien ⊦ loup, espère tomber, via une interrogation digitale, sur un 'tutor' qui l'aide à aller au niveau conceptuel supérieur. Ce niveau supérieur, que par définition il ignore au moment de sa recherche, et qu'il ne sait représenter que via un morphisme, est domestiqué ⊦ sauvage. Dans le cas de Galois :
opération sur racines ~ opération sur listes ⇒ Group.
De manière générale, l'apprenant encode son apprentissage sous forme de graphe, dans l'esprit de notre 'Conceptual Representation' ou des graphes conceptuelles (CF John Sowa). C'est un encodage 'haut niveau'. Il faut une traduction de cet encodage qui permette l'interrogation digitale. Un telle transformation doit accommoder la versatilité essentielle du langage humain, et consiste essentiellement en du PaMa.

MyGrowingCG ⇝s ⇒ PaMa (⇝s : search engine)
CG : conceptual Graph
En résumé, l'apprenant fait croître simultanément son graphe conceptuel et son 'tutor' graphe ou graphe de référence.
MyGrowingCG ⇌ MyGrowingRG
RG : Referential graph

7. le PaMa fixe la data (eg N documents) et la représentation (word distribution, sentiment, Structure Mapping Engine (SME), ...)
Au contraire la croissance conceptuelle CC ne fixe pas la data, qui peut couvrir tout internet par exemple, ni la représentation, ni le concept, qui est découvert itérativement. Elle reste à la discrétion de l'apprenant pour une large part.
A chaque itération t un doc D(t) donne (l'apprenant choisit) un contenu encodé x(t) ou un auteur X(t); x(t) permet de lancer une nouvelle recherche débouchant sur un nouvel auteur X(t+1).
Notons * à coté de x ou X pour signifier un intérêt, une valorisation de l'apprenant.
On peut distinguer plusieurs cas : en effet soit x(t)* est associé à un auteur qui devient du coup X(t+1), soit X(t)* cite X(t+1), soit x(t)* mais sans qu'un auteur n'y soit attaché, auquel cas il faut faire un (digital) Search :
t : D(t) : X(t), x(t)
X(t)* ⇝ X(t+1)
x(t)*, X ⇝ X(t+1)=X
x(t)* ⇝s X(t+1)
Une fois X(t+1) obtenu, l'apprenant choisit un x(t+1) dans un D(t) dont il est l'auteur.
L'apprenant n'est pas tenu de rester sur un pur affinage de son pré-concept initial. En effet chemin faisant il peut découvrir un autre (pré-)concept y* qui de par sa valeur l'incite à suivre ce fil conceptuel, qui peut aussi bien le conduire à un X* de grand intérêt, qui l'aide à accélérer en retour son 'éclaircissement' (alètheia) de x : les chemins de la découverte ne sont pas linéaires, et le "coup d'oeil" de l'apprenant y joue un rôle déterminant.
Autrement dit c'est autant la valeur de z(t)∈{x(t),X(t)} que sa détermination x ou X qui importe, dans la mesure où la qualité appelle la qualité : z(t)* ⇝ z(t+1)*
Il ne s'agit pas purement d'optimisme dans l'incertain comme pour les bandits manchots : la quality greediness n'est pas une simple curiosity greediness.