Saturday, 24 October 2020
figures du réel : Oedipe Roi
Thursday, 20 August 2020
tdkg algebra
On motive ici une approche conceptuelle structurée tdkg qui partage quelques traits communs avec une algèbre.
Objectif :
1.
Sémantique : mettre au cœur de la
représentation les concepts clefs de l’utilisateur
2.
Réduction dimensionnelle / compression
3.
Désambiguation
4.
Polymorphisme
On distingue les niveaux 0,1,2,…, < est la relation d’ordre
associée.
Le 1. force l’utilisateur à définir les ‘features’ clefs qu’il souhaite voir constituer l’ossature sémantique de sa représentation conceptuelle. Dès lors il se contraint à ne plus utiliser que ce ‘petit’ nb de features pour sa représentation. On a bien-sur ce principe en théorie des types (en informatique) : on a le type entier ℕ, les fonctions de ℕ->ℕ, les fonctions de 2 variables ℕ->ℕ->ℕ, etc. dans notre notation ℕ_ℕ_ℕ).
On retrouve une capacité générative/compositionnelle dans toutes les langues : géo_graphie, re_con_struction, auto_nomie, anthropo_logie, camion_citerne, etc. En générale il y a un ordre : a_b \( \ne \) b_a
Dans tdkg on trouve par exemple : cloud
< N_(comput + storage_data)
Idéalement on aimerait pouvoir avoir ab <
a_b, comme dans ab = ‘artificial intelligence’. Bien entendu c’est impossible
la plupart du temps (et c’est bien la raison d’être de tdkg!). typiquement
intelligence recouvre plusieurs sens en anglais, et de nombreux mots du jargon
technophile ont le même sens que artificial : virtual/ai/autonom, comme dans ‘virtual assistant’. De ce fait, même si a et b sont des
concepts typés de tdkg, dc a :A, b :B, on aura pas en général ab
< a_b. si on a effectivement ab < a_b, c’est parce que le sens de a et b
dans ab correspond au sens de a_b, comme par exemple dans tdkg: renewable
energy < renew_energy.
Le 2. passe par une structuration de type a_b_c pour les
concepts haut niveau, où a :A (‘a de type A’), b :B,… Il est clair
que si #A = n, #B=m, etc, on a accès à un ensemble de concept de taille n*m*…
Le choix des set A, B, doit être fait avec soin et
correspondre à la représentation cherchée. Dans tddic on distingue des niveaux
d’innovation, et de ce point de vue on a un ordre A>B>… par exemple dans
N_storage_data on considère que storage ‘opère’ sur data, et N sur storage_data.
N est une fonction abstraite qui correspond à ‘parallélisation / coopération à l’échelle’.
Le 3. doit être un soucis constant, à mi-chemin entre granularité/pouvoir
expressif et compression ; ex : supply chain < supply_chain ?,
artificial intelligence < artificial_intelligence ? Chain et
intelligence (en anglais) recouvre chacun plusieurs sens, il convient de lever
les ambiguïtés dès le niveau 1.
Le 4 permet d’aller au-delà des contraintes très fortes des structures
d’arbre (ex : Gics, Revere). Dans tdkg on a par exemple cloud
< (N_comput , N_storage_data). Cette propriété très utile est bien entendu présente
dans un graphe.
Au total cette structuration permet de garder le
polymorphisme d’un graphe mais d’avoir une forte structure qui facilite
considérablement l’utilisation par rapport à un graphe.
Examinons qq exemples, partant du niveau 1.
formal_language_natural_language [computational linguistics] :
(formal_language)_(natural_language ) la notion de computational dans ‘computational
linguistics’ n’est pas forcément inintéressante, mais ici nous privilégions la
notion de formalisation. Si nécessaire, on peut (en utilisant la possibilité de
polymorphisme), ajouter comput_language.
artificial_intelligence_tutoring [intelligent tutoring
system]: intelligence dans tdkg est au sens du français intelligence, et non
au sens d’information /renseignement. tdkg conserve artificial et le distingue d’automat.
chemical reaction_elec_hydrogen [electrolysis] : ici chemical
reaction est une relation qui lie réactant et produit de la réaction chimique :
elec -> hydrogen. Dans tdkg les concepts elec et hydrogen sont des
concepts importants de sustain, et on voit tout l’intérêt de substituer à
electrolysis le ‘produit’ : elec_hydrogen.
Monday, 24 December 2018
autoapprentissage
«One should allow oneself to be led in the direction which the mathematics suggests. [...] one must follow up a mathematical idea and see what its consequences are, even though one gets led to a domain which is completely foreign to what one started with... Mathematics can lead us in a direction we would not take if we only followed up physical ideas by themselves.» Paul Dirac.
Un problème n'existe que dans une théorie (langage) donnée : une question de langage. Loin d'être un objet extrinsèque ou exogène à celui-ci, il en constitue un bord. Le ‘réel’ se montre dans les termes de la théorie.
Vertu première d'un langage l : son pouvoir de généralisation.
Le langage en / pour lui-même (qua) : plutôt que se focaliser sur des problèmes spécifiques perçus comme objets extérieurs à l, le fait de raisonner sur (les propriétés, la puissance, la virtus, le caractère structuré de) l en général, comme c’est de facto - si ce n’est implicitement - le cas en mathématique, amène à se poser des questions beaucoup plus profondes, comme avec le programme d’Erlangen, en abordant globalement la puissance de l.
«Mathematics is often thought of in the public mind as concerned with technic and performance, or with problem solving, rather than ideas, and it is perhaps for this reason that the association of mathematics with fear is common. It would be better to see mathematics not as a subject capable of a finished description and account, but as a process, involving refinement of arguments and concepts, and where new fundamental ideas are still possible, even if subject to the usual difficulties of any revolution in science. These new ideas may in fact bypass the apparent and accepted priorities for solving already formulated problems.» Brown, Porter 'Intuitions of higher dimensional algebra'.
«Another way of putting the first stage of this process is that to solve some geometric problem may require a new structures language. For the Greeks, this language was the geometry of Euclid. The most notable recent instance of success of this approach of developing a new language to solve problems is the monumental work of Alexander Grothendieck, which laid necessary foundations for the work of Andrew Wiles on Fermat's last theorem. We have a letter of Grothendieck in which he speaks of " the difficulty of bringing new concepts out of the dark ", and this suggests that he also saw as an aim for mathematics the development of language for an area, regardless of its success in a a well known problem.» Brown, Porter, op. cit.
Mathématiques : apprentissage in vitro.
Friday, 14 December 2018
Invariance
Invariance en linguistique.
« Chacun des articles composant ce numéro double s’attache à déployer une facette d’un programme de recherche qui s’est développé autour du travail d’Antoine Culioli pour étudier les formes linguistiques au travers de leurs variations. L’une des caractéristiques de ce travail est ce parti-pris de placer les faits de variation au centre de l’étude des langues et de considérer que l’identité des entités langagières en général réside dans le détail de leur variation, dans ce qui constitue le contour de cette variation et dans ce qui l’organise. Sur ce parti-pris s’appuie le concept d’invariant : les entités langagières prises dans ces variations forment des invariants. Contrairement à ce que pourrait laisser penser le préfixe négatif in, ces invariants s’entendent moins comme une négation de la variation en question, que comme ce qui se retrouve d’une variation à l’autre ; en quelque sorte, l’invariant intègre toutes les variantes ; le décrire suppose de décrire les variations auxquelles il est soumis.
Le concept d’invariant est paradoxal, mais le programme associé est relativement simple : étant donné des formes linguistiques, il s’agit d’observer comment ces formes varient d’un emploi à l’autre – comment elles changent de valeur, comment leur distribution change (distribution syntaxique, mais aussi genre de texte, registre, type d’usage), et aussi comment elles s’échangent avec d’autres (comment elles commutent), puisque c’est bien l’une de leurs façons de varier. On observe ces données empiriques que constituent les variations auxquelles sont soumises les formes linguistiques, et on considère qu’elles sont ce qui fait l’identité de ces formes et donc ce qu’il faut décrire pour arriver à restituer cette identité dans ce qu’elle a de singulier. »
\( https://journals.openedition.org/linx/1562\#ftn1 \)
En Anthropologie structurale.
La transformation en analyse structurale est définie comme une variation structuralement déterminée (non aléatoire) de configuration d'un phénomène collectif donné, qu'il s'agisse d'une langue, d'un récit collectif comme un mythe, de relations de parenté ou encore de rites religieux ou sacrés. Par exemple, les variantes d'un phénomène entre des peuples voisins constituent autant de transformations de ce phénomène, et ces transformations sont structuralement liées (selon une logique propre) aux différences locales entre ces peuples, chacun produisant une variante du phénomène considéré en fonction de sa propre structure sociale.
\( https://fr.wikipedia.org/wiki/Transformation_(anthropologie_structurale) \)
peuples \( \rightarrow \) (foncteur) mythe / relation de parenté / …
Apprentissage fonctoriel.
L’approche classique consiste à disposer d’une data \( d \) et d’un ‘modèle’ (paramétré) \( m \) que l’on fit sur \( d \). En l’absence d’information, ce fit est ‘gratuit’ : rien ne permet d’en apprécier la pertinence, i.e. sa capacité à généraliser. En principe, on inclut l’hypothèse que \( d \) est représentatif pour justifier la procédure. On sait que ce résonnement est fallacieux : par exemple l’observation d’une série temporelle financière sans fat tail \( x_0 \) n’est généralement pas représentative. Une parade peut constituer à plonger cette série dans un ensemble plus vaste, avec l’idée que cet ensemble n’est pas exactement statistiquement homogène, mais que le ‘passage’ de la série \( x_0 \) à une série \( x_1 \) correspond à certaines réalités connues qui doivent se ‘réfléchir’ dans les `propriétés' du modèle : si celles-ci ne sont pas validées, l’emploi du modèle dans ce contexte doit être révisé. Il est fondamentalement surprenant de ne pas exploiter cette métaheuristique, qui certes suppose de fournir , outre \( d \), \(d_1,d_2,… \): un talent très humain ? CF le \textit{data grocissement} in Learning fallacy II.
Plus précisément on est ainsi amené à modéliser \( m \) comme un foncteur \( H : D \rightarrow \Omega \), et à jauger de sa pertinence en plongeant \( d \) dans une catégorie \( D \) avec \( D_0 = d \) et \( D_i \xrightarrow{f} D_j \) (symétrie connue) et en vérifiant qu'on a bien fonctoriellement dans \( \Omega \) \(o_i \xrightarrow{H(f)} o_j \), avec \( o_i = H(D_i) \) et \( o_j = H(D_j ) \) .
\( H \) peut dépendre de \( D \) : on cherche un \( H \) tel qu’on sache quelque chose sur \( H(f) \).
Dans un contexte informationnel d’étiquettes (features, variables aléatoires) : on a un schéma \( X_z \rightarrow o_z \), où \( X \) est une (famille de) feature(s) et \( z \) est une feature vue comme un paramétrage de conditionnement – feature ou temps, et \( o \) un (ensemble de) mesure(s) statistique(s) ; on observe les variations selon \(z\) de \(o\).\\
Cas élémentaire : supposant donnée une variable à expliquer \( Y\) et un ensemble de variables explicatives \( X_i \) , \( z \) correspond à faire varier (i.e. à regarder) \( Y \) dans le contexte \( X_i \) : \( \{ X_i \} \xrightarrow{H} \{ cor ( Y, X_i ) \} \), étant supposé qu'on a des flèches entre les \( \{ X_i \} \), qui induisent fonctoriellement des flèches entre les \( \{ cor ( Y, X_i ) \} \).
Supposons qu'on a dans \( D \) deux classes dont on notera \( \rightarrow \) (resp. \( \vdash \) ) les morphismes intraclasses (resp. extraclasses), et que deux résultats de mesures seulement sont possibles, \( o \) et \( -o \) : on attend par exemple que si \( D_i \rightarrow D_j \), \( H(D_i) = H(D_j)=o \), et si \( D_i \vdash D_j \), \( H(D_i) = o, \space H(D_j)=-o \), simplement parce qu'on attend \( H( \rightarrow ) = id\) et \( H(\vdash) = g\) avec \( o \xrightarrow{g} -o \). Si \( H \) correspont à une mesure opérée par un système faillible, le fait de ne pas observer le résultat attendu peut amener à : douter de la mesure \( H(D_j) \), ou ... du modèle \( H \) !
Une théorie physique se jauge à sa capacité prédictive, soit son pouvoir de généralisation : on part de \( D_0 = d \) et de l'observation \( H(D_0) \), on échafaude une théorie \( H \), qui porte à la fois sur les relations des relations dans \( D \) avec les relations de mesures dans \( \Omega \) et sur les `mesures' que \( H \) explicite. Une prédiction consiste à prendre un \( D_i \) et à exploiter les flèches \( D_k \xrightarrow{f} D_i \) des \( D_k \) supposés connus vers cet objet pour prédire la mesure \( H(D_i) \), via \( H(D_k) \xrightarrow{H(f)} H(D_i) \).
Friday, 9 March 2018
text representation and summary
Wednesday, 22 November 2017
word embbeding : the short story
Résumé basé essentiellement sur le remarquable ‘Glove : Global Vectors for word representation’
\( X \): matrice de co-occurrence
Au commencement était le LSA : ‘global matrix factorization ’ / ‘count-based’ method
\( X = UΣV \)
‘While methods like LSA efficiently leverage statistical information, they do relatively poorly on the word analogy task, indicating a sub-optimal vector space structure’
Next move : predictation-based ~ probabilist method
‘The starting point for the skip-gram or ivLBL methods is a model \( Q_{ij} \) for the probability that word \(j \) appears in the context of word \(i \).’
Softmax model :
\( Q_{ij} = \frac{ e^{w_i^T \tilde{w}_j }}{ ∑_{k=1}^{V} e^{w_i^T\tilde{w}_k} } \)
‘Training proceeds in an on-line, stochastic fashion, but the implied global objective function can be written as’ : \(J = -\sum_{i \in corpus,j\in context(i)} \log Q_{ij} \) ,
‘Evaluating the normalization factor of the softmax for each term in this sum is costly. To allow for efficient training, the skip-gram and ivLBL models introduce approximations to \( Q_{ij} \) ’
But… (to read : p5) :
\(softmax \rightarrow (distance∶ ) \; entropy \Vdash \log \; least \; square \; objective \)
‘The idea of factorizing the log of the co-occurrence matrix is closely related to LSA and we will use the resulting model as a baseline in our experiments. A main drawback to this model is that it weighs all co-occurrences equally, even those that happen rarely or never. Such rare co-occurrences are noisy and carry less information than the more frequent ones — yet even just the zero entries account for 75–95% of the data in \( X \), depending on the vocabulary size and corpus.’
D’où : \( J =\sum f(X_{ij} ) (w_i^T \tilde{w}_j - \log X_{ij} )^2 \)
Compléxité : \( Glove \sim |C|^.8 \; vs \; w2v \sim |C| \)
Tuesday, 21 November 2017
Emergence d’un écosystème Big data
Il est ainsi peu probable que A ait intérêt à internaliser intégralement sa gestion big data : le big data, manifestation ecosystémique, implique des chaines de dépendances ad infinitum, et donc la ‘délocalisation’ de la data : toute data – aussi déportée soit elle - est potentiellement pertinente pour A. La soudaineté et la technicité de B plaide aussi en faveur de l’externalisation. Autrement dit, pour encore un moment, le ‘sens’ de l’histoire est plutôt que A continue à externaliser le big data vers des acteurs B spécialisés par métier.




