Friday, 9 March 2018

text representation and summary

La recherche d’information dans un texte est une des tâches classiques du text mining.
Un résumé peut consister à mettre en avant les concepts souvent répétés dans un texte : c’est une approche en fréquence absolue.
Ou l’on peut se baser sur une distribution de référence et mettre en avant les concepts du texte relativement plus fréquents que la référence.
On peut encore itérer cette approche, et regarder les n-grams relativement plus fréquents.
Mais ces n-grams peuvent être ou non constitués de concepts accolés dans la phrase (modulo les stop words que l’on aura pris soin de retirer). En général, on peut combiner ces deux cas.
Prenons à titre d’exemple le texte de Polya bien connu, ‘How to solve it’.
Par ordre de fréquence relative par rapport à un benchmark (ici wikipédia), on a les différents concepts et leurs associations  de type \(x \rightarrow y\), là aussi dans l’ordre fréquentiel.
Par exemple \( auxiliari\_problem \rightarrow origin\_problem\) , etc.
On voit apparaitre des concepts qui sont bien connu des lecteurs de ce livre : auxiliari-problem, sign of progress, variate the problem, heuristic reasonning...
Polya donne à voir comme personne un art de la découverte qu’il n’hésite pas rapprocher des Grandes Traversées du XVe s.
Cette représentation du texte permet aussi de créer un résumé automatique, en ordonnant les phrases représentant le mieux les structures \( x_i \rightarrow Y_i=\{ Y_{j}^{i} \} \):
AUXILIARI_PROBLEM
 The auxiliary problem was, as a special case, in fact much less ambitious than the original problem
 To sum up, we used the less difficult, less ambitious, special, auxiliary problem as a stepping stone in solving the more difficult, more ambitious, general, original problem
ORIGIN_PROBLEM
 Convertible reductions are, in a certain respect, more important and more desirable than other ways to introduce auxiliary problems, but auxiliary problems which are not equivalent to the original problem may also be very useful
SIGN_PROGRESS
 The day before that memorable date on which they sighted the island of San Salvador, as the floating objects in the water became so frequent, they thought: "It looks  Signs of Progress  as if we were approaching some land”
 Our undertaking may be important or unimportant, our problem of any kind when we are working intensely, we watch eagerly for signs of progress as Columbus and his companions watched for signs of approaching land
WORK_BACKWARD
  Modern Heuristic : There are articles discussing methodical questions often important in elementary mathematics, as pappus, WORKING BACKWARDS (already quoted under 3) , reductio AD ABSURDUM AND INDIRECT PROOF, INDUCTION AND MATHEMATICAL INDUCTION, SETTING UP EQUATIONS, TEST BY DIMENSION, and WHY PROOFS
 Analysis is neatly defined by pappus, and it is a useful term, describing a typical way of devising a plan, starting from the unknown (or the conclusion) and working backwards, toward the data (or the hypothesis)
LOOK_UNKNOWN
 There are, however, questions and suggestions which are frequently helpful, as look at the unknown
 There is a suggestion that puts our finger on an essential common point: Look at the unknown
VARIAT_PROBLEM
 Variation of the problem may lead us to auxiliary ELEMENTS, or to the discovery of a more accessible auxiliary PROBLEM
 Variation of the problem may lead to some appropriate auxiliary problem: // you cannot solve the proposed problem, try to solve first some related problem
DECOMPOS_RECOMBIN
 Many questions aim at the variation of the problem by specified means, as going back to the definition, using analogy, generalization, SPECIALIZATION, DECOMPOSING AND RECOMBINING
 There are certain modes of varying the problem which are typically useful, as going back to the definition, DECOMPOSING AND RECOMBINING, introducing AUXILIARY ELEMENTS, GENERALIZATION, SPECIALIZATION, and the use of ANALOGY
USE_RESULT
 Using the result of the auxiliary problem we easily solve our original problem (we have to complete the parallelogram)
 We may use the result of the auxiliary problem
DRAW_FIGUR
 We start the detailed consideration of such a problem by drawing a figure containing the unknown and the data, all these elements being assembled as it is prescribed by the condition of the problem
HEURIST_REASON
 It is concerned with the nature of heuristic reasoning and, by extension, with a kind of reasoning which is nondemonstrative although important and which we shall call, for lack of a better term, plausible reasoning
 We could call the reasoning that underlies this kind of evidence "heuristic reasoning" or "inductive reasoning" or (if we wish to avoid stretching the meaning of existing terms) "plausible reasoning

BRIGHT_IDEA
 A sudden advance toward the solution is called a bright idea, a good idea, a happy thought, a brain-wave (in German there is a more technical term, Einfalt)
" Bright idea, or "good idea," or "seeing the light," is a colloquial expression describing a sudden advance toward the solution
SPECIAL_CASE
 This auxiliary problem is a special case of the original problem (the extreme special case in which one of the two ships is at rest)
INTRODUC_AUXILIARI_ELEMENT
 In general, having recollected a formerly solved related problem and wishing to use it for our present one, we must often ask: Should we introduce some auxiliary element in order to make its use possible
 We aim at such an effect when, thinking about the possible use of a formerly solved related problem, we ask: Should you introduce some auxiliary element in order to make its use possible
KNOW_RELAT_PROBLEM
 Setting a routine problem, the teacher thrusts under the nose of the student an immediate and decisive answer to the question: Do you know a related problem
 Let us go back to the situation as it presented itself at the beginning of section 10 when the question was asked: Do you know a related problem
ANALOG
 We may vary the problem by decomposing and RECOMBiNiNG its elements, or by going back to the definition of certain of its terms, or we may use the great resources of generalization, specialization, and analogy


Aller plus loin dans la compression de la représentation peut se faire en projetant Y sur \( X= \{ x_i, \; i<N \} \), i.e. en restreignant les \(Y_{j}^{k}\) aux \( x_i, \; i<N \), se souvenant que les \( x_i \) sont ordonnés selon leur fréquence relative. 
Plus précisément, on cherche les occurrences des  \(x_i \) dans chaque  \( \{Y_{j}^{k}, j<cut \} \), imposant donc que  \(x_i \) soit ‘proche’ de  \(x_k \) (dans les \( cut \) premiers \( \{ Y_{j}^{k} \}_j \) ). D’où une nouvelle table \( x_i \rightarrow Z^i = {x_k^i} \) où l’on ordonne sur \( \| Z^i \| \) : le concept \(x_0 \) est le plus ‘central’ en ce qu’il est le plus connecté.
On supprime ensuite les \( x_i \) quand ils se trouvent dans les \(  Z^k, \; i>k \). On choisit enfin de supprimer les \( x_i \) si 50% de \( Z^i \)  se trouvent dans un \( Z^k  \; i>k\). On obtient pour ‘How to solve it’ (partant de près de  1000 \(x_i \), cut = 10) :

On constate que la première thématique, ‘origin_problem’, contient 169 voisins, dont : 'auxiliari_problem',
 'use_result',
 'special_case',
 'simpler_analog_problem',
 'introduc_auxiliari',
 'less_ambiti',
 'restat',
 'devis',
 'reconsid',
 'tri',
 'step',
 'familiar',
 'simpler',
 'vari',
 'deriv',
 'easier',
 'auxiliari',
 'various',
 'combin',
 'passag',
 'modifi',
qui sont bien les voisins attendus de la thématique Variation-Comparaison.

On trouve aussi la thématique ‘sign_progress’, qui pointe sur ‘progress_achiev’, ‘approach_land’, mais aussi sur un versant  psychologique : ‘subconsci_work’, ‘suspect’, ‘mental’…

La thématique ‘part_condit’ renvoie à ‘decompos_recombin’, ‘general_special’, mais aussi sur ‘restat’, ‘tri’ qu’on retrouve dans le premier cluster ‘origin_problem’.
‘technic_term’ pointe sur ‘heuristic_reason’, ‘bright_idea’ ,’relat’.

‘auxiliari_element’ pointe sur 'auxiliari_problem', ‘variat_problem’,’analog’, ‘familiar’,  ‘relat’, et semble donc assez proche de ‘origin_problem’.

Autre cluster intéressant ‘plausibl_reason’ pointe sur 'heurist_reason', 'point_view', 'heurist_syllog', 'induct', 'infer'.

On obtient un peu plus de clusters avec cut = 5 :


Utilisant le logiciel de représentation de graphe et clustering Delphi , on retrouve essentiellement les mêmes résultats. ci dessous la partie haute puis basse du même graphe.






Wednesday, 22 November 2017

word embbeding : the short story

On donne un aperçu succinct sur la méthode de word embbeding en texte mining.
Résumé basé essentiellement sur le remarquable ‘Glove : Global Vectors for word representation’
\( X \): matrice de co-occurrence

Au commencement était le LSA : ‘global matrix factorization ’ / ‘count-based’ method
\( X = UΣV \)
‘While methods like LSA efficiently leverage statistical information, they do relatively poorly on the word analogy task, indicating a sub-optimal vector space structure’

Next move : predictation-based ~ probabilist method
‘The starting point for the skip-gram or ivLBL methods is a model \( Q_{ij} \) for the probability that word \(j \) appears in the context of word \(i \).’
Softmax model :
\( Q_{ij} = \frac{ e^{w_i^T \tilde{w}_j }}{ ∑_{k=1}^{V} e^{w_i^T\tilde{w}_k} }  \)
‘Training proceeds in an on-line, stochastic fashion, but the implied global objective function can be written as’ : \(J = -\sum_{i \in corpus,j\in context(i)} \log⁡ Q_{ij} \) ,
‘Evaluating the normalization factor of the softmax for each term in this sum is costly. To allow for efficient training, the skip-gram and ivLBL models introduce approximations to \( Q_{ij} \) ’

But… (to read : p5) :
\(softmax \rightarrow (distance∶ ) \; entropy \Vdash \log \; least \; square \; objective \)
‘The idea of factorizing the log of the co-occurrence matrix is closely related to LSA and we will use the resulting model as a baseline in our experiments. A main drawback to this model is that it weighs all co-occurrences equally, even those that happen rarely or never. Such rare co-occurrences are noisy and carry less information than the more frequent ones — yet even just the zero entries account for 75–95% of the data in \( X \), depending on the vocabulary size and corpus.’
D’où : \( J =\sum f(X_{ij} ) (w_i^T \tilde{w}_j - \log⁡ X_{ij} )^2 \)

Compléxité : \( Glove \sim |C|^.8 \; vs \; w2v \sim  |C| \)

Tuesday, 21 November 2017

Emergence d’un écosystème Big data

Le big data est souvent perçu comme une ‘fonction d’ubérisation’, un ‘choc de simplification’.
Il y a fort à parier que bien au contraire, le big data ( i.e. la digitalisation des relations économiques, sociales…) amène à l’émergence de nouvelles compétences et de nouveaux métiers : nouvel épisode de la division des tâches – spéciation, dirait un biologiste.
Stuart Kauffman a bien décrit dans ses derniers livres ( InvestigationsReinvented the sacred) le phénomène autocatalytique d’explosion de nouvelles niches.

L’écosystème big data voit l’externalisation partielle des tâches d’analyses traditionnellement dévolues au management des entreprises de type A (métiers ‘traditionnels’ : retail, banque, assurance…) à des entreprises de type B (souvent des startups : TinyClues, Proxem, Quid… ) qui exploitent des données fournies par des tiers C (réseaux sociaux, GAFA, cartes de crédit…) ou internes à A.
\(C\, / A  \leadsto B \leadsto A\)
Cela ne signifie pas que la totalité de la réflexion est déléguée à B. Les tâches de B sont en fait relativement ‘bas niveau’. Elles output des ‘analytiques’ qui aident A à construire des stratégies informées. Exemples (B = Quid.com):

Quid représente un compromis intéressant dans la relation Human /Machine, dans la même perspective que King et al. « Computer-Assisted Keyword and Document Discovery from Unstructured Text », ou celle de Ganascia / Floridi : ne pas jeter le bébé avec l’eau : mieux utiliser la compétence humaine : « push the boundaries of human intelligence ». Plus que jamais le sur mesure is your job, la machine « n’y entend goutte », mais des briques algorithmiques fondamentales démultiplient l’exploration humaine.
«  As an illustration, the way semantic information is extracted from data can neither be reduced to the sole  induction, i.e. to a generalization from particulars, nor to a representation in a universal digital ontology. The knowledge, which is relevant semantic information, takes its sense within interpretative processes, at a Level of Abstraction and in a given Context, i.e. with respect to the key concepts of the Philosophy of Information (Floridi, 2010). More generally, most of the open problems of Philosophy of Information can be enlightened by being envisaged under the light of the opposition between the “Sciences of nature” and the “Sciences of culture”. » Ganascia, EpistemologyAI


Il est tout à fait vain d’imaginer un traitement unique de ‘la’ data. Les sources de data sont hétérogènes, et le seront de plus en plus. Des acteurs nouveaux apparaissent chaque jour, dotés de compétences spécifiques, comme c’est par exemple le cas dans le domaine scientifique depuis fort longtemps. D’ailleurs, ‘le’ domaine en question ne cesse de se réinventer, au gré des découvertes scientifiques et techniques, soumis à ces mêmes forces autocatalytiques dont il était question il y a un instant. Le fantasme d'une AI venant uberiser toute forme de créativité humaine a toutes les résonances d'un conte messianique ou (plus probablement) d'une escroquerie. Là aussi,  préadaptation et new unprestable adjacent possible à la Kauffman devrait refroidir certaines illusions.
(Voir aussi à ce sujet Floridi)
Il est ainsi peu probable que A ait intérêt à internaliser intégralement sa gestion big data : le big data, manifestation ecosystémique, implique des chaines de dépendances ad infinitum, et donc la ‘délocalisation’ de la data : toute data – aussi déportée soit elle - est potentiellement pertinente pour A. La soudaineté et la technicité de B plaide aussi en faveur de l’externalisation. Autrement dit, pour encore un moment, le ‘sens’ de l’histoire est plutôt que A continue à externaliser le big data vers des acteurs B spécialisés par métier.
Cette tendance va à l’encontre du mouvement de constitution de vastes DSI internes à A dans les années 1990-2000.
Il n’y a pas de raison que le graphe ci-dessus ne soit pas plus ramifié : \(B_n  \leadsto B_{n-1}... \leadsto A\)
Dans le cadre d’une théorie de l’apprentissage, on dirait que l’information est traitée via un réseau profond. Chaque acteur dans la chaine interroge un niveau organisationnel de la réalité. Cette conception va évidemment à l’encontre des positions réductionnistes, qui en physique ou en biologie en particulier voire en mathématiques n’ont jamais fini d’épouvanter, figure du Commandeur toujours renaissante. (pour les maths CF Zalamea et Patras)



Friday, 1 September 2017

croissance conceptuelle


1. La plupart des problèmes humains sont bien moins formalisés que ne l'est le Pattern Matching [PaMa], un des prototypes de l'IA.
Dans le PaMa, de nombreux exemples sont disponibles pour lesquels la classification 0/1 est disponible, une "exubérance" peu réaliste dans le quotidien humain réel.
On peut même arguer que disposer de la classification c'est avoir déjà résolu le "problème".

2. Prenons l'exemple de l'enfant qui se donne un "concept" encodé via l'opposition chien ⊦ poupée : cette pré-conceptualisation vise par exemple le concept animé ⊦ inanimé, mais l'enfant tâtonne et il lui faudra acquérir de nombreux exemples, - voire même de nouvelles connaissances - pour faire évoluer son ébauche conceptuelle.
Autre exemple, passer du pré-concept assureur ⊦ assuré à celui d'asymétrie de l'information, suppose de franchir un pas que la plupart des gens ne feront pas spontanément. Stiglitz a obtenu le prix Nobel notamment pour son travail sur le sujet.
En math, Galois généralise ses 'manipulations' sur les racines d'un polynomes et les éléments d'un ensemble de cardinal fini en la notion de groupe.
La catégorie des topos généralise la notion de sous-ensemble (http://math.ucr. edu/home/baez/topos.html).
La notion de 'symétrie' / 'structures' se généralise en la théorie des catégories.

3. Précisément, l'humain doit - pour faire avancer son "problème", i.e. sa pré-conceptualisation - collecter des exemples ou chercher des "professeurs".
Apprendre à apprendre, c'est apprendre à collecter (seul) des exemples ou apprendre à collecter des 'tutors'. Dans la plupart des cas bien-sûr l'humain recours aux deux heuristiques.
En Machine Learning on a bien ainsi la notion d'apprentissage supervisé qui est au cœur du PaMa.

4.1 Or cette démarche est coûteuse, et exposée à l'erreur : un exemple ne sera sûrement pas en général de type 0/1, pour la bonne raison que l'apprenant ne dispose pas encore du concept terminal qui lui permettrait de classer sans ambigüité un quelconque exemple.
Le "bruit" est peut-être la principale difficulté de l'exercice.
Prenons le cas du mauvais "professeur" ou tutor:
a. il peut être focus sur des points de détails, c'est " l'arbre qui cache la forêt" : il manque d'esprit d'abstraction
b. il est peu rigoureux, ou à côté du sujet, ou ne domine pas son sujet : manque de pertinence
c. c'est un épigone, résonnant plutôt que raisonnant : manque d'originalité ou de créativité
Selon wikipedia "concept learning", "the classical views of concepts and concept learning in philosophy speak of a process of abstraction, data compression, simplification, and summarization". En réalité les quatre items se ressemblent beaucoup. Etonnament, pertinence et créativité ne sont pas mentionnées.

4.2 Pour le cas de collecter des exemples, prenons la pratique de résolution d'un exercice / problème de maths. Polya est l'auteur d'une compilation d'heuristiques bien connue, dont Terence Tao s'est inspiré encore très jeune pour briller aux Olympiades internationales de maths. Polya insiste essentiellement sur les notions d'analogie et de transformation progressive des données du problème.
On peut encore penser à l'heuristique analogs / antilogs de Mullins et Komisar ('Getting to Plan B'). Analogs et antilogs sont autant d'exemples où l'apprenti entrepreneur esquisse à tâtons le concept de sa future entreprise. Rapprocher et différencier (/opposer) (RD) une base d'exemple permet de progresser dans la 'formulation' (un proxy de résolution) du problème.
On peut arguer que la capacité à générer automatiquement des exemples de qualité est à la source des récents succès de l'AI en apprentissage de jeu : Backgammon, Go.

5. En pratique, la collecte de bons "professeurs" par l'apprenant doit presque tout aux différents graphes sociaux ou institutionnels que les humains bâtissent "spontanément". Les publications scientifiques en constituent le parangon : un article possède un contenu de qualité "minimale" (pair review, higher education), et donne des références pointant vers d'autres auteurs qui sont autant de "professeurs" potentiels pour l'apprenant. Naturellement ces références ne doivent rien au hasard, et tout au travail de l'auteur de l'article, qui a fait un tri soigneux, tant en terme de contenu ('relevance') qu'en terme de qualité.
Lorsque l'apprenant tient une "bon" auteur, il a toutes les chances de trouver de nouvelles pépites dans les "relations" de cet auteur.
Bien entendu, la qualité est partiellement subjective : un "bon" auteur est aussi un bon "traducteur" ou "passeur" pour l'apprenant : il sait se rendre compréhensible à l'apprenant, ce qui dépend du niveau de connaissance de ce dernier. Vikipédia sera plus adapté aux enfants que Wikipédia.
Revenant au cas de la résolution de problèmes de math, et au-delà la recherche en math, se donner de "bons" exemples est en fait la marque des grands découvreurs. Un bon exemple est en effet ce qui permet de remonter vers le bon point de vue, souvent la bonne généralisation conceptuelle.
De ces remarques découlent que le véritable algorithme de résolution de problèmes humains réels est un .. human made graph. C'est bien ce que l’on constate sur internet, où émergent chaque jour de nouveaux graphes spécialisés, comme par exemple dans le domaine médical, le développement informatique, etc.
Bien souvent ces graphes sont cependant très "bruités", au sens précisé ci-dessus. Les auteurs sont en effet insuffisamment identifiés, de sorte que l'apprenant nouveau venu aura bien du mal à séparer l'ivraie du bon grain.
On retombe naturellement sur les problématiques de recommandation qui ont eu le vent en poupe ces dernières années, où l’on distingue aisément deux approches : collaborative ou content-based. Mais encore une fois, l’algorithme est le graphe lui-même, sa qualité borne celle de toute search algo afférant.

6. L’approche par auteur au sens de 5., ou 'collaborative' dans le cas des réseaux sociaux, est infiniment plus simple que l’approche par contenu : le nom d'un auteur encode des contenus bien plus simplement que la description des contenus. On a bien une idée de ce que représente Heidegger, il est bien plus difficile de décrire ce dont Heidegger parle. Plutôt que de chercher si un auteur traite de certaines idées ‘heideggériennes’ (aussi bien partiellement aristotéliciennes, parménidiennes, kantiennes,…) , il est beaucoup plus simple de vérifier qu’il le cite.
En philosophie comme dans la plupart des domaines de connaissance, un encodage minimale performant est le contraste x ⊦ y . Dans notre notation, on écrira x ⊦ y ~ x’ ⊦ y’ pour décrire une équivalence de classe (ou morphisme), et x ⊦ y ⇒ z pour un foncteur conceptuel, au sens où z est une traduction conceptuelle de x ⊦ y .
Exemple 1: chat ⊦ lion ~ chien ⊦ loup ⇒ domestiqué ⊦ sauvage.
Exemple 2: étant donné 2 espaces topologiques homéomorphes x →y, leurs groupes fondamentales sont isomorphes, ici z est l'homotopie. la 'pré-conception' x →y (qui bien-sur est rigoureuse dans le cas présent), se conceptualise plus simplement via la traduction en terme de groupe.
L'apprenant qui encode son pré-concepte par le morphisme chat ⊦ lion ~ chien ⊦ loup, espère tomber, via une interrogation digitale, sur un 'tutor' qui l'aide à aller au niveau conceptuel supérieur. Ce niveau supérieur, que par définition il ignore au moment de sa recherche, et qu'il ne sait représenter que via un morphisme, est domestiqué ⊦ sauvage. Dans le cas de Galois :
opération sur racines ~ opération sur listes ⇒ Group.
De manière générale, l'apprenant encode son apprentissage sous forme de graphe, dans l'esprit de notre 'Conceptual Representation' ou des graphes conceptuelles (CF John Sowa). C'est un encodage 'haut niveau'. Il faut une traduction de cet encodage qui permette l'interrogation digitale. Un telle transformation doit accommoder la versatilité essentielle du langage humain, et consiste essentiellement en du PaMa.

MyGrowingCG ⇝s ⇒ PaMa (⇝s : search engine)
CG : conceptual Graph
En résumé, l'apprenant fait croître simultanément son graphe conceptuel et son 'tutor' graphe ou graphe de référence.
MyGrowingCG ⇌ MyGrowingRG
RG : Referential graph

7. le PaMa fixe la data (eg N documents) et la représentation (word distribution, sentiment, Structure Mapping Engine (SME), ...)
Au contraire la croissance conceptuelle CC ne fixe pas la data, qui peut couvrir tout internet par exemple, ni la représentation, ni le concept, qui est découvert itérativement. Elle reste à la discrétion de l'apprenant pour une large part.
A chaque itération t un doc D(t) donne (l'apprenant choisit) un contenu encodé x(t) ou un auteur X(t); x(t) permet de lancer une nouvelle recherche débouchant sur un nouvel auteur X(t+1).
Notons * à coté de x ou X pour signifier un intérêt, une valorisation de l'apprenant.
On peut distinguer plusieurs cas : en effet soit x(t)* est associé à un auteur qui devient du coup X(t+1), soit X(t)* cite X(t+1), soit x(t)* mais sans qu'un auteur n'y soit attaché, auquel cas il faut faire un (digital) Search :
t : D(t) : X(t), x(t)
X(t)* ⇝ X(t+1)
x(t)*, X ⇝ X(t+1)=X
x(t)* ⇝s X(t+1)
Une fois X(t+1) obtenu, l'apprenant choisit un x(t+1) dans un D(t) dont il est l'auteur.
L'apprenant n'est pas tenu de rester sur un pur affinage de son pré-concept initial. En effet chemin faisant il peut découvrir un autre (pré-)concept y* qui de par sa valeur l'incite à suivre ce fil conceptuel, qui peut aussi bien le conduire à un X* de grand intérêt, qui l'aide à accélérer en retour son 'éclaircissement' (alètheia) de x : les chemins de la découverte ne sont pas linéaires, et le "coup d'oeil" de l'apprenant y joue un rôle déterminant.
Autrement dit c'est autant la valeur de z(t)∈{x(t),X(t)} que sa détermination x ou X qui importe, dans la mesure où la qualité appelle la qualité : z(t)* ⇝ z(t+1)*
Il ne s'agit pas purement d'optimisme dans l'incertain comme pour les bandits manchots : la quality greediness n'est pas une simple curiosity greediness.

Saturday, 25 March 2017

A conceptual representation


we introduce here a multi-level conceptual representation, based on two morphisms : 'is linked to' and 'opposes' :
a. \( \rightarrow \) ,\( \Rightarrow \), \( \Rrightarrow \), \( \rightarrow_4 \)... : 'is linked to', level (n+)1, (n+)2, (n+)3,...
b. \( \vdash \),\( \Vdash \),\( \Vvdash \),\( \vdash_4 \)... : 'opposes', level (n+)1, (n+)2, (n+)3,...
[optional :
c.  \(\circ \),\(\circ_2\),...: 'equivalence' or 'opposition', level (n+)1, (n+)2,...
d. \(. \) : under category
e. \( \leadsto\), \( \leadsto_2 \), : to, level (n+)1, (n+)2,...]

Let us give an example of implementation of this representation, in a philosophical context. (we are not trying to 'demonstrate' anything). Let Mr. X has these initial representations:
1. "Science is interested only in the reproducible : \( science \rightarrow reproductible \)
2. Moreover, science often appears as a model of truth : \(science \rightarrow truth \) (for example to people like Jacques Bouveresse)
3. The reproducible thus ends up appearing as an essential criterion of truth: \(reproducible \rightarrow truth \)
In reality the search for truth is not even a goal of science, which swears only by the reproducible. And to bring science and truth closer together is very reductive (for the concept of truth). It can be said that the metaphysical trace of science holds in the de-cision of the symmetry (i.e. its breaking):
$$ truth \rightarrow reproducible \Vdash truth \vdash reproducible "$$
Suppose now that X reads Heiddeger, in particular this passage from 'Introduction to metaphysik' [translation Fried and Polt]:
"For it cannot be decided so readily whether logic and its fundamental rules can provide any measure for the question about beings as such. It could be the other way around, that the whole logic that we know and that we treat like a gift from heaven is grounded in a very definite answer to the question about beings, and that consequently any thinking that simply follows the laws of thought of established logic is intrinsically incapable of even beginning to understand the question about beings, much less of actually unfolding it and leading it toward an answer. In truth, it is only an illusion of rigor and scientificity when one appeals to the principle of contradiction, and to logic in general, in order to prove that all thinking and talk about Nothing is contradictory and therefore senseless."

If X has the following representations on Heidegger:
\(truth \rightarrow question \, about \, beings \)
\(Logik \rightarrow science \)
\(science \vdash philosophy / poetry \)
and link his concept of reproducibility to Heidegger's Gestell (essence of technique / science)
\( Heidegger.science/Gestell \rightarrow X.reproducible \)
And if X retains his view that \(science \rightarrow reproducible \), it seems possible that he enriches his representation with:
\begin{array}{r c l}
truth \rightarrow reproducible & \Vdash & truth \vdash reproducible \\
 & \Rrightarrow & \\
science & \Vdash & philosophy / poetry
\end{array}
The relative link between Heidegger concept of philosophy / poetry and X's concept of reproducibility is not necessarily a view of Heidegger, so that this link is a creative -and subjective-one (which may be ultimately true or not [or 'interesting' or not]). (We may note that if poetry is talking about Nothing (last sentence of the text above), it might appear plausible that poetry is not X.reproducible...)

Let us suppose finally that X reads Stuart Kauffman, in particular 'Investigations' and 'Humanity in a creative world'.
If X admits that his concept of \( reproducible \vdash noreproducible \) (as part of the subjective 'ecosystem' of X's thought) is close to Kauffman's \( ergodic \vdash noergodic \) $$reproducible \rightarrow ergodic$$ and if X represents core Kauffman's idea as : \( noergodic \vdash ergodic \Rightarrow physics \vdash biology / complex \)
then X can further enriched his concept of reproducibility:
\begin{array}{r c l}
noergodic \vdash ergodic & \Rightarrow & physics \vdash biology / complex \\
 & \Rrightarrow & \\
noreproducible \vdash reproducible & \Rightarrow & physics \vdash biology / complex \\
\end{array}

So that X's concept of reproducibility allows X to create a link between his 'Heidegger's (thought) ecosystem' and his 'Kauffman's (thought) ecosystem' :
\begin{array}{r c l}
Heidegger & \Rrightarrow & Kauffman \\
 & \rightarrow_4 & \\
norepro \vdash repro \Rightarrow philo \vdash science & \Rrightarrow & noergodic \vdash ergodic \Rightarrow bio/ complex \vdash physics
\end{array}
Obviously all X morphisms presented above are debatable. But the purpose of this example is to sketch a plausible (necessarily subjective) learning experience. The question is less to ask the objective reality of \( P = [Heidegger.science/Gestell \rightarrow X.reproducible] \) or \( P' = [reproducible \rightarrow ergodic] \) than to help X to be creative. Specifically, could it be possible to (automatically) suggest \( P \) to X ? \( P \) contribute to make X build a bridge between (his) Heidegger and (his) Kauffman through is repro concept : could this drive an Assistant algorithm to suggest \( P \) (and \( P' \) and so on) to X ?
Its not too much difficult to trace the path
\( Bergson \leadsto Whitehead \leadsto Wittgenstein \leadsto Kauffman  \)
as Kauffman give (verly light) mention of Whitehead, and then if you google \( Whitehead \circ Kauffman \) you get
\( Whitehead \circ Kauffman \leadsto Shaviro \)
and Prof. Shaviro site give typically more plausible '\( \leadsto \)' genealogy as above (Bergson...)
But maybe X would have more interest in a (hidden) \( Heidegger \leadsto Kauffman  \) story ?

Wednesday, 22 March 2017

Learning Fallacy II

In 'Learning Fallacy' LF we began the reflexion on the model / data duality :
a. what kind of data are relevant for my problem - i.e. am I not typically biased towards over-reducing/localising the problem ?
b. how much specific is my model - that is am I not typically biased towards overfiting, i.e. under-symmetrising my model ?

We call the corresponding heuristic :
a. Data Expansion
b. Large Symmetry

The data expansion heuristic is not a more-data-is-better tale. Here we are talking of perspective on 'reality' [recall that your reality is a work-in-progress...] : what kind of implicit (over-simplifying) hypothesis am I doing by leaving seemingly not relevant data ?

Ex a : We already mentioned the RFIM hypothesis on Finance, which precisely is considered to be relevant more broadly for social domain.
The transdisciplinary (or not) paradigm is one manifestation of the Data Expansion problem : a typical example is given in 'Natural language / neuro economics II'.

Ex b : recall the paradoxical behavior of Markowitz in FL : the Portfolio theoretician adopts a fully symmetrised approach for his skin-in-the-game private financial strategy...
'Learning as categorification IV' propose simple examples where symmetries are explicitly declared the essential part of the problem.

Saturday, 11 March 2017

Natural language / neuro economics II


we had a first round over NL in the post NL / neuro economics [NLNE]. Curiously, at that time our (rapid) web foraging missed the important "faculty of language" Hauser et al. 2002 paper [FL]. We will go further in the subject with the 2016 Hauser Watumull 'UGF' and 2014 'On recusion' papers.
FL is interesting for us for two reasons :
a. it links to Learning Fallacy II [LF]
b. it links with NLNE and A Conceptual Representation CR


FL has a clear comparative approach, and its semantics fields builds on the Data Expandion DE  Large Symmetry LS tradeoff of LF :  'compar' : 39, 'analog' : 10, 'homolog' 12, specif : 18, uniq : 30.
$$FL \rightarrow Data \,Expansion / Large \, Symmetry$$
In detail :

a. "We hypothesize that FLN only includes recursion and is the only uniquely human component of the faculty of language".
$$FL.animals \rightarrow DE $$"Although scholars interested in language evolution have often ignored comparative data altogether or focused narrowly on data from nonhuman primates, current thinking in neuroscience, molecular biology, and developmental biology indicates that many aspects of neural and developmental function are highly conserved, encouraging the extension of the comparative method to all vertebrates (and perhaps beyond) ."
"Although this line of reasoning may appear obvious, it is surprisingly common for a trait to be held up as uniquely human before any appropriate comparative data are available."

b. "We further argue that FLN may have evolved for reasons other than language, hence comparative studies might look for evidence of such computations outside of the domain of communication (for example, number, navigation, and social relations)."
"We consider the possibility that certain specific aspects of the faculty of language are “spandrels”—by-products of preexisting constraints rather than end products of a history of natural selection (39). This possibility, which opens the door to other empirical lines of inquiry, is perfectly compatible with our firm support of the adaptationist program. Indeed, it follows directly from the foundational notion that adaptation is an “onerous concept” to be invoked only when alternative explanations fail."$$FL.(bio)functions \rightarrow LS$$ in more detail:
$$communication, number, navigation, social \, relations \rightarrow FLN \\  \Rightarrow universal \, constraint \,(computational \, and \, biological) \\ \Rrightarrow LS $$ (it should be read recursively : \( [[x \rightarrow y] \Rightarrow z] \Rrightarrow u \)
This reasoning line dwells on the computational perspective of our NLNE: the problem of NL is a computational one, then a simplicity / creativity one, so essentially - as much as we learnt from Nature eons trial and error 'foraging', recursion is 'nearly optimal'. FL makes clear reference to the Minimalist program : "Recent work on FLN (4, 41–43) suggests the possibility that at least the narrow-syntactic component satisfies conditions of highly efficient computation to an extent previously unsuspected."
$$FL \rightarrow recursion$$
As already mentioned in NLNE, First Order Logic expressiveness is not enough, your need more 'deepness'. The 2-Cat concept in category theory is not proper neither for a conceptual representation, and CR is a tentative trial to a general Creative Assistant.