Voici une explication technique du “world model” structuré de Kosmos (Edison Scientific) — la brique qui lui permet de conserver le fil d’un programme de recherche sur centaines d’actions, au‑delà d’une simple fenêtre de contexte LLM.
1) Principe général
Le world model est une mémoire de long terme, structurée et requêtable, que Kosmos maintient tout au long d’un run. Il capture et relie ce que les agents font et apprennent (littérature lue, code exécuté, résultats, hypothèses, questions ouvertes), afin que l’objectif de recherche reste cohérent malgré la diversité et la durée des tâches (jusqu’à ~200 rollouts sur ~12 heures). Contrairement à une fenêtre de contexte brute, ce modèle est structuré (schéma, entrées typées) et interrogeable, de sorte que les informations des premières étapes restent accessibles et réutilisables après des dizaines de milliers de tokens. [deepmind.google], [taylorfrancis.com]
2) Schéma et contenus
Concrètement, le world model est décrit comme une base de :
Entités (gènes, protéines, composés, cohortes, phénotypes, matériaux, etc.),
Relations (interactions, causalités supposées, liens bibliographiques),
Résultats expérimentaux (sorties de notebooks, statistiques, figures),
Tâches accomplies et à venir,
Ouvertures (questions non résolues, pistes d’hypothèses),
Provenances (citations vers la littérature primaire et/ou cellules de code).\ Chaque insertion est typée et vient avec métadonnées, ce qui permet à Kosmos d’y écrire les outputs d’agents et d’y lire ce qui est pertinent pour planifier la suite. [deepmind.google], [taylorfrancis.com]
3) Cycle écrire → lire → réviser (agents)
À chaque cycle, Kosmos propose jusqu’à ~10 tâches en fonction de l’objectif et de l’état courant du world model. Les deux agents principaux :
Literature search agent (récupère, lit, extrait et cite),
Data analysis agent (écrit du code, l’exécute, résume les sorties).
Chaque agent écrit dans le world model un artefact structuré (résultat, assertion, relation, piste), avec provenance (passage bibliographique précis ou cellule notebook). Le plan est alors révisé à partir de ce graphe enrichi pour le cycle suivant, ce qui ferme la boucle et garantit un chemin de raisonnement cumulatif. [taylorfrancis.com], [amazon.com]
4) Requêtes et synthèse finale
Une fois qu’assez de matière est accumulée, un composant de synthèse parcourt le world model et émet un rapport scientifique : chaque énoncé est lié soit à une cellule Jupyter (code+sortie), soit à un passage de la littérature primaire (traceability by design). Le world model sert donc de source unique de vérité pour requêter “Quelles preuves étayent X ?” ou “Quel code produit Y ?”, et pour composer un récit scientifique auditable. [taylorfrancis.com], [deepmind.google]
5) Pourquoi c’est le cœur de la cohérence de Kosmos
Edison insiste sur le fait que la limite des anciens “AI scientists” était la perte de cohérence au‑delà d’un petit nombre d’actions (fenêtre de contexte finie). Dans Kosmos, le world model permet de maintenir une ligne d’enquête sur des millions de tokens, en cumulant les informations extraites au fil de centaines de trajectoires d’agents ; typiquement un run lit ~1 500 papiers et exécute ~42 000 lignes de code, et la cohérence est maintenue car tout est réécrit et relu via la structure commune.\ Les synthèses de presse décrivent explicitement ce modèle comme un “structured world model”/raisonnement structuré (vs. simple chat), conçu pour des workloads de recherche profonds. [amazon.com], [deepmind.google] [youtube.com], [taylorfrancis.com]
6) Provenance et auditabilité
Le design impose que chaque phrase du rapport final pointe vers la littérature primaire ou vers une cellule notebook (code + sortie). C’est une différence majeure avec les systèmes “boîte noire” : on peut auditer une assertion et remonter soit au papier exact (page/paragraphe), soit à la ligne de code qui l’a produite. Les évaluations externes rapportent ~79,4 % d’exactitude globale des énoncés, avec des taux plus élevés côté données et littérature, et plus bas côté synthèse (où le système combine des pièces de preuve). [taylorfrancis.com], [en.wikipedia.org]
7) Exemple (schéma JSON) d’un enregistrement du world model
Ce bloc illustre la structure typique décrite par Kosmos : entité → assertion → provenance (code / littérature). Ce n’est pas le schéma officiel, mais un exemple plausible conforme aux descriptions publiques.
{
"entity": {
"type": "protein",
"id": "SOD2",
"name": "Superoxide Dismutase 2"
},
"assertion": {
"type": "causaleffect",
"statement": "Elevated circulating SOD2 levels are causally associated with reduced myocardial fibrosis.",
"confidence": 0.78,
"support": [
{
"kind": "dataresult",
"notebookcellid": "nb://run17/cell142",
"metric": "IVW MR beta",
"value": -0.21,
"pvalue": 0.004
},
{
"kind": "literature",
"sourceid": "doi:10.XXXX/primary.study",
"passage": "Methods §MR: SOD2 instrument selection and fibrosis endpoint"
}
],
"openquestions": [
"Replication in non-ischemic cardiomyopathy cohorts?",
"Dose-response versus threshold effect?"
]
},
"relations": [
{"from": "SOD2", "to": "fibrosis", "type": "protectiveeffect"}
],
"timestamps": {
"createdat": "2025-11-06T02:15: "createdat": "2025-11-06T02:15:00Z",
"updated_at": "2025-11-06T06:40:00Z"
}
Dans Kosmos, de tels enregistrements sont écrits/actualisés à chaque cycle, puis requêtés par la composante de synthèse pour produire le rapport final liant statement → preuve. [deepmind.google], [amazon.com]
8) Conseils d’usage (pour tirer parti du world model)
Formuler clairement l’objectif (open‑ended mais précis) et fournir un dataset initial : Kosmos utilise ces deux éléments comme semence du world model. [deepmind.google]
Normaliser le vocabulaire (ontologie/gene‑symbols/material terms) pour éviter les doublons d’entités et améliorer la recherche/planification. [taylorfrancis.com], [youtube.com]
Exiger la provenance pour toute assertion ; c’est natif, mais c’est aussi votre critère d’acceptation (ne pas valider d’affirmation sans lien code/littérature). [taylorfrancis.com]
9) Limites et points de vigilance
La synthèse multi‑preuves reste l’étape la plus délicate (≈57,9 % d’exactitude), car elle combine plusieurs sources ; prévoir revue humaine et réplication. [taylorfrancis.com], [en.wikipedia.org]
Risque de pistes spurieuses si le world model agrège des signaux faibles ; d’où l’intérêt de garde‑fous (seuils statistiques, pénalités sur p‑hacking, priorisation d’études de meilleure qualité). [en.wikipedia.org], [taylorfrancis.com]
Nécessité d’ontologies et d’ID normalisés (gènes, variants, matériaux) pour éviter la dérive sémantique sur cycles longs. [taylorfrancis.com], [youtube.com]
10) Ce qui le distingue d’un simple knowledge graph ou d’un notebook
Le world model de Kosmos ressemble à un KG scientifique mais il est opérationnel :
Il est alimenté en continu par des agents (code & lecture), pas un import statique ;
Il oriente la planification (proposition de tâches) et la synthèse, pas seulement la recherche d’informations ;
Il impose la provenance exécutable (cellules de code) autant que bibliographique, ce qu’un KG classique n’offre pas par défaut. [deepmind.google], [youtube.com]
*
Références utiles
Paper arXiv (04–05 nov. 2025) : “Kosmos: An AI Scientist for Autonomous Discovery” (architecture, world model, métriques). [deepmind.google]
Annonce Edison Scientific (05 nov. 2025) & plateforme (modules, cas R\&D). [amazon.com], [gomagic.org]
Analyses média (MarkTechPost, Digit, New Scientist) — chiffres et comparaisons. [taylorfrancis.com], [youtube.com], [en.wikipedia.org]
Si tu veux, je peux te modéliser un petit world model de démo (JSON/YAML) pour ton domaine (ex. cardio‑métabolique) et te montrer comment un agent d’analyse viendrait l’enrichir en 2–3 cycles (avec un notebook “proxy”).
No comments:
Post a Comment