📈

Le Laboratoire DataSignals

L'IA et la Data, un Cas d'Usage Concret

🔬Pourquoi DataSignals

DataSignals est la mise en œuvre d'un projet de recherche personnel associé à une triple interrogation :

Vibe Coding :

Sans aucun background informatique mais avec une bonne culture tech, est-il possible de développer une plateforme ambitieuse avec une grosse base de données en mode vibe coding ? Et si oui, quelles en sont les conséquences en termes de dette technique et de sécurité ?

Open Data :

Depuis de nombreuses années maintenant, les données financières publiques des entreprises sont disponibles en open data. Que fait-on de cette masse de données, est-elle utilisable pour faire des analyses à des fins de comparaison territoriale et inter-entreprises ?

Apport réel de l'IA :

Depuis le lancement de ChatGPT fin 2022, on entend et on lit un peu tout et son contraire, mais quelle est la réalité lorsqu'il s'agit de le confronter à un cas concret ? Existe-t-il de réels gains de productivité potentiels ? Les résultats issus des requêtes envoyées à ces LLM sont-ils vraiment pertinents ou cela ne fait-il que donner l'illusion de l'intelligence générant in fine perte de temps et de valeur ?

📊Le Traitement des Données DataSignals

📥 Données Importées

  • Base SIRENE complète des entreprises françaises : près de 25,5M d'établissements
  • Ratios Financiers (BCE / INPI) : 5,27M d'entreprises
  • Données financières détaillées des entreprises (bilan & Résultat) : en cours d'implémentation

⚙️ Données Calculées

  • Les 13 indicateurs qui servent de références sont issus des Ratios Financiers (BCE / INPI) : lorsqu'un filtre est réalisé par ville et par secteur et par année, la taille de l'échantillon est parfois trop faible pour que l'indicateur puisse être représentatif d'une réalité locale. À défaut, j'ai fait le choix d'opter pour des valeurs comparatives établies en médiane avec seuil d'exclusion de valeurs anormales.
  • ⚠️ Bien regarder la taille de l'échantillon pour lui accorder une valeur
  • 517K entreprises avec indicateurs calculés
  • Toutes les valeurs sont des valeurs calculées, aucune n'est inventée, il s'agit toutes de requêtes SQL. Je peux toutefois avoir fait une erreur dans la requête, l'audit de toutes les requêtes est en cours.
  • Les données non importées (INSEE, INPI, data.gouv, Pappers) font l'objet de requêtes API, il s'agit donc là aussi de données calculées et non de données retranscrites par l'IA.

🤖Analyses

Il y a deux niveaux d'analyse :

Analyse Simple :

Les analyses simples sur les ratios et les SWOT sont établies à base de fonctions Python et observent des comportements normés sans intervention IA.

Analyse Complexe - Rapport Bloomberg IA :

Comme son nom l'indique, ces analyses sont réalisées suite à des appels API à Gemini et sont donc réalisées par l'IA sur la base des intrants (les indicateurs financiers hérités de la sélection) fournis dans le prompt de chaque agent en charge de réaliser l'analyse.

→ Ces analyses sont donc sujettes à étude afin d'en vérifier la pertinence. C'est tout l'objet de ce projet : Qualifier la production de l'IA.

🧪 DataSignals est donc un laboratoire, sa vocation n'est donc pas d'établir des diagnostics comme une vérité mais au contraire d'offrir un diagnostic critiquable et à critiquer pour confronter les modèles et enrichir les données.

🚀À Venir

• Intégration des données financières détaillées des entreprises (bilan & Résultat)
• Analyse tendancielle
• Intégration des données financières des collectivités
• Intégration d'un forum communautaire

Prêt à Explorer ?

Testez nos analyses et participez à l'amélioration continue du laboratoire

Menu Navigation

DataSignals - Analyse Territoriale

Connectez-vous pour accéder à votre profil

📊

DataSignals

Version 1.0.0-beta

Intelligence économique au service des territoires et des entreprises