-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathout.txt
1096 lines (1096 loc) · 906 KB
/
out.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
Cette plateforme a pour objectif de permettre aux citoyens d'analyserpar eux-mêmes les tweets politiques lors d'événements spécifiques en France.Pour le cas de l'élection présidentielle de 2017, #Idéo2017 analysait en quasitemps réel les messages des candidats, et fournissait leurs principales caractéristiques,l'usage du lexique politique et des comparaisons entre les candidats.
La classification croisée (co-clustering) est une technique qui permet d'extraire la structuresous-jacente existante entre les lignes et les colonnes d'une table de données sous forme de blocs. Plusieurs applications utilisent cette technique, cependant de nombreux algorithmes de co-clustering actuels ne passent pas à l'échelle. Une des approches utilisées avec succès est la méthode MODL, qui optimise un critère de vraisemblance régularisée. Cependent, pour des tailles plus importante, cette méthode atteint sa limite. Dans cet article, nous présentons un nouvel algorithme de co-clustering à deux niveaux, qui compte tenu du critère MODL permet de traiter efficacement de données de très grande taille, ne pouvant pas tenir en mémoire. Nos expériences montrent que l'approche proposée gagne en temps de calcul tout en produisant des solutions de qualité.
La recommandation de points d'intérêts est devenue une caractéristiqueessentielle des réseaux sociaux géo-localisés qui a accompagnél'émergence des échanges massifs de données digitales. Cependantles faibles densités de points d'intérêts visités par les utilisateurs rendentle problème difficile à traiter, d'autant plus que les espaces de mobilitédes utilisateurs sont très hétérogènes, allant de la ville au monde entier.Dans ce papier nous explorons l'impact d'une approche de clusteringspatial sur la qualité de la recommandation. Notre approche est baséesur un modèle de factorisation de matrices de Poisson et un réseau socialinféré des différents comportements de mobilité. Nous avons conduitune évaluation comparative des performances de notre approche sur unjeu de données réaliste. Les résultats expérimentaux montrent que notreapproche permet une précision supérieure aux techniques de recommandationalternatives.
L'analyse des sentiments est un processus pendant lequel la polarité(positive, négative ou neutre) d'un texte donné est déterminée. Nous nous intéressonsdans ce travail à l'analyse des sentiments à partir des commentairesFacebook, réels, partagés en arabe standard ou dialectal marocain par une approchebasée sur l'apprentissage automatique. Ce processus commence par lacollecte des commentaires et leur annotation à l'aide du crowdsourcing suivid'une phase de prétraitement du texte afin d'extraire des mots arabes réduits àleur racine. Ces mots vont être utilisés pour la construction des variables d'entréeen utilisant plusieurs combinaisons de schémas d'extraction et de pondération.Pour réduire la dimensionnalité, une méthode de sélection de variables est appliquée.Les résultats obtenus des expérimentations sont très prometteurs.
Cet article présente une approche visant à extraire les informations expriméesdans un corpus de textes et en produire un résumé. Plusieurs variantes deméthodes extractives de résumé de texte ont été implémentées et évaluées. Leurprincipale originalité réside dans l'exploitation de structures appelées CDS (pourClause Description Structure) issues d'un composant d'annotation en rôles sémantiqueset non directement des phrases composant les textes. Le résumé obtenuest un sous-ensemble des CDS issus du corpus d'origine ; ce format permettradans la suite la détection d'incohérences textuelles. Dans ce travail, nous retransformonsles CDS résumés en texte pour permettre la comparaison de notreapproche avec celles de la littérature. Les premiers résultats sont très encourageants: les variantes que nous proposons obtiennent généralement de meilleursscores que des implémentations de méthodes de référence.
Avec plus de 800 000 décès par an dans le monde, le suicide est latroisième cause de décès évitable. Il y a 20 fois plus de tentatives, impliquant denombreuses hospitalisations, des coûts humains et sociétaux énormes. Ces dernièresannées, les modalités de collecte de données, sociologiques et cliniques,concernant les patients reçus en consultation après une tentative, ont connu deprofonds changements liés aux outils numériques. Nous présentons les principauxrésultats d'un processus complet de fouille de données sur un échantillonde suicidants de deux hôpitaux européens. Le premier objectif est d'identifierdes groupes de patients similaires et le second d'identifier des facteurs de risqueassociés au nombre de tentatives. Des méthodes non supervisées (ACM et clustering)et supervisées (arbres de régression) sont appliquées pour y répondre.Les résultats mettent en lumière l'apport de la fouille de données à des fins descriptivesou explicatives.
Dans le cadre du clustering prédictif, pour attribuer la classe aux groupesformés à la fin de la phase d'apprentissage, le vote majoritaire est la méthodecommunément utilisée. Cependant, cette approche comporte certaines limitationsqui influent directement sur la qualité des résultats obtenus en termes deprédiction. Pour surmonter ce problème, nous proposons d'incorporer des modèlesprédictifs localement dans les clusters formés afin d'améliorer la qualitéprédictive du modèle global. Les résultats expérimentaux montrent que cette incorporationpermet d'obtenir des résultats (en termes de prédiction) significativementmeilleurs par rapport à ceux obtenus en utilisant le vote majoritaire ainsique des résultats très compétitifs avec ceux obtenus par des algorithmes performantsd'apprentissage supervisé “similaires”. Ceci est effectué sans dégrader lepouvoir descriptif (explicatif) du modèle global.
En classification multi-labels, chaque instance est associée àun ou plusieurs labels. Par exemple, un morceau de musique peut êtreassocié aux labels 'heureux' et 'relaxant'. Des relations de co-occurrencepeuvent exister entre les labels : par exemple, les labels 'heureux' et 'triste'ne peuvent pas être associés au même morceau de musique. Les labelspeuvent aussi avoir des relations de préférence : par exemple, pour un morceaude musique contenant plusieurs piques, le label 'heureux' est préférépar rapport au label 'relaxant'. Les relations entre les labels peuvent aiderà mieux prédire les labels associés aux instances. Les approches existantespeuvent apprendre soit les relations de co-occurrence, soit les relationsde préférence. Ce travail introduit une approche permettant de combinerl'apprentissage des deux types de relations. Les expérimentations menéesmontrent que la nouvelle approche introduite offre les meilleurs résultatsde prédiction par rapports à cinq approches de l'état de l'art.
Les tests A/B sont des procédures utilisées par les entreprises du webet de la santé entre autres, pour mesurer l'impact d'un changement de versiond'une variable par rapport à un objectif. Bien qu'un nombre de plus en plusimportant de données soit disponible, la mise en place concrète d'un tel testpeut impliquer un coût important relatif à l'observation et à l'évaluation d'unevariation lorsque celle-ci n'est pas optimale.Dans ce papier, nous présentons une nouvelle approche intégrant le principed'un bandit contextuel prenant en compte ces variables via une procédure destratification.
Le Clustering Collaboratif (CC) vise à faire ressortir les structurescommunes présentes dans plusieurs vues indépendantes en se basant sur unepremière étape de clustering locale, effectuée dans notre cas à l'aide de CartesAuto-Organisatrices (SOM pour Self Organizing Maps en anglais). Pour faireface à la quantité toujours croissante de données disponibles, l'utilisation de méthodesde clustering incrémentales est devenue nécessaire. Ce papier présente unalgorithme de SOM incrémentales compatibles avec les contraintes du CC. Lesexpérimentations conduites sur plusieurs jeux de données démontrent la validitéde cette méthode et présentent l'influence de la taille du batch utilisé lors del'apprentissage.
La plupart des méthodes de classification sont conçues pour des types particuliers de données: données numériques, textuelles, catégoriques, fonctionnelles, probabilistes ou encore de type graphes. Cependant, les données générées dans notre quotidien sont en général composées de données de types mixtes. Par exemple, si nous considérons la prévention cardiaque dans le domaine de la santé, les applications vont combiner des données issues de capteurs avec d'autres données telles que l'âge, le niveau d'effort, la fréquence cardiaque maximale, des histogrammes de fréquences cardiaques moyennes lors de précédents efforts, etc. Ceci nous amène à la problématique de construire des classes en tenant compte de ces différentes données, et de définir une mesure de similarité à partir des similarités de paires d'objets sur les différents types de variables. Dans cet article nous proposons une méthode de classification basée sur la fusion des matrices de similarité à l'aide des moyennes quasi-arithmétiques qui permet de choisir les différentes “dimensions” des données à considérer, et ce quel que soit le type de données, pour autant qu'une mesure, de similarité ou de dissimilarité existe pour chacun des types de données, ce qui est très souvent le cas.
Définir l'importance des noeuds dans les réseaux statiques est unequestion de recherche très étudiée depuis de nombreuses années. Dernièrement,des adaptations des métriques classiques ont été proposées pour les réseaux dynamiques.Ces méthodes reposent sur des approches très différentes dans leurfaçon d'évaluer l'importance des noeuds à un instant donné. Il est donc nécessairede pouvoir les évaluer et les comparer. Dans cet article, nous comparonstrois approches existes pour mieux comprendre ce qui les différencie. Nous montronsque la nature des jeux de données influe grandement sur le comportementdes méthodes, et que pour certains d'entre eux, la notion d'importance n'est pastoujours pertinente.
La tâche de similarité sémantique textuelle consiste à exprimer automatiquementun nombre reflétant la similarité sémantique de deux fragmentsde texte. Chaque année depuis 2012, les campagnes de SemEval déroulent cettetâche de similarité sémantique textuelle. Cet article présente une méthode associantdifférentes représentations vectorielles de phrases dans l'objectif d'améliorerles résultats obtenus en similarité sémantique. Notre hypothèse est que différentesreprésentations permettraient de représenter différents aspects sémantiques,et par extension, d'améliorer les similarités calculées, la principale difficultéétant de sélectionner les représentations les plus complémentaires pourcette tâche. Notre système se base sur le système vainqueur de la campagne de2015 ainsi que sur notre méthode de sélection par complémentarité. Les résultatsobtenus viennent confirmer l'intérêt de cette méthode lorsqu'ils sont comparésaux résultats de la campagne de 2016.
L'émergence de l'IoT et du traitement en temps-réel oblige les entreprises à considérer la détection d'anomalies comme un élément clé de leur activité. Afin de garantir une haute précision dans le processus de détection, des métadonnées fournissant un contexte spatio-temporel sur les mesures des capteurs sont nécessaires. Dans cet article, nous présentons un système générique qui aide à capturer, analyser, qualifier et stocker les informations contextuelles d'un domaine d'application donné. L'approche proposée est basée sur des méthodes sémantiques qui exploitent des ontologies pour évaluer la pertinence de l'information contextuelle. Après une description des composants principaux de l'architecture, la performance et la pertinence du système sont démontrées par une évaluation sur des ensembles de données du monde réel.
L'article définit les contraintes prescriptives comme des règles permettant aux moteurs d'inférence de vérifier que certains objets formels sont réellement utilisés – pas seulement inférés – ou non, dans certaines conditions. Il montre que ces contraintes nécessitent de ne pas exploiter de mécanisme d'héritage (ou autres mécanismes ajoutant des relations à des objets) durant les tests des conclusions des règles. Il donne une méthode générale pour effectuer cela et des commandes SPARQL pour implémenter cette méthode lorsque les règles sont représentées via des relations sous-classe-de entre conditions et conclusions. L'article illustre ces commandes avec la vérification de patrons de conception d'ontologies. Plus généralement, l'approche peut être utilisée pour vérifier la complétude d'une ontologie, ou représenter dans une ontologie (plutôt que par des requêtes ou des procédures ad hoc) des contraintes permettant de calculer un degré de complétude d'ontologie. L'approche peut ainsi aider l'élicitation, la modélisation ou la validation de connaissances.
Nous nous intéressons aux treillis distributifs dans le cadre de l'analyse formelle de concepts (FCA). La motivation primitive vient de la phylogénie et des graphes médians pour représenter les dérivations biologiques et les arbres parcimonieux. La FCA propose des algorithmes efficaces de construction de treillis de concepts. Cependant, un treillis de concepts n'est pas en correspondance avec un graphe médian sauf s'il est distributif, d'où l'idée d'étudier la transformation d'un treillis de concepts en un treillis distributif. Pour ce faire, nous nous appuyons sur le théorème de représentation de Birkhoff qui nous permet de systématiser la transformation d'un contexte quelconque en un contexte de treillis de concepts distributif. Ainsi, nous pouvons bénéficier de l'algorithmique de FCA pour construire mais aussi visualiser les treillis de concepts distributifs, et enfin étudier les graphes médians associés.
Les données séquentielles sont aujourd'hui omniprésentes etconcernent divers domaines d'application. La fouille de données de séquencespermet d'extraire des informations et des connaissances pouvant être à forte valeurajoutée. Cependant, lorsque les données de séquences sont riches en donnéesnumériques, des méthodes de fouille de données plus fines sont nécessairespour extraire des connaissances plus expressives représentant la variabilité desvaleurs numériques ainsi que leur éventuelle interdépendance. Dans cet article,nous présentons une nouvelle méthode de découverte de séquences graduellesfréquentes représentées par des graphes à partir d'une source de données de séquencesen RDF (Resource Description Framework 1). Ces dernières sont transforméesen graphes graduels partiellement ordonnés, gpo. Nous proposons unalgorithme permettant de découvrir les sous-graphes gpo fréquents. Une expérimentationsur deux jeux de données réelles ont montré la faisabilité et la pertinencede notre approche.
DBpédia, qui encode les connaissances de Wikipédia, est devenue unebase de référence pour le web des données. Les ressources peuvent y être répertoriéespar des catégories définies manuellement, dont la sémantique n'est pasdirectement accessible par des machines. Dans cet article, nous proposons deremédier à cette lacune au moyen de méthodes de fouille de données, à savoirla recherche de règles d'associations et de motifs apparentés. Nous présentonsune étude comparative de ces variantes sur une partie de DBpédia et discutonsle potentiel des différentes approches.
L'échantillonnage de motifs est une méthode non-exhaustive pour découvrir des motifs pertinents qui assure une bonne interactivité tout en offrant des garanties statistiques fortes grâce à sa nature aléatoire. Curieusement, une telle approche explorée pour les motifs ensemblistes et les sous-graphes ne l'a pas encore été pour les données séquentielles. Dans cet article, nous proposons la première méthode d'échantillonnage de motifs séquentiels. Outre le passage aux séquences, l'originalité de notre approche est d'introduire une contrainte sur la norme pour maîtriser la longueur des motifs tirés et éviter l'écueil de la « longue traîne ». Nous démontrons que notre méthode fondée sur une procédure aléatoire en deux étapes effectue un tirage exact. Malgré le recours à un échantillonnage avec rejet, les expérimentations montrent qu'elle reste performante.
Ce poster rend compte d'une entreprise d'élaboration d'un système de représentation des connaissances pour le domaine géotechnique.
Un lien inter-langue dans Wikipédia est un lien qui mène d'un articleappartenant à une édition linguistique à un autre article décrivant le mêmeconcept dans une autre langue. Ces liens sont ajoutés manuellement par les utilisateursdeWikipédia et ainsi ils sont susceptibles d'être erronés. Dans ce papier,nous proposons une approche pour l'élimination automatique des liens interlangues.Le principe de base est que la présence d'un lien erroné est révélée parl'existence d'un chemin de liens inter-langues reliant deux articles appartenant àune même édition linguistique. Notre approche élimine des liens inter-langues,à partir de ceux qui ont un faible score de correction, jusqu'à ce qu'il n'y aitplus de chemins entre deux articles d'une même édition linguistique. Les résultatsde notre évaluation sur un sous-graphe deWikipédia consistant en 8 languesmontre que l'approche est prometteuse.
Dans cet article, nous présentons une méthode d'analyse de corpusafin de générer deux interfaces originales de visualisation dans le domaine del'e-recrutement. Notre approche s'appuie sur des millions de profils issus deplusieurs réseaux sociaux et sur des milliers d'offres d'emploi collectées surInternet. Nous décrivons dans ces travaux les étapes nécessaires pour leur réalisation.La première visualisation est une carte dynamique indiquant les métiersqui recrutent, dans quel domaine, dans quelle région tandis que la seconde meten avant les parcours professionnels et permet d'observer les perspectives ainsique les antécédents à plus ou moins long terme pour chaque métier considéré.
Dans les corpus de textes scientifiques, certains articles issus de communautésde chercheurs différentes peuvent ne pas être décrits par les mêmesmots-clés alors qu'ils partagent la même thématique. Ce phénomène cause desproblèmes dans la recherche d'information, ces articles étant mal indexés, etlimite les échanges potentiellement fructueux entre disciplines scientifiques.Notre modèle permet d'attribuer automatiquement une étiquette thématique auxarticles au moyen d'un apprentissage des représentations sémantiques d'articlesdu corpus déjà étiquetés. Passant bien à l'échelle, cette méthode a pu être testéesur une bibliothèque numérique d'articles scientifiques comportant des millionsde documents. Nous utilisons un réseau sémantique de synonymes pour extrairedavantage d'articles sémantiquement similaires et nous les fusionnons avec ceuxobtenus par un modèle de classement thématique. Cette méthode combinée présentede meilleurs taux de rappel que les versions utilisant soit le réseau sémantiqueseul, soit la seule représentation sémantique des textes.
Cet article présente les investigations menées sur les donnéesmesurées par des capteurs positionnés dans cinq villes de l'île de laRéunion. Des analyses exploratoires préalables permettent de comparer lescaractéristiques statistiques des villes considérées relativement aux différentesvariables météorologiques mesurées (flux solaires diffus et global, pressionatmosphérique, humidité, température, force et direction du vent). Nousappliquons diverses transformations sur les données avant d'analyser les sériesunivariées ou multivariées agrégées au pas de l'heure ou de la journée afin deconstruire des modèles de prédiction. Une approche classique de clusteringde séries temporelles est testée. Deux algorithmes de biclustering appliquéssuccessivement ont permis de grouper les journées d'observations partageantdes paramètres météorologiques horaires. Une caractérisation des biclusters, unevisualisation calendaire de leur succession ainsi qu'une recherche de séquencesfréquentes permettent d'exploiter les résultats et de faciliter leur interprétation.
Sur Internet, l'information se propage en particulier au travers des documentstextuels. Cette propagation soulève de nombreux défis : identifier uneinformation, suivre son évolution dans le temps, comprendre les mécanismes quirégissent sa propagation, etc. Étant donné un document parmi un grand corpusdans lequel de nombreuses informations circulent, pouvons-nous retrouver leschemins empruntés par l'information pour arriver à ce document ? Nous proposonsde définir la notion de trajectoire comme l'ensemble des chemins le longdesquels de l'information s'est propagée et nous proposons une méthode pourl'estimer. Nous avons mis en oeuvre une évaluation humaine pour juger de laqualité des chemins calculés. Nous montrons que les évaluations concordent laplupart du temps et que notre algorithme est efficace pour retrouver les bonschemins.
Cet article propose une méthode d'analyse pour des enregistrementsopérationnels d'un ensemble de compteurs d'essieux, qui constituent un élémentcentral à l'infrastructure ferroviaire. Notre objectif est de fournir une façon efficaced'extraire automatiquement des éléments de connaissance concernant lesdéfaillances de ces systèmes.Puisque les données fournies ne contiennent pas de vérité de terrain sur lescauses de défaillances, les informations et leurs causes doivent être extraites desrelations sous-tendant les événements enregistrés. Après une phase de prétraitement,les événements sont groupés en fonction des relations qui ont été misesen lumière entre eux. Ces regroupements peuvent ensuite être utilisés pour créerdes classes d'événements en utilisant un système de classification adapté.Au delà de cette application spécifique, cette approche est une façon nouvelled'aborder les problèmes d'analyse de fiabilité.
Dans cet article nous étudions le problème de l'extraction de motifsfréquents contenant des événements positifs, des événements négatifs spécifiantl'absence d'événement ainsi que des informations temporelles sur le délai entreces événements. Nous définissons la sémantique de tels motifs et proposons laméthode NTGSP basée sur des approches de l'état de l'art. Les performancesde la méthode sont évaluées sur des données commerciales fournies par EDF(Électricité de France).
Les systèmes orientés documents permettent de stocker tout docu-ment, quel que soit leur schéma. Cette flexibilité génère une potentielle hété-rogénéité des documents qui complexifie leur interrogation car une même entitépeut être décrite selon des schémas différents. Cet article présente une approched’interrogation transparente des systèmes orientés documents. Pour cela, nousproposons de générer un dictionnaire de façon automatique lors de l’insertiondes documents, et qui associe à chaque attribut tous les chemins permettant d’yaccéder. Ce dictionnaire permet de réécrire la requête utilisateur à partir de dis-jonctions de chemins afin de retrouver tous les documents quelles que soientleurs structures. Nos expérimentations montrent des coûts d’exécution de la re-quête réécrite largement acceptables comparés au coût d’une requête sur sché-mas homogènes.
Afin d'aider les apprenants à tirer profit du MOOC (Massive OpenOnline Course) qu'ils suivent, nous proposons un outil pour recommander àchacun d'entre eux une liste ordonnée des “Apprenants leaders” capables dele soutenir durant son processus d'apprentissage. La phase de recommandationest basée sur une approche d'aide à la décision multicritère pour la prédictionpériodique des “Apprenants leaders”. Etant donnée l'hétérogénéité des profilsdes apprenants, nous recommandons à chacun d'entre eux les leaders appropriésà son profil en utilisant la distance euclidienne et le filtrage démographique.
Les systèmes de recommandation ont pour rôle d'aider les utilisateurssubmergés par la quantité d'information à faire de bons choix à partir de vastescatalogues de produits. Le déploiement de ces systèmes dans l'industrie hôtelièreest confronté à des contraintes spécifiques, limitant la performance des approchestraditionnelles. Les systèmes de recommandation d'hôtels souffrent enparticulier d'un problème de démarrage à froid continu à cause de la volatilitédes préférences des voyageurs et du changement de comportements en fonctiondu contexte. Dans cet article, nous présentons le problème de recommandationd'hôtels ainsi que ses caractéristiques distinctives. Nous proposons de nouvellesméthodes contextuelles qui prennent en compte les dimensions géographique ettemporelle ainsi que la raison du voyage, afin de générer les listes de recommandation.Nos expérimentations sur des jeux de données réels soulignent lacontribution des données contextuelles à l'amélioration de la qualité de recommandation.
L'intégration des données hétérogènes en Sciences de la Vie est unsujet de recherche majeur. L'importance et le volume considérable des informationssur les milieux de vie des microorganismes dans tous les domaines telsque la santé, l'agriculture ou l'environnement justifie le développement de traitementsautomatisés. Nous proposons ici l'ontologie OntoBiotope dont nous décrivonsles principes de construction ainsi que des exemples d'utilisation pourl'annotation et l'indexation sémantique des habitats microbiens décrits en languenaturelle dans les documents scientifiques.
Ce court article présente le design et l'utilisation d'un tableau de bordvisuel permettant d'explorer, questionner et comprendre l'évolution des communautésd'un graphe dynamique. L'exemple ayant motivé la conception et laréalisation de ce tableau de bord est celui d'un réseau d'affiliation des personnalitésprésentes dans les médias français. Le suivi de communautés s'avère utilepour cerner le biais potentiel induit de la co-présence répétée des mêmes personnalitésdans les émissions de radio et de télévision au cours du temps.
Nous présentons dans ce papier un nouvel algorithme Mean-Shift utilisantles K-plus proches voisins pour la montée du gradient (NNMS : NearestNeighbours Mean Shift). Le coût computationnel intensif de ce dernier a longtempslimité son utilisation sur des jeux de données complexes où un partitionnementen clusters non ellipsoïdaux serait bénéfique. Or, une implémentationscalable de l'algorithme ne compense pas l'augmentation du temps d'exécutionen fonction de la taille du jeu de données en raison de sa complexité quadratique.Afin de pallier, ce problème nous avons introduit le "Locality SensitiveHashing" (LSH) qui est une approximation de la recherche des K-plus prochesvoisins ainsi qu'une règle empirique pour le choix du K. La combinaison de cesaméliorations au sein du NNMS offre l'opportunité d'un traitement pertinentaux problématiques du clustering appliquée aux données massives.
La multiplicité des enquêtes d'opinion sur un même sujet nécessite la construction de synthèses qui agrègent les résultats obtenus dans des conditions indépendantes. Dans cet article, nous proposons une nouvelle approche ordinale de méta-analyse qui consiste à rechercher un ordre consensus qui rend compte « au mieux » des ordres partiels entre les modalités issus des résultats des différentes enquêtes. Nous modélisons ce problème par une variante d'une recherche d'un ordre médian sur les sommets d'un graphe orienté pondéré et nous développons un algorithme de séparation-évaluation pour le résoudre. Notre approche est appliquée sur un ensemble d'enquêtes internationales portant sur les motivations et les freins à l'intégration de l'Internet des Objets dans les entreprises.
Ce papier propose une méthode basée sur la théorie des ensembles approximatifset dédiée à l'apprentissage supervisé incrémental dans un contextede données déséquilibrées. Cette méthode consiste en trois phases : la constructiond'une table de décision, l'inférence d'un ensemble de règles de décisionet la classification de chaque action potentielle dans l'une des classes de décisionprédéfinies. La méthode MAI2P est validée dans le contexte des MOOCs(Massive Open Online Courses).
Avec l'avènement des mégadonnées, l'informatique décisionnelle adû trouver des solutions pour gérer des données de très grands volume et variété.Les lacs de données (data lakes) répondent à ces besoins du point du vuedu stockage, mais nécessitent la gestion de métadonnées adéquates pour garantirun accès efficace aux données. Sur la base d'un modèle multidimensionnelde métadonnées conçu pour un lac de données présentant un défaut d'évolutivitéde schéma, nous proposons l'utilisation d'un data vault pour traiter ceproblème. Pour montrer la faisabilité de cette approche, nous instancions notremodèle conceptuel de métadonnées en modèles logiques et physiques relationnelet orienté document. Nous comparons également les modèles physiques entermes de stockage et de temps de réponse aux requêtes sur les métadonnées.
Dans cet article, nous nous intéressons à l'optimisation du processusde recherche de clusters de liens. Nous proposons en particulier l'algorithmePALM (Stattner et al., 2017), qui vise à améliorer l'efficacité du processus d'extractionpar l'exploration conjointe de plusieurs zones de l'espace de recherche.Ainsi, nous commençons par démontrer que l'espace des solutions forme untreillis de concepts. Nous proposons ensuite une approche qui explore en parallèleles branches de ce treillis tout en réduisant l'espace de recherche en s'appuyantsur différentes propriétés. Les bonnes performances de notre algorithmesont démontrées en le comparant avec l'algorithme d'extraction d'origine.
Nous proposons un outil de recherche d'experts appliqué au mondeacadémique sur les données générées par l'entreprise DSRT dans le cadre de sonapplication Peerus 1. Un utilisateur soumet le titre, le résumé et optionnellementles auteurs et le journal de publication d'un article scientifique et se voit proposerune liste d'experts, potentiels reviewers de l'article soumis. L'algorithme derecherche est un système de votes reposant sur un modèle du langage entrainé àpartir d'un ensemble de plusieurs millions d'articles scientifiques. L'outil est accessibleà chacun sous la forme d'une application web intitulée Peerus Review 2.
Nous présentons PerForecast, un outil qui vise à automatiser le processusde planning capacitaire en utilisant des données temporelles univariéeset des modèles prédictifs configurés automatiquement. L'objectif est d'anticiperles problèmes de dimensionnement dans les infrastructures d'Orange quiassurent la délivrance d'un service aux clients. Il s'agira par exemple de prévoirau plus « tôt » la surcharge d'un serveur, afin de commander en avance de nouvellesmachines (avant la détérioration du service considéré). Les démarches dedimensionnent et d'achat étant longues et coûteuses, plus elles sont effectuéestôt, meilleure sera la qualité de service.
Cet article décrit une approche flexible pour la prédiction à courtterme de variables météorologiques. En particulier, nous nous intéressons à laprédiction du rayonnement solaire à une heure. Cette tâche est d'une grandeimportance pratique dans l'optique d'optimiser les resources énergétiques solaires.Comme le défi EGC 2018 nous fournit des données météorologiques enregistréessur cinq sites géographiques de l'île de la Réunion, nous utilisons cesdonnées historiques comme base pour créer des modèles de prédiction, et noustestons la performance de ces modèles selon le site considéré. Après avoir décritnotre méthode de nettoyage de données et de normalisation, nous combinonsune méthode de sélection de variables basée sur les modèles ARIMA (AutoRegressiveIntegrated Moving Average) à l'utilisation de méthodes de régressiongénériques, telles que les arbres de régression et les réseaux de neurones.
Dans un problème de classification supervisée, les données d'apprentissageproviennent souvent d'inventaires acquis sur le terrain par des expertsdu domaine. Toutefois, la localisation de ces inventaires est approximative (enraison de la précision intrinsèque des GPS portables utilisés). Cette imprécisionspatiale est particulièrement problématique lorsque ces données sont utiliséespour entrainer un classifieur sur des images satellitaires très haute résolution(THR). En effet, la précision spatiale des inventaires peut être dans certains casbien inférieure à celles de ces images. Dans ce papier, nous proposons trois approchesvisant à améliorer la précision spatiale des données terrain via des prétraitements.Le principe est d'exploiter les images satellitaires THR disponiblespour corriger spatialement les données terrain. Nos expérimentations mettenten avant l'intérêt de ces pré-traitements sur un jeu de données constitué de 24inventaires d'habitats coralliens et une image satellitaire THR (WorldView-2).
Le financement participatif est un mode de financement d'un projet faisant appel à un grand nombre de personnes qui a connu une forte croissance avec l'émergence d'Internet et des réseaux sociaux. Cependant plus de 60 % des projets ne sont pas financés, il est donc important de bien préparer sa campagne de financement. De plus, en cours de campagne, il est crucial d'avoir une estimation rapide de son succès afin de pouvoir réagir rapidement (restructuration, communication) : des outils de prédiction sont alors indispensables. Nous proposons dans cet article plusieurs pistes d'amélioration pour la prédiction du montant levé lors d'une campagne de financement participatif en utilisant l'algorithme k-NN. La première proposition consiste à utiliser un algorithme de clustering afin de segmenter l'ensemble d'apprentissage et faciliter le passage à l'échelle. La seconde proposition consiste à extraire des caractéristiques pertinentes depuis les séries temporelles et les informations sur les campagnes pour avoir une représentation vectorielle.
L'apprentissage automatique, pardon le « machine learning », a envahi la sphère médiatiquegrâce à des succès impressionnants comme la victoire d'une machine au Go, ou la promesse de véhicules autonomes arrivant très prochainement sur nos routes. De fait, tant l'exploitation des données massives que la production de code machine à partir de l'expérience de la machine plutôt que par des humains, met l'apprentissage automatique au coeur de l'intelligence artificielle. Très certainement cela signifie que nous savons répondre à la question « qu'est-ce qu'un bon système d'apprentissage ? » et qu'il ne nous reste plus qu'à en décliner la réponse pour obtenir des systèmes adaptés à chaque domaine applicatif. Pourtant, la réponse à cette question a profondément évolué au cours des 60 dernières années, au point que les publications sur l'apprentissage automatique d'il y a quelques décennies semblent venir d'une autre planète et ne sont d'ailleurs plus enseignés aux étudiants. Et ceci pas seulement parce que les connaissances passées seraient jugées obsolètes, mais parce qu'elles ne semblent pas pertinentes. Avons-nous donc raison ? Nos précurseurs avaient-ils tort ? Et nos successeurs nous citeront-ils dans leurs manuels ? Dans cette présentation, nous examinerons quelques moments clés de l'histoire de l'apprentissage automatique correspondant à des tournants dans la manière de considérer ce qu'est un bon système d'apprentissage. Et nous nous demanderons si nous vivons un autre moment charnière dans lequel changent notre perspective, la question que nous cherchons à résoudre dans nos recherches, les concepts manipulés et la manière d'écrire nos papiers.
Récemment, la recherche par mots-clés dans les bases de données relationnelles a suscité un intérêtgrandissant en raison de sa facilité d'utilisation. Bien que des recherches approfondies fussentdernièrement effectuées dans ce contexte, la plupart de ces recherches non seulement nécessitent unaccès préalable aux données, ce qui restreint leur applicabilité si cette condition n'est pas vérifiée,mais aussi renvoient des réponses très génériques. Cependant, fournir aux utilisateurs des réponsespersonnalisées est devenu plus que jamais nécessaire en raison de la surabondance de données quipeut déranger l'utilisateur. Le défi de retourner des réponses pertinentes et personnalisées qui satisfontles besoins des utilisateurs demeure. Inspiré par l'application réussie de la technique de filtragecollaboratif dans les systèmes de recommandation, nous proposons une nouvelle approche baséesur les mots-clés pour fournir aux utilisateurs des résultats personnalisés basés sur l'hypothèse queseulement une information sur le schéma de la base de données est disponible.
Les documents manuscrits sont parmi les témoins les plus importants de l'histoire européenne. Ces dernières années, d'importantes collections de manuscrits historiques ont été numérisées et mises à disposition du public et des chercheurs. Cependant, la richesse des informations qu'ils contiennent est encore largement inaccessible car seul les images et quelques méta-données sont disponibles. L'idéal pour les utilisateurs serait de pouvoir faire des recherches textuelles comme pour les livres imprimés modernes (https://books.google.fr/). Si les technologies d'analyse de documents historiques et de reconnaissance d'écriture manuscrite sont encore trop peu performantes pour permettre l'utilisation directe de la transcription brute, il est possible de mettre à la disposition des utilisateurs un moteur de recherche textuel basé sur une indexation automatique des images de documents manuscrits. Cette indexation se base sur une transcription automatique mais tire profit de la capacité de la machine à générer des hypothèses reconnaissance multiples et pondérées. Cette technologie a permis de rendre accessible pour la première fois à la recherchetextuelle les registres de la chancellerie royale française (1302 -1483), un des corpus de documents historiques les plus emblématiques pour la France, ouvrant ainsi la voie à de nouvelles méthodes de recherche en histoire : http://www.himanis.org/
Les modèles de classification discriminante supposent que les données de formation et dedéploiement ont les mêmes distributions d'attributs de données. Ces modèles donnent des performancestrès variées lorsqu'ils sont déployés dans des conditions variées avec différentesdistributions de données. Ce phénomène est appelé Dataset Shift. Dans cet article, nous avonsfourni une méthode qui détermine d'abord s'il y a un changement significatif dans les distributionsd'attributs entre les ensembles de données d'apprentissage et de déploiement. S'ilexiste un changement dans les données, la méthode proposée utilise ensuite une approche deHill climbing pour cartographier ce décalage, quelle que soit sa nature, c'est-à-dire (linéaireou non linéaire) à l'équation pour la transformation quadratique. Les résultats expérimentauxsur trois jeux de données réels montrent de forts gains de performance obtenus par la méthodeproposée par rapport aux méthodes précédemment établies telles que le reconditionnement etle recadrage linéaire.
La date de pose est souvent un facteur principal d'explication de la dégradationdes conduites d'assainissement. Pour les gestionnaires de ces réseaux,connaître cette information permet ainsi (par l'utilisation de modèles de détérioration)de prédire l'état de santé actuel des conduites non encore inspectées.Cette connaissance est primordiale pour prendre des décisions dans un contextede forte contrainte budgétaire. L'objectif est ainsi de reconstituer ces dates depose à partir des caractéristiques du patrimoine et de son environnement. Lesdonnées à manipuler présentent plusieurs niveaux de complexité importants.Leurs sources sont hétérogènes, leur volume est important et les informationssur leur étiquetage (dates) sont limitées : seulement 24 % du linéaire est connupour les réseaux d'assainissement de la métropole de Lyon. La base de donnéessous-jacente contient les caractéristiques connues des conduites (profil géométrique,matériau utilisé, etc.). Dans ce papier, nous proposons de mesurer l'effetet l'impact de quelques méthodes d'apprentissage statistique semi-supervisé, etde proposer ainsi une approche alternative adaptée à la reconstitution de ce typede données.
L'évaluation périodique du risque de chute des personnes âgéesrequiert des informations fiables et nombreuses. Comme il n'est pas possiblede recueillir régulièrement toutes ces informations, les observationssont faites au fil du temps et conservées, ce qui entraîne une problématiqueliée au vieillissement des informations. Cet article traite de la détectiondes informations obsolètes dans une base d'informations sur unepersonne âgée. Nous proposons une solution comportant un modèle deconnaissances sur les personnes âgées sous forme d'un réseau bayésien etun module de raisonnement chargé de la détection et de la gestion descontradictions et des doutes sur les informations.
L'objectif de ce travail est de décrire avec une approche réaliste lasignification des données d'observation en neuro-imagerie sous un format formelpour faciliter leur interprétation par les cliniciens et leur réutilisation dansd'autres contextes.
Dans le champ des sciences patrimoniales, la dimension temporelle de l'information joueun rôle à l'évidence majeur tant pour l'interpréter et l'analyser que pour relier des faits isolés. Mais la façon dont cette dimension est verbalisée pose des problèmes de formalisation non triviaux. Pourtant, cette verbalisation, que l'on associe souvent au terme-chapeau d'incertitude, peut être lue en dissociant d'une part le caractère mal connu d'un fait documenté, irréductible, et les choix faits par le producteur de l'information pour la relativiser. Dans cette contribution nous proposons un modèle formel permettant d'observer et d'analyser de façon systématique cette couche de verbalisation. L'expérience est menée sur des données fortement hétérogènes, souvent d'origine citoyenne, documentant le petit patrimoine matériel et immatériel. Ce cas d'étude est donc limité, mais il apparait néanmoins comme portant une question de fond allant au-delà du cas d'espèce. La contribution détaille d'abord la grille d'analyse d'indices temporels proposée, puis relate l'expérimentation concrète associée (ontologie OWL). Il n'est pas fait état d'une quelconque prétention à un résultat généralisable stricto sensu, mais cette expérience peut contribuer à nourrir de façcon pragmatique un débat nécessaire sur la formalisation d'indices temporels dans les sciences historiques.
Nous proposons un modèle de co-clustering de données mixtes et uncritère Bayésien de sélection du meilleur modèle. Le modèle infère automatiquementles discrétisations optimales de toutes les variables et effectue un coclusteringen minimisant un critère Bayésien de sélection de modèle. Un avantagede cette approche est qu'elle ne nécessite aucun paramètre utilisateur. Deplus, le critère proposé mesure de façon exacte la qualité d'un modèle tout enétant régularisé. L'optimisation de ce critère permet donc d'améliorer continuellementles modèles trouvés sans pour autant sur-apprendre les données. Les expériencesréalisées sur des données réelles montrent l'intérêt de cette approchepour l'analyse exploratoire des grandes bases de données.
Les portails d'actualités en ligne produisent un flux d'informationayant un volume et une vélocité importants. Dans ce contexte, il devient plusdifficile de proposer en temps réel des recommandations dynamiques adaptéesaux intérêts de chaque utilisateur. Dans cet article, nous présentons une approchehybride pour la recommandation des articles d'actualité reposant sur l'analysesémantique du contenu disponible. L'approche est basée sur l'hybridation deplusieurs approches personnalisées et non personnalisées pour remédier au problèmede démarrage à froid. L'expérimentation de notre approche dans un environnementà large échelle et à fortes contraintes temps réel dans le cadre duchallenge NEWSREEL a permis d'évaluer la qualité de ses recommandations etde confirmer l'apport de la sémantique dans le processus de recommandation.
Nous présentons dans ce travail une méthode de désagrégation pour l'estimation de population à l'échelle locale à partir de données ouvertes globales. Notre but est d'estimer notamment le nombre de personnes résidant dans chaque bâtiment de la zone d'intérêt, à partir de données à plus grande échelle. Une description fine à l'échelle résidentielle est tout d'abord effectuée à partir des données d'OpenStreetMap. Les surfaces des bâtiments d'habitation ou d'usage mixte (habitation et activités) sont notamment identifiées. Nous effectuons ensuite une désagrégation à partir de données de grille de population à grande échelle (1km2 par carreau), guidée par les surfaces des bâtiments compris dans chaque carreau de la grille. Ensuite, nous effectuons une désagrégation à partir de données de grille de population à grande échelle (1km2 par carreau), guidée par les distributions spatiales découvertes à l'étape précédente. Nous utilisons exclusivement des données ouvertes pour favoriser la réplicabilité et pour pouvoir appliquer notre méthode à toute région d'intérêt, pour peu que la qualité des données soit suffisante. L'évaluation et la validation du résultat dans le cas de plusieurs villes Françaises sont effectuées à l'aide de données de recensement INSEE.
L'objectif de notre recherche est de répondre aux besoins croissants etdivers d'extraction d'information pertinente exprimés par de nombreuses disciplines.Nous utilisons pour cela l'analyseur multilingue de corpus Unitex/Gram-Lab développé à l'Université Paris-Est Marne-la-Vallée. Il fait appel à une approchesymbolique et utilise des ressources linguistiques, dictionnaires électroniqueset grammaires locales. Cette présentation ne constitue qu'une prise enmain d'Unitex/GramLab et ne reflète que très partiellement les possibilités dulogiciel et son champ d'utilisation, notamment pour l'extraction d'information,qui s'étend du monde de la recherche à celui de l'industrie.
Universal-endpoint.com est une plateforme web permettant un accèssimple au Web des Données par trois aspects : (i) une plateforme de correspondance,pour l'accès aux bases du Web des Données depuis un seul point d'accèscentralisé, (ii) le langage SimplePARQL, pour une écriture intuitive de requêtessous forme de triplets à la manière de SPARQL mais ne nécessitant pas uneconnaissance préalable des bases du Web des Données, et (iii) une aide à larédaction de requêtes SPARQL.
Avec l'avènement des réseaux sociaux et la multiplication des messagesproduits au sujet des entreprises, mieux comprendre les retours clients estdevenu un enjeu primordial. Des techniques de classification automatique et demodélisation thématique permettent d'ors déjà d'observer les principales tendancesobservées dans ces données. Il est intéressant, dans une optique d'anticipation,d'observer les thématiques émergentes et de les identifier avant qu'ellesne prennent de l'ampleur. Afin de résoudre cette problématique, nous avons étudiéla piste de l'utilisation de modèles LDA pour détecter les documents relatifsà ces thématiques émergentes. Nous avons testé trois systèmes sur plusieurs scénariosd'arrivées de la nouveauté dans le flux de données. Nous montrons queles modèles thématiques permettent de détecter cette nouveauté mais que celadépend du scénario envisagé.
La détection d'influenceurs dans les réseaux sociaux s'appuie généra-lement sur une structure de graphe représentant les utilisateurs et leurs interac-tions. Récemment, cette tâche a tenu compte, en sus de la structure du graphe,du contenu textuel généré par les utilisateurs. Notre approche s'inscrit dans cettelignée : des informations sont extraites du contenu textuel par des règles linguis-tiques puis sont intégrées dans un système d'apprentissage automatique. Nousmontrerons le prototype développé et son interface de visualisation qui facilitel'interprétation des résultats.
La télédétection est un domaine qui regroupe les techniques et lesoutils permettant l'observation de la terre, notamment l'acquisition d'images sa-tellitaires. La méthode proposée dans cet article permet une analyse automatiquede séries temporelles de telles images. Nos travaux introduisent un nouvelle ap-proche pour l'analyse et le clustering de Séries Temporelles d'Images Satelli-taire (STIS). Ce processus se divise en deux parties. Dans un premier temps,nous retraçons les changements radiométriques d'une zone en représentant sonévolution au cours du temps par un graphe dit graphe d'évolution. Dans undeuxième temps, nous introduisons une représentation synthétique des graphesd'évolutions afin de pouvoir appliquer un algorithme de clustering permettantun regroupement par types d'évolutions identifiées. Les expérimentations me-nées nous ont permis de valider notre approche sur une zone d'étude.
Nous proposons un outil de visualisation analytique conçu pour etavec une journaliste d'investigation pour l'exploration de corpus textuels. Notreoutil combine une technique de biclustering disjoint pour extraire des sujets dehaut niveau, avec une méthode de biclustering non-disjoint pour révéler plus fi-nement les variantes de sujets. Une vue d'ensemble des sujets de haut niveau estproposée sous forme d'une treemap, puis une visualisation hiérarchique radialecoordonnée avec une heatmap permet d'inspecter et de comparer les variantesde sujet et d'accéder aux contenus d'origine à la demande.
Dans cet article, nous proposons une méthodologie pour anonymiserune table de données multidimensionnelles contenant des données individuelles(soit n individus décrits par m variables). L'objectif est de publier une table ano-nyme construite à partir d'une table initiale qui protège contre le risque de ré-identification. En d'autres termes, on ne doit pas pouvoir retrouver dans les don-nées publiées un individu présent dans la table originale. La solution proposéeconsite à agréger les données à l'aide d'une technique de coclustering, puis à uti-liser le modèle produit pour générer une table de données synthétiques du mêmeformat que les données initiales. Les données synthétiques, qui contiennent desindividus fictifs, peuvent maintenant être publiées. Les données produites sontévaluées en termes d'utilité pour différentes tâches de fouille (analyse explora-toire, classification) et de niveau de protection.
La classification croisée est une technique d'analyse non superviséequi permet d'extraire la structure sous-jacente existante entre les individus et lesvariables d'une table de données sous forme de blocs homogènes. Cette tech-nique se limitant aux variables de même nature, soit numériques soit catégo-rielles, nous proposons de l'étendre en proposant une méthodologie en deuxétapes. Lors de la première étape, toutes les variables sont binarisées selon unnombre de parties choisi par l'analyste, par discrétisation en fréquences égalesdans le cas numérique ou en gardant les valeurs les plus fréquentes dans le cascatégoriel. La deuxième étape consiste à utiliser une méthode de coclusteringentre individus et variables binaires, conduisant à des regroupements d'indivi-dus d'une part, et de parties de variables d'autre part. Nous appliquons cetteméthodologie sur plusieurs jeux de donnée en la comparant aux résultats d'uneanalyse par correspondances multiples ACM, appliquée aux même données bi-narisées.
Les systèmes de recommandation permettent de présenter à un utilisa-teur des éléments susceptibles de l'intéresser. La mise en place de tels systèmesdans les domaines culturels soulève souvent le questionnement de la place de ladiversité, de la nouveauté, et surtout de la découverte. Nous pensons que l'êtrehumain, bien qu'ayant ordinairement une tendance à se placer dans une zonede confort correspondant à ce qu'il connaît, apprécie occasionnellement d'êtrepoussé à des explorations le faisant sortir de sa routine. Nous avons développédans cette optique une méthode, basée sur la dissimilarité, qui élargit les centresd'intérêt des utilisateurs. Nous avons réussi à délimiter une zone intermédiaireentre des items « trop similaires » et des items « trop différents ». Afin de vali-der cette hypothèse, nous avons développé une application qui permet de testeret de valider cette méthode. Dans cet article de démonstration, nous expliquonsle concept de « zone intermédiaire », nous détaillons le fonctionnement de l'ap-plication, puis nous présentons les résultats obtenus à partir des tests effectués.
Nous présentons dans cet article une méthode supervisée de structu-ration (en DAG) d'un ensemble d'éléments. Étant donnés une structure cible etun ensemble de relations sur ces éléments, il s'agit d'apprendre un modèle destructuration par combinaison des relations initiales. Nous formalisons ce pro-blème dans le cadre de la théorie de la prétopologie qui permet d'atteindre desmodèles de structuration complexes.Nous montrons que la non-idempotence de la fonction d'adhérence rentre dansle cadre du formalisme de l'apprentissage (supervisé) multi-instance et nous pro-posons un algorithme d'apprentissage reposant sur le dénombrement des «sacs»positifs et négatifs plutôt que sur un ensemble d'apprentissage standard.Une première expérimentation de cette méthode est présentée dans un cadreapplicatif de fouille de textes, consistant à apprendre un modèle de structurationtaxonomique d'un ensemble de termes.
Dans cet article nous présentons une étude exploitant des méthodesd'apprentissage automatique de structures séquentielles pour extraire des rela-tions sémantiques dans des textes issus de bases d'appels d'offres. L'une desrelations que nous considérons concerne l'emprise d'un projet d'aménagement,caractérisée par une association entre les concepts qui définissent les infrastruc-tures (bâtiments) et les concepts qui définissent leur(s) surface(s) d'implantation.L'étude propose une analyse comparée d'approches à base de champs condi-tionnels aléatoires (CRF), de CRF d'ordre supérieur (H-CRF), de CRF semi-Markoviens, Modèles de Markov cachés (HMM) et de perceptrons structurés.
Dans un contexte de traitement de flux de données, il est importantde garantir à l'utilisateur des propriétés de performance, qualité des résultats etpassage à l'échelle. Mettre en adéquation ressources et besoins, pour n'allouerque les ressources nécessaires au traitement efficace des flux, est un défi d'actualitémajeur au croisement des problématiques du Big Data et du Green IT.L'approche que nous suggérons permet d'adapter dynamiquement et automatiquementle degré de parallélisme des différents opérateurs composant une requêtecontinue selon l'évolution du débit des flux traités. Nous proposons i) unemétrique permettant d'estimer l'activité future des opérateurs selon l'évolutiondes flux en entrée, ii) l'approche AUTOSCALE évaluant a priori l'intérêt d'unemodification du degré de parallélisme des opérateurs en prenant en compte l'impactsur le traitement des données dans sa globalité iii) grâce à une intégrationde notre proposition à Apache Storm, nous exposons des tests de performancecomparant notre approche par rapport à la solution native de cet outil.
La formule de Lance etWilliams permet d'unifier plusieurs méthodesde classification ascendante hiérarchique (CAH). Dans cet article, nous suppo-sons que les données sont représentées dans un espace euclidien et nous établis-sons une nouvelle expression de cette formule en utilisant les similarités cosinusau lieu des distances euclidiennes au carré. Notre approche présente les avan-tages suivants. D'une part, elle permet d'étendre naturellement les méthodesclassiques de CAH aux fonctions noyau. D'autre part, elle permet d'appliquerdes méthodes d'écrêtage permettant de rendre la matrice de similarités creuseafin d'améliorer la complexité de la CAH. L'application de notre approche surdes tâches de classification automatique de données textuelles montre d'une part,que le passage à l'échelle est amélioré en mémoire et en temps de traitement;d'autre part, que la qualité des résultats est préservée voire améliorée.
Dans cet article, nous proposons une nouvelle approche de classifi-cation d'objets 3D inspirée des Time Series Shapelets de Ye et Keogh (2009).L'idée est d'utiliser des sous-surfaces discriminantes pour la classification concer-née afin de prendre en compte la nature locale des éléments pertinents. Celapermet à l'utilisateur d'avoir connaissance des sous-parties qui ont été utilespour déterminer l'appartenance d'un objet à une classe. Les résultats obtenusconfirment l'intérêt de la sélection aléatoire de caractéristiques candidates pourla pré-sélection d'attributs en classification supervisée.
La classification multi-labels graduée est la tâche d'affecter àchaque donnée l'ensemble des labels qui lui correspondent selon une échellegraduelle de degrés d'appartenance. Les labels peuvent donc avoir à la foisdes relations d'ordre et de co-occurrence.D'un côté, le fait d'ignorer les relations entre les labels risque d'aboutirà des prédictions incohérentes, et d'un autre côté, le fait de prendre encompte ces relations risque de propager l'erreur de prédiction d'un labelà tous les labels qui lui sont reliés.Les approches de l'état d'art permettent soit d'ignorer les relations entreles labels, soit d'apprendre uniquement les relations correspondant à unestructure de dépendance figée. L'approche que nous proposons permetl'apprentissage des relations entre les labels sans fixer une structure dedépendance au préalable. Elle est basée sur un ensemble de classifieursmono-labels, un pour chaque label. L'idée est d'apprendre d'abord toutesles relations entre les labels y compris les relations cycliques. Ensuite lesdépendances cycliques sont résolues en supprimant les relations d'intérêtminimal. Des mesures sont proposées pour évaluer l'intérêt d'apprendrechaque relation. Ces mesures permettent d'agir sur le compromis entrel'apprentissage de relations pour une prédiction cohérente et la minimisa-tion du risque de la propagation d'erreur de prédiction.
Dans le présent papier, nous proposons l'étude et l'application d'unenouvelle approche pour l'aide à la reconnaissance automatique de cibles (ATR,pour Automatic Target Recognition) à partir des images à synthèse d'ouvertureinverse (ISAR, pour Inverse Synthetic Aperture Radar). Cette approche est com-posée de deux phases principales. Dans la première phase, nous utilisons deuxméthodes statistiques pour extraire les caractéristiques discriminants à partir desimages ISAR. Nous nous intéressons dans ce travail aux deux descripteurs multi-échelles issus des deux méthodes SIFT (Scale-Invariant Feature Transform) etla décomposition en ondelettes complexes DT-CWT (Dual-Tree Complex Wa-velet Transform) qui sont calculées disjointement. Ensuite, nous modélisons sé-parément les descripteurs issus des deux méthodes précédentes (SIFT et DT-CWT) par la loi Gamma. Les paramètres statistiques estimés sont utilisés pourla deuxième phase dédiée à la classification. Dans cette deuxième phase, uneclassification parcimonieuse (SRC, pour Sparse Representation-based Classifi-cation) est proposée. Afin d'évaluer et valider notre approche, nous avons eurecours aux données réelles d'images issues d'une chambre anéchoïque. Les ré-sultats expérimentaux montrent que l'approche proposée peut atteindre un tauxde reconnaissance élevé et dépasse largement l'utilisation du même descripteuravec le classifieur machine à vecteurs de support (SVM, pour Support VectorMachine).
La classification croisée (co-clustering) est une technique non super-visée qui permet d'extraire la structure sous-jacente existante entre les lignes etles colonnes d'une table de données sous forme de blocs. Plusieurs approchesont été étudiées et ont démontré leur capacité à extraire ce type de structure dansune table de données continues, binaires ou de contingence. Cependant, peu detravaux ont traité le co-clustering des tables de données mixtes. Dans cet article,nous étendons l'utilisation du co-clustering par modèles à blocs latents au casdes données mixtes (variables continues et variables binaires). Nous évaluonsl'efficacité de cette extension sur des données simulées et nous discutons seslimites potentielles.
Cet article se situe dans le cadre de l'analyse de concepts formels(ACF) qui fournit des classes (les extensions) d'objets partageant des carac-tères similaires (les intensions), une description par des attributs étant associéeà chaque classe. Dans un article récent, une nouvelle mesure de similarité entredeux concepts dans un treillis de concepts a été introduite, permettant une nor-malisation par la taille du treillis. Dans cet article, nous comparons cette mesurede similarité avec des mesures existantes, soit basées sur la cardinalité des en-sembles ou issues de la conception d'ontologies et basées sur la structure hiérar-chique du treillis. Une comparaison statistique avec des méthodes existantes esteffectuée et testée pour leur consistance.
Découvrir des règles qui distinguent clairement une classe d'une autrereste un problème difficile. De tels motifs permettent de suggérer des hypothèsespouvant expliquer une classe. La découverte de sous-groupes (Subgroup Disco-very, SD), un cadre qui définit formellement cette tâche d'extraction de motifs,est toujours confrontée à deux problèmes majeurs: (i) définir des mesures dequalité appropriées qui caractérisent la singularité d'un motif et (ii) choisir uneheuristique d'exploration de l'espace de recherche correcte lorsqu'une énuméra-tion complète est irréalisable. À ce jour, les algorithmes de SD les plus efficacessont basés sur une recherche en faisceau (Beam Search, BS). La collection demotifs extraits manque cependant de diversité en raison de la nature gloutonne del'exploration. Nous proposons ici d'utiliser une technique d'exploration récente,la recherche arborescente de Monte Carlo (Monte Carlo Tree Search, MCTS).Le compromis entre l'exploitation et l'exploration ainsi que la puissance de larecherche aléatoire permettent d'obtenir une solution disponible à tout momentet de surpasser généralement les approches de type BS. Notre étude empirique,avec plusieurs mesures de qualité, sur divers jeux de données de référence et dumonde réel démontre la qualité de notre approche.
Modern cities are facing tremendous amount of information, captured from internal in-frastructures and/or exogenous sensors, humanincluded. This talk presents how big and het-erogenous city data has been captured, represented, unified to serve one of the most pressingcity objective: improving quality of city, in particular how understanding and reducing traf-fic congestion. We will also present lessons learnt from the deployment of our system andexperimentation in Dublin (Ireland), Bologna (Italy), Miami (USA) and Rio (Brazil).
La conférence EGC'2017 propose un défi dont le contexte est la gestiondes espaces verts pour la ville de Grenoble, et notamment des arbres qui ysont présents. L'objectif est de proposer un modèle basé sur des données fourniesqui permettrait de prédire au mieux les arbres malades, ainsi que la localisationpotentielle de la maladie. Après avoir obtenu quelques résultats intéressantsavec des modèles standards, notre approche utilisant un modèle Cost-SensitiveOne Against All (CSOAA) nous permet d'obtenir une exactitude de 0,86, uneprécision de 0,88, et un rappel de 0,91 sur la prédiction unilabel, et une précision/rappel micro de 0,82/0,74 ainsi qu'une précision/rappel macro de 0,66/0,46pour la prédiction multilabel. L'extraction de connaissances pour la tâche 2 nousa permis de mettre en relief l'intérêt de l'ajout de données sur la nature des maladieset la concentration de la pollution dans la ville.
La plupart des méthodes d'extraction de motifs requièrent que l'uti-lisateur formalise son intérêt avec une mesure d'intérêt et des seuils. L'utili-sateur est souvent incapable d'expliciter son intérêt mais il saura juger si unmotif donné est pertinent ou non. Dans cet article, nous proposons une nou-velle méthode de découverte de motifs interactive en supposant que seule unepartie des données est intéressante pour l'utilisateur. En intégrant le retour utili-sateur de motifs proposés un à un, notre méthode vise à échantillonner des mo-tifs avec une probabilité proportionnelle à leur fréquence d'apparition au seindes transactions implicitement préférées par l'utilisateur. Nous démontrons quenotre méthode identifie exactement les transactions implicitement préférées parl'utilisateur sous réserve de la consistance de ses retours. Des expérimentationsmontrent les bonnes performances de l'approche en terme de précision et rappel.
La problématique de ce papier est d'identifier dans un graphe dyna-mique les communautés les plus représentatives sur une période donnée, de me-surer leur stabilité, et d'en visualiser les évolutions majeures. Notre cas d'usageconcerne l'étude de la visibilité médiatique des communautés et des individusgrâce aux données relatives aux émissions télévisuelles et radiophoniques entre2011 et 2015. A partir d'une détection de communautés sur l'intégralité de lapériode, nous proposons des mesures de stabilité et d'activité des communautéset proposons une visualisation de leur évolution temporelle.
Nous présentons ici une méthode originale pour l'automatisation dela détection de paysages dans une image satellite. Deux enjeux majeurs ap-paraissent dans ce processus. Le premier réside dans la faculté à prendre encompte l'ensemble des connaissances expertes tout au long du travail d'analysede l'image. Le second est de réussir à structurer et pérenniser ces connaissancesde façon à les rendre interopérables et exploitables dans le cadre du web de don-nées. Nous présentons en quoi la collaboration de plusieurs stratégies alliant lestraitements de l'image, le calcul de caractéristiques spécifiques et la program-mation logique inductive (PLI), vient alimenter le processus d'automatisation,et comment l'intégration de la connaissance, au travers de la construction d'on-tologies dédiées, permet de répondre pleinement à ces enjeux.
L'extraction de motifs séquentiels vise à extraire des comportementsrécurrents dans un ensemble de séquences. Lorsque ces séquences sont étique-tées, l'extraction de motifs discriminants engendre des motifs caractéristiquesde chaque classe de séquences. Cet article s'intéresse à l'extraction des chro-niques discriminantes où une chronique est un type de motif temporel représen-tant des durées inter-évènements quantitatives. L'article présente l'algorithmeDCM dont l'originalité réside dans l'utilisation de méthodes d'apprentissageautomatique pour extraire les intervalles temporels. Les performances compu-tationnelles et le pouvoir discriminant des chroniques extraites sont évalués surdes données synthétiques et réelles.
Dans une base de connaissance, les entités se veulent pérennes maiscertains événements induisent que les relations entre ces entités sont instables.C'est notamment le cas pour des relations entre organisations, produits, ou marques,entités qui peuvent être rachetées. Dans cet article, nous proposons une approchepermettant d'extraire des relations d'appartenance entre deux entités afin de peu-pler une base de connaissance. L'extraction des relations à partir d'une sourcedynamique d'informations telle que Twitter permet d'atteindre cet objectif entemps réel. L'approche consiste à modéliser les événements en s'appuyant surune ressource lexico-sémantique. Une fois les entités liées au Web des donnéesouvertes (en particulier DBpedia), des règles linguistiques sont appliquées pourfinalement générer les triplets RDF qui représentent les événements.
Un grand nombre d'applications nécessitent d'analyser un unique grapheattribué évoluant dans le temps. Cette tâche est particulièrement complexe car lastructure du graphe et les attributs associés à chacun de ses noeuds ne sont pasfigés. Dans ce travail, nous nous focalisons sur la découverte de motifs récurrentsdans un tel graphe. Ces motifs, des séquences de sous-graphes connexes, représententles évolutions récurrentes de sous-ensembles de noeuds et de leurs attributs.Différentes contraintes ont été définies (e.g. fréquence, volume, connectivité,non redondance, continuité) et un algorithme original a été proposé. Lesexpérimentations réalisées sur des jeux de données synthétiques et réelles démontrentl'intérêt de l'approche proposée et son passage à l'échelle.
L'extraction de connaissances à partir de modèles géométriques 3Det les raisonnements associés constituent un enjeu important pour permettre ledéveloppement d'ontologies capables de décrire fonctionnellement des produitsmanufacturés. Dans ce contexte, nous nous appuyons sur la logique déductiveapportée par une base de connaissances étroitement couplée à un modeleur géométrique3D. Les raisonnements faisant appel au concept de forme 3D restentdifficiles à formaliser et les informations géométriques difficiles à extraire. Nousproposons une formalisation de propriétés telles que 'à la même forme que','est de la même famille que' pour montrer comment l'extraction d'informationsgéométriques 3D est reliée à ces propriétés. Par la suite, une formalisation depropriétés telles que 'est un empilage', 'est un regroupement' est introduite pourmontrer les raisonnements qui contribuent à la structuration d'assemblages 3D.Ces propriétés sont illustrées à l'aide d'un exemple de pompe hydraulique.
Nous proposons dans ce travail d'utiliser la flexibilité des modèlesde base de données graphe, et la représentation intuitive du réseau social afinde visuellement explorer, annoter, et vérifier des détections de visages dans unearchive de 15 années de journaux télévisés.
Un aspect essentiel dans la préservation du patrimoine culturel résidedans la collecte et l'assemblage des témoignages provenant de citoyens ordi-naires. Dans cet article, nous présentons une architecture logicielle facilitant lasaisie et le partage de témoignages concernant la période de la construction eu-ropéenne au Luxembourg. En rédigeant son témoignage, l'utilisateur obtient lesrésultats d'une extraction de connaissances sur le contenu saisi, indiquant no-tamment des entités et informations liées.
Contrairement à ce que promeut le Web des données, les données exposéespar la plupart des organisations sont dans des formats non-RDF tels queCSV, JSON, ou XML. De plus sur le Web des objets, les objets contraints préférerontdes formats binaires tels que EXI ou CBOR aux formats RDF textuels.Dans ce contexte, RDF peut toutefois servir de lingua franca pour l'interopérabilitésémantique, l'intégration de données aux formats hétérogènes, le raisonnement,et le requêtage. Dans ce but, plusieurs outils et formalismes permettentde transformer des documents non-RDF vers RDF, les plus flexibles étant baséssur des langages de transformation ou de correspondance (GRDDL, XSPARQL,R2RML, RML, CSVW, etc.). Cet article définit un nouveau langage, SPARQLGenerate,qui permet de générer du RDF à partir: (i) d'une base de données RDF,et (ii) d'un nombre quelconque de documents aux formats arbitraires. L'originalitéde SPARQL-Generate est qu'il étend SPARQL 1.1, et peut donc (i) êtreappris facilement par les ingénieurs de la connaissance familiers de SPARQL,(ii) être implémenté au dessus de n'importe quel moteur SPARQL existant, (iii)tirer parti des mécanismes d'extension de SPARQL pour prendre en compte defuturs formats.
L'analyse en temps-réel de données massives envoyées par des cap-teurs a connu ces dernières années un essor important. Du fait de l'hétérogénéitéde ces données, l'application de modèles de machine learning spécialement ca-librés pour des cas d'usages précis a permis d'extraire et d'inférer des infor-mations de très grandes valeurs. Néanmoins, peu de systèmes proposent uneimplémentation distribuée sur un vrai cluster industriel permettant de tirer profitde capacités de calcul décuplées. Nous présentons ici une démonstration de dé-tection d'anomalie sur réseau souterrain d'eau potable en île-de-France réaliséavec notre plateforme, dénotée WAVES.
Le Web des données promeut l'utilisation de RDF comme modèlepour les données structurées sur le Web. Cependant, la majorité des servicesWeb consomment et exposent principalement du CSV, JSON, ou XML, des formatnon-RDF. Il est peu probable que tous ces services se convertissent un jouraux formats RDF existants. Ceci est d'autant plus vrai dans le contexte du Webdes objets, puisque les formats RDF sont pour la plupart textuels alors que lesobjets contraints préféreront des formats binaires tels que EXI ou CBOR. Danscet article, nous proposons une approche pour permettre l'interopérabilité sémantiquede ces services et objets, tout en leur laissant la liberté d'utiliser leursformats préférés. Notre approche s'ancre sur les principes de l'architecture duWeb et ceux du Web des données liées, et repose sur la définition de PrésentationRDF. En supposant qu'une Présentation RDF soit identifiée par une IRI etdéréférençable sur le Web, nous montrons comment, avec différents protocolesdu Web, un client/serveur peut faire comprendre à l'autre partie comment lecontenu d'une message peut être interprété en RDF, ou généré à partir de RDF.Nous nommons ceci la négociation de Présentation RDF. En utilisant ces principes,nous montrons comment les services et objets existants pourraient êtrerendus interopérables à moindre coût sur le Web Sémantique.
Nous nous intéressons à la classification non supervisée de séries chro-nologiques. Pour ce faire, nous utilisons l'algorithme K-Spectral Centroïd (K-SC), une variante des K-Means. K-Spectral Centroïd utilise une mesure de dis-similarité entre séries chronologiques, invariante par translation et par change-ment d'échelle. Cet algorithme est coûteux en temps de calcul : lors de la phased'affectation, il nécessite de tester toutes les translations possibles pour identifierla meilleure ; lors de la phase de représentation, le calcul du nouveau barycentrenécessite l'extraction de la plus petite valeur propre d'une matrice. Nous propo-sons dans ce travail trois optimisations de K-SC. L'identification de la meilleuretranslation peut être réalisée efficacement en utilisant la transformée de Fou-rier discrète. Chaque matrice peut être calculée incrémentalement. Le calcul dunouveau barycentre peut s'effectuer à moindre coût grâce à la méthode de lapuissance itérée. Ces trois optimisations fournissent exactement la même classi-fication que K-SC.
In the Semantic Web view, ontologies play a key role. They act as shared vocabulariesto be used for semantically annotating Web resources and they allow to perform deductivereasoning for making explicit knowledge that is implicitly contained within them. However,noisy/inconsistent ontological knowledge bases may occur, being the Web a shared and dis-tributed environment, thus making deductive reasoning no more straightforwardly applicable.Machine learning techniques, and specifically inductive learning methods, could be fruitfullyexploited in this case. Additionally, machine learning methods, jointly with standard reason-ing procedure, could be usefully employed for discovering new knowledge from an ontologicalknowledge base, that is not logically derivable. The focus of the talk will be on various ontol-ogy mining problems and on how machine learning methods could be exploited for coping withthem. For ontology mining are meant all those activities that allow to discover hidden knowl-edge from ontological knowledge bases, by possibly using only a sample of data. Specifically,by exploiting the volume of the information within an ontology, machine learning methodscould be of great help for (semi-)automatically enriching and refining existing ontologies, fordetecting concept drift and novelties within ontologies and for discovering hidden knowledgepatterns (also possibly exploiting other sources of information). If on one hand this means toabandon sound and complete reasoning procedures for the advantage of uncertain conclusions,on the other hand this could allow to reason on large scale and to to dial with the intrinsic uncer-tainty characterizing the Web, that, for its nature, could have incomplete and/or contradictoryinformation.
Ces dernières années, la prolifération rapide des capteurs et des objetscommunicants de tous types a significativement enrichi le contenu des systèmesd'information. Cependant, cela suscite de nouvelles questions quant à la confianceque l'on peut accorder aux informations et aux sources d'informations. Eneffet, ces sources peuvent être leurrées ou sous l'emprise d'un tiers qui falsifieou altère les informations. Cet article propose donc d'aborder la sécurité dessystèmes d'informations sous l'angle de la confiance dans les sources d'informations.En premier lieu, la définition puis l'évaluation de la confiance dans un réseau hétérogènesont introduits. Une modélisation des sources est ensuite proposée. Laconfiance dans ces sources d'informations est abordée au travers de deux caractéristiques: la compétence et la sincérité. L'extraction de la confiance est réaliséevia un ensemble de mesures de ces deux caractéristiques. Une expérience baséesur plusieurs sources simulées à partir d'un jeu de données réelles montrent lapertinence de l'approche; approche qui peut être transposée à d'autres systèmesd'information. Cette étude est appliquée à l'analyse des données de navigationet de positionnement d'un navire.
Ce document se situe dans le cadre de l'analyse de concepts formels(ACF), une méthode de hiérarchisation algébrique des données basée sur la no-tion d'intension / extension, partageant maximalement attributs et objets. Nousprésentons ici une mesure de similarité basée sur des correspondances entre deuxtreillis de Galois, définie par un modèle expressif utilisant des correspondancesentre objets et entre attributs des deux treillis. Un point clé de notre approcheest que ces correspondances peuvent ne pas être des fonctions, associant un ob-jet (resp. attribut) d'un treillis avec plusieurs objets (resp. attributs) de l'autretreillis.
Le test de -subsomption, opération fondamentale en ProgrammationLogique Inductive (PLI) pour tester la validité d'une hypothèse sur les exemples,est particulièrement coûteux. Ainsi, les systèmes d'apprentissage de PLI les plusrécents ne passent pas à l'échelle. Nous proposons donc un nouveau modèle de-subsomption fondé sur un réseau d'acteurs, dans le but de pouvoir décider lasubsomption sur de très grandes clauses.
Le modèle NoSQL orienté colonnes propose un schéma de donnéesflexible et hautement dénormalisé. Dans cet article, nous proposonsune méthode d'implantation d'un entrepôt de données dans un systèmeNoSQL en colonnes. Notre méthode est basée sur une stratégie de regroupementdes attributs issus des tables de faits et de dimensions, sous formede familles de colonnes. Nous utilisons deux algorithmes OEP et k-means.Pour évaluer notre méthode, nous avons effectué plusieurs tests sur lebenchmark TPC-DS au sein du SGBD NoSQL orienté colonnes Hbase,avec une architecture de type MapReduce sur une plateforme Hadoop.
PORGY est un environnement interactif utilisé pour la modélisationde systèmes obtenus àpartir de règles de réécriture, pilotés à l'aide de stratégies et basées sur des graphes utilisantdes noeuds à ports. Cette démonstration présente quelques uns des aspects de visualisation ana-lytique proposés par PORGY. Cette dernière facilite la modélisation du système, sa simulationainsi que l'analyse des résultats à différentes échelles.
Nous décrivons dans cet article notre réponse au défi EGC 2017. Uneanalyse exploratoire des données a tout d'abord permis de comprendre les distri-butions des différentes variables et de détecter de fortes corrélations. Nous avonsdéfini deux variables supplémentaires à partir des variables du jeu de données.Plusieurs algorithmes de classification supervisée ont été expérimentés pour ré-pondre à la tâche numéro 1 du défi. Les performances ont été évaluées par va-lidation croisée. Cela nous a permis de sélectionner les meilleurs classifieursuni-label et multi-label. Autant sur la tâche uni-label que multi-label, le meilleurclassifieur dépasse les références d'environ 2%. Nous avons également exploréla tâche numéro 2 du défi. D'une part, des règles d'association ont été recher-chées. D'autre part, le jeu de données a été enrichi avec des connaissances tellesque des données climatiques (pluviométrie, température, vent) ou des donnéestaxonomiques dans le domaine de la botanique (famille, ordre, super-ordre). Enoutre, des données géographiques et cartographiques sont exploitées dans unoutil de visualisation d'une partie des données sur les arbres.
Le financement participatif est un mode de financement d'unprojet faisant appel à un grand nombre de personnes, contrairement auxmodes de financement traditionnels. Il a connu une forte croissance avecl'émergence d'Internet et des réseaux sociaux. Cependant plus de 60 %des projets ne sont pas financés, il est donc important de bien préparersa campagne de financement. De plus, en cours de campagne, il est cru-cial d'avoir une estimation rapide de son succès afin de pouvoir réagirrapidement (restructuration, communication) : des outils de prédictionsont alors indispensables. Nous proposons dans cet article une méthodede prédiction du montant final levé lors d'une campagne de financementparticipatif utilisant l'algorithme k-NN : en utilisant l'historique de cam-pagnes passées, nous déterminons celles qui sont les plus similaires à unecampagne en cours. Nous utilisons alors les montants finaux pour faireune estimation. Nous comparons plusieurs mesures de distance pour dé-terminer les plus proches voisins. Nos résultats indiquent que le dernierétat d'une campagne seul est suffisant pour obtenir une bonne prédiction.
Nous proposons une approche de prévision à court terme des flux devoyageurs du réseau ferré d'Île-de-France basée sur les réseaux bayésiens dy-namiques. La structure du modèle repose sur les relations de causalité entre lesflux adjacents et permet d'intégrer l'offre de transport. En présence de donnéesmanquantes, l'apprentissage est réalisé via l'algorithme espérance-maximisation(EM) structurel. En appliquant notre approche sur une ligne de métro, les résul-tats obtenus sont globalement supérieurs à ceux des autres méthodes testées.
Le clustering est une technique largement répandue pour la définitionde profils dans le cadre de l'aide à la gestion de la relation client (CRM). Cepen-dant, les outils classiques sont généralement limités, car ils ne prennent pas encompte la connaissance métier de l'analyste et ne permettent pas l'explorationinteractive des données. Nous décrivons ici un prototype qui permet à un expertmarketing d'explorer interactivement les données pour la recherche de profilsdes clients, mais aussi d'analyser les profils construits à l'aide de différentesvisualisations synthétiques et d'étudier leurs évolutions au cours du temps.
Dans les systèmes de recommandation, l'approche du filtrage sur lecontenu est revenue en force face à celle du filtrage collaboratif grâce à l'arrivéedu paradigme de l'apprentissage profond et des techniques de word embedding.Dans cette même veine, l'avènement des folksonomies et du web sémantique aapporté une meilleure compréhension des profils des utilisateurs et des caracté-ristiques des articles à recommander. Dans cet article, nous nous intéressons audomaine musical et nous introduisons un nouveau calcul de mesure de préfé-rence intégrée dans un système de recommandations basées sur le contenu. Entestant notre approche sur le jeu de données Last.fm, nous montrons que l'utili-sation de termes issus d'une folksonomie associés à des informations issues duweb sémantique permet d'améliorer le processus de recommandation musicale.
Une décision de justice est un document textuel rapportant le dénoue-ment d'une affaire judiciaire. Les juristes s'en servent régulièrement commesource d'interprétation de la loi et de compréhension de l'opinion des juges.La masse disponible de décisions exige des solutions automatiques pour aiderles acteurs du droit. Nous proposons d'adresser certains des défis liés à la re-cherche et l'analyse du volume croissant de décisions de justice en France dansun projet plus global. La première phase de ce projet porte sur l'extraction d'in-formation des décisions dans l'objectif de construire une base de connaissancesjurisprudentielles structurant et organisant les décisions. Une telle base facilitel'analyse descriptive et prédictive de corpus de décisions. Cet article présenteune application des modèles probabilistes pour la segmentation des décisions etla reconnaissance d'entités dans leur contenu (lieu, date, participants, règles deloi, ...). Nos tests montrent l'avantage d'approches basées sur les champs aléa-toires conditionnels (CRF) par rapport à des modèles plus simples et rapidesbasés sur les modèles cachés de Markov (HMM). Nous présentons ici les as-pects techniques de la sélection et l'annotation du corpus d'apprentissage, et ladéfinition de descripteurs discriminants. La spécificité des textes est importanteet doit être prise en compte lors de l'application de méthodes d'extraction d'in-formation dans un domaine spécifique.
La classification multi-label est une extension de la classification su-pervisée au cas de plusieurs labels. Elle a connu un regain d'intérêt récent dansla communauté du machine learning de par son utilité dans plusieurs domaines.Comme pour tout problème de machine learning, le besoin de prétraiter les don-nées multi-label est apparu comme une nécessité afin d'améliorer les perfor-mances des classifieurs. Dans cet article, nous introduisons une nouvelle mé-thode permettant de prétraiter des variables descriptives par discrétisation ougroupement de valeur, dans le cas de plusieurs labels à prédire. Le choix dumeilleur prétraitement est posé comme un problème de sélection de modèle, etest résolu au moyen d'une approche bayésienne. Une étude comparative est réa-lisée avec d'autres méthodes de l'état de l'art afin de positionner la nouvelleméthode et de montrer l'intérêt de la sélection de variables pour la classification.
Dans ce papier nous proposons une nouvelle approche de subspaceclustering pour les flux de données, permettant à l'utilisateur de suivre visuel-lement le changement dans le comportement du flux. Cette approche détectel'impact des variables sur l'évolution du flux, Tout en visualisant les étapes dusubspace clustering en temps réel. En premier lieu nous appliquons un clusteringsur l'ensemble de variables afin d'identifer les sous-espaces. Ensuite un cluste-ring est appliqué sur les individus dans chaque sous-espace.
De nombreuses méthodes ont été proposées pour extraire des clus-ters des réseaux sociaux. Si un travail important est aujourd'hui mené sur laconception de méthodes innovantes capables de rechercher des clusters de na-ture différente, la plupart des approches font l'hypothèse de réseaux statiques.L'une des récentes méthodes concerne notamment la recherche de liens concep-tuels. Il s'agit d'une nouvelle approche de clustering de liens, qui exploite à lafois la structure du réseau et les attributs des noeuds dans le but d'identifier desliens fréquents entre des groupes de noeuds au sein desquels les noeuds par-tagent des attributs communs. Dans ce travail, nous nous intéressons au suivides liens conceptuels dans des réseaux dynamiques, c'est-à-dire des réseaux quiconnaissent des changements structurels importants. Nous cherchons en parti-culier à comprendre comment les liens conceptuels se forment et évoluent aucours du développement du réseau. Pour ce faire, nous proposons un ensemblede mesures qui visent à capturer des comportements caractérisant l'évolutionde ces clusters. Notre approche est ainsi utilisée pour comprendre l'évolutiondes liens conceptuels extraits sur deux réseaux réels : un réseau de co-auteursd'articles scientifiques et un réseau de communications mobiles. Les résultatsobtenus permettent de mettre en lumière des tendances significatives dans l'évo-lution des clusters sur ces deux réseaux.
Les littéraux sont les noeuds terminaux du modèle de données RDF, etpermettent d'encoder des données telles que des nombres ("12.5"ˆˆxsd:decimal),des dates ("2017-01-26T23:57:15"ˆˆxsd:dateTime), ou tout autre type d'information("vert pomme"ˆˆex:couleur). Les moteurs RDF/SPARQL savent tester l'égalité oucomparer les littéraux RDF dont le type de données leur est connu (ce qui estle cas de xsd:decimal et xsd:dateTime). Mais lorsqu'un type de données est inconnud'un moteur RDF/SPARQL (comme ex:couleur), il n'a à priori aucun moyen d'en« découvrir » la sémantique. Dans cet article, nous attaquons ce problème et étu-dions comment permettre: (i) aux éditeurs de données de publier la définition detypes de données personnalisés sur leWeb, et (ii) aux moteurs RDF/SPARQL dedécouvrir à la volée ces types de données personnalisés, et de les utiliser de ma-nière uniforme. Nous discutons de différentes solutions possibles qui tirent partiedes principes du Web des données, et détaillons une solution concrète basée surle déréférencement et le langage JavaScript, suffisemment générique pour êtreutilisée pour des types de données personnalisés arbitrairement complexes.
En analyse d'images de télédétection, les données de référence, ve-nant étiqueter les objets des images, y jouent un rôle crucial mais sont parfois im-précises voire incertaines et en nombre limité. Dans cet article, nous présentonsune méthodologie pour l'amélioration de données de référence pour la télédé-tection en trois étapes : réalignement des données, évaluation via crowdsourcinget création d'un jeu de données de référence de bonne qualité.
L'algorithme des K-moyennes prédictives est un des algorithmes declustering prédictif visant à décrire et à prédire d'une manière simultanée. Contr-airement à la classification supervisée et au clustering traditionnel, la perfor-mance de ce type d'algorithme est étroitement liée à sa capacité à réaliser unbon compromis entre la description et la prédiction. Or, à notre connaissance,il n'existe pas dans la littérature un critère analytique permettant de mesurer cecompromis. Cet article a pour objectif de proposer une version modifiée de l'in-dice Davies-Bouldin, nommée SDB, permettant ainsi d'évaluer la qualité des ré-sultats issus de l'algorithme des K-moyennes prédictives. Cette modification sebase sur l'intégration d'une nouvelle mesure de dissimilarité permettant d'éta-blir une relation entre la proximité des observations en termes de distance etleur classe d'appartenance. Les résultats expérimentaux montrent que la versionmodifiée de l'indice DB parvient à mesurer la qualité des résultats issus de l'al-gorithme des K-moyennes prédictives.
Nous proposons une nouvelle approche pour générer des graphes dy-namiques avec attributs munis d'une structure communautaire reflétant les pro-priétés connues des graphes de terrain comme l'attachement préférentiel ou l'ho-mophilie. Le générateur développé permet de construire une suite de graphesformant ainsi un réseau dynamique. Il offre la possibilité de visualiser l'évolu-tion de ces graphes à travers une interface dédiée. Cette interface présente aussiplusieurs mesures évaluées sur chacun des graphes du réseau pour vérifier dansquelle mesure les propriétés du réseau sont préservées au cours de son évolution.
L'explosion des volumes de données circulant sur les réseauxsociaux géo-localisés (LBSN) rend possible l'extraction des préférencesdes utilisateurs. En particulier ces préférences peuvent être utilisées pourrecommander à l'utilisateur des points d'intérêt en adéquation avec sonprofil. Aujourd'hui la recommandation de points d'intérêt est devenueune composante essentielle des LBSN. Malheureusement les méthodesde recommandation traditionnelles échouent à s'adapter aux contraintespropres aux LBSN, telles que la ”sparsité” très élevée des données, ouprendre en compte l'influence géographique. Dans ce papier nous pré-sentons un modèle de recommandation basée sur la factorisation de Pois-son qui offre une solution efficace à ces contraintes. Nous avons testénotre modèle via des expérimentations sur un jeu de données réalisteissu du LBSN Foursquare. Ces expériences nous ont permis de démon-trer une meilleure qualité de recommandation que 3 modèles de l'état-de-l'art.
La fouille de motifs graduels a pour but la découverte de co-variationsfréquentes entre attributs numériques dans une base de données. Plusieurs algo-rithmes d'extraction automatique de tels motifs ont été proposés. La principaledifférence entre ces algorithmes réside dans la sémantique de variation considé-rée. Dans certains domaines d'application, on trouve des bases de données dontles objets sont munis d'une relation d'ordre temporel. Ainsi, du fait de leur sé-mantique de variation, les algorithmes de la littérature sont inadaptés pour detelles données. Dans ce contexte, nous proposons une approche de fouille demotifs graduels sous contrainte d'ordre temporel, qui réduit le nombre de motifsgénérés. Une étude expérimentale sur des bases de données paléoécologiquespermet d'apprendre les groupements d'indicateurs qui modélisent l'évolution dela biodiversité. Les connaissances apportées par ces groupements montre l'inté-rêt de notre approche pour le domaine environnemental.
La découverte de règles d'association à partir de données transaction-nelles est une tâche largement étudiée en fouille de données. Les algorithmesproposés dans ce cadre partagent la même méthodologie en deux étapes à savoirl'énumération des itemsets fréquents suivie par l'étape de génération de règles.Dans cet article, nous proposons une nouvelle approche basée sur la satisfiabilitépropositionnelle pour extraire les règles d'association en une seule étape. Pourmontrer la flexibilité et la déclarativité de notre approche, nous considérons éga-lement deux autres variantes, à savoir la fouille de règles d'association ferméeset la fouille de règles indirectes. Les expérimentation sur plusieurs jeux de don-nées montrent que notre approche offre de meilleures performances comparée àdes approches spécialisées.
Dans cette présentation, on souhaite présenter un regard de sociologue sur les transformationssociales, politiques et culturelles du développement des mondes numériques dans nos sociétés.Les enjeux que doivent relever la fabrication d'environnements informatiques prennentaujourd'hui de plus en plus d'importance : protection de la vie privée, personnalisation descalculs, guidage des conduites, ouverture des données, éthique des automates, etc. Commentnos sociétés réagissent-elles et s'adaptent-elles à ces mutations ? Dans cette cnférence, on proposeune réflexion sur le rôle joué par les algorithmes du web dans la construction de l'espacepublic numérique. Comment les calculateurs produisent-ils de la visibilité ? A partir de quelsprincipes le PageRank de Google, les métriques du web social ou les outils de recommandationdécident-ils de donner la prééminence à telle information plutôt qu'à telle autre ? Cesdifférentes familles de calcul cherchent à mesurer et à valoriser des principes différents : lapopularité, l'autorité, la réputation et la prédiction efficace. L'approche proposée dans cetteconférence soutient que les manières de calculer enferment des représentations particulièresdes individus et de leur place dans nos sociétés. Comprendre les algorithmes c'est aussi unmoyen de redonner du pouvoir aux utilisateurs et de favoriser une critique éclairée de la manièredont le calcul s'introduit de plus en plus dans nos vies numériques.
Le crowdsourcing, un enjeu économique majeur, est le fait d'externaliserune tâche interne d'une entreprise vers le grand-public, la foule. C'estainsi une forme de sous-traitance digitale destinée à toute personne susceptiblede pouvoir réaliser la tâche demandée généralement rapide et non automatisable.L'évaluation de la qualité du travail des participants est cependant un problèmemajeur en crowdsourcing. En effet, les contributions doivent être contrôlées pourassurer l'efficacité et la pertinence d'une campagne. Plusieurs méthodes ont étéproposées pour évaluer le niveau d'expertise des participants. Ce travail a la particularitéde proposer une méthode de calcul de degrés d'expertise en présencede données dont l'ordre de classement est connu. Les degrés d'expertise sont ensuiteconsidérés sur des données sans ordre pré-établi. Cette méthode fondée surla théorie des fonctions de croyance tient compte des incertitudes des réponseset est évaluée sur des données réelles d'une campagne réalisée en 2016.
La F-Mesure de trait est une métrique de sélection de variables statistiquesans paramètres qui a montré de bonnes performances pour la classification,l'étiquetage de clusters ou encore la mesure de qualité des clusters. Danscet article, nous proposons d'évaluer son utilisation dans le contexte des graphesde terrain et de leur structure communautaire pour bénéficier de son systèmesans paramètres et de ses performances bien évaluées. Nous étudions donc surdes graphes synthétiques réalistes les corrélations qui existent entre la F-Mesurede trait et certaines mesures de centralité, mais surtout avec des mesures destinéesà caractériser le rôle communautaire des noeuds. Nous montrons ainsi quecette mesure est liée à la centralité des noeuds du réseau, et qu'elle est particulièrementadaptée à la mesure de leur connectivité au regard de la structurede communautés. Nous observons par ailleurs que les mesures usuelles de détectiondes rôles communautaires sont fortement dépendantes de la taille descommunautés alors que celles que nous proposons sont par définition liées à ladensité de la communauté, ce qui rend les résultats comparables d'un réseau àun autre. Ceci offre donc la possibilité d'applications comme le suivi temporelde la structure des communautés. Enfin, le processus de sélection appliqué auxnoeuds permet de disposer d'un système universel, contrairement aux seuils fixésauparavant empiriquement pour l'établissement des rôles communautaires.
Les algorithmes d'apprentissage automatique peuvent être utilisés pourcréer des outils de recommandation qui permettent de prédire la pertinence d'undocument pour une thématique de veille donnée en se basant sur les précédentsjugements de pertinence donnés pour cette thématique pour d'autres documents.Ces outils de recommandation permettent de filtrer dans un flux entrant de do-cuments ceux qui sont susceptibles d'être pertinents sans que l'utilisateur aitbesoin de déterminer lui-même les mots clefs marquant l'adéquation d'un do-cument pour un sujet de la veille. Bien que cette problématique de rechercheait été abondamment abordée, les outils de veille d'information pour le web in-tégrant un apprentissage en sont encore à leur balbutiements. Nous présentonsici l'application web Re-Watch permettant la définition d'un thème de veille, lasélection de sources d'information sur le web relatives à ce thème et l'adaptationdes scores de pertinence des documents aux retours de l'utilisateur. L'applicationpermet aussi, pour chaque thème, une auto-évaluation de la qualité du filtrage etune interrogation du moteur de recherche Google. Cette application encore encours de développement est néanmoins actuellement fonctionnelle et accessiblesur le web à l'url suivante : http://www.specific search.com.
Nous présentons les étapes de préparation de la création d'une ins-tance nouvelle de NELL dédiée au français. NELL est à la fois un processusde lecture et de compréhension automatique du Web et un ensemble de basede connaissances de faits en anglais, en portuguais et très prochainement enfrançais. Cette mise en place de la nouvelle instance de NELL a donné lieu àl'amélioration de la chaîne NLP en la généralisant au multilangue, ainsi qu'audéveloppement d'une ontologie par correspondance avec l'ontologie en anglais.Nous présenterons le processus de mise en place et de lancement de la nouvelleinstance NELL Français avec l'interface de visualisation et de supervision hu-maine des données collectées.
Nous présentons un outil interactif de classification multilabel déve-loppé au sein du groupe Orange et utilisé pour l'analyse d'opinions. Basé sur unalgorithme de factorisation rapide de matrice, il permet à un utilisateur d'impor-ter des textes courts (tweets, mails, enquêtes, ...), de définir des labels d'intérêts(« client globalement satisfait », « évoque la rapidité du débit »,...) et de propo-ser pour chaque texte des recommandations de labels et pour chaque label desrecommandations de textes.
The effective prediction of a click remains a primary challenge in the areas of search, digitalmedia and online advertising. In the context of search, satisfying a userâ˘A ´ Zs information needby returning results that they will click on is an important objective in any information retrievalsystem. Consequently, information retrieval systems have had a long and varied history of howto evaluate their effectiveness of responding to a given query. However, building such a systemthat not only only returns relevant results to a user query but also encourages a long-termrelationship between the user and the system is far more challenging. In this talk, we reviewthe current state-of-the-art evaluation approaches for search before exploring other ways ofquantifying more long-term engagement measures. Finally, the talk ends with a proposal ofhow the two approaches can be considered together to create a service that optimises for thequery and the longer term engagement aspects.
Les systèmes de questions-réponses (SQR)s visent à retourner directement des réponsesprécises à des questions posées en langage naturel. L'extraction et le reclassement des passagessont considérés comme les tâches les plus difficiles dans un SQR typique et exigent encore uneffort non trivial. Dans cet article, nous proposons une nouvelle approche pour L'extraction etle reclassement des passages en utilisant les n-grammes et SVM. Notre système d'extractionde passages basé sur la technique des n-grammes repose sur une nouvelle mesure de similaritéentre un passage et une question. Les passages extraits sont ensuite réordonnés en utilisant unmodèle basé sur RankSVM combinant différentes mesures de similarité afin de retourner lepassage le plus pertinent pour une question donnée. Nos expériences et nos résultats étaientprometteurs et ont démontré que notre approche est concurrentielle.
Cette thèse de doctorat propose une approche originale pour adapter les mappingsbasés sur les changements détectés dans l'évolution de SOCs du domaine biomédical.Notre proposition consiste à comprendre précisément les mappings entre SOCs, à exploiterles types de changements intervenant lorsque les SOCs évoluent, puis à proposerdes actions de modification des mappings appropriées. Nos contributions sont multiples: (i) nous avons réalisé un travail expérimental approfondi pour comprendre l'évolutiondes mappings entre SOCs; nous proposons des méthodes automatiques (ii) pour analyserles mappings affectés par l'évolution de SOCs, et (iii) pour reconnaître l'évolutiondes concepts impliqués dans les mappings via des patrons de changement; enfin (iv)nous proposons des techniques d'adaptation des mappings à base d'heuristiques. Nousproposons un cadre complet pour l'adaptation des mappings, appelé DyKOSMap, etun prototype logiciel. Nous avons évalué les méthodes proposées et le cadre formel avecdes jeux de données réelles contenant plusieurs versions de mappings entre SOCs du domaine biomédical. Les résultats des expérimentations ont démontré l'efficacité desprincipes sous-jacents à l'approche proposée. La maintenance des mappings, en grandepartie automatique, est de bonne qualité..
Anonymous use of Social network do not prevent users from privacy risks resulting frominfering and cross-checking information published by themselves or their relationhips. Withthis in mind we have conducted a survey in order to measure sensitiveness of personal datapublished on social media and to analyze the users behaviors. We have shown that 76 %of internet users that have answered the survey are vulnerable to identity or sensitive datadisclosure. Our study is completed by the description of an automatic procedure that showshow easily these vulnerabilities can be exploited and motivates the need for more advancedprotection mechanisms.
En analyse exploratoire, l'identification et la visualisation des interactionsentre variables dans les grandes bases de données est un défi (Dhillon et al.,2003; Kolda et Sun, 2008). Nous présentons Khiops CoViz, un outil qui permetd'explorer par visualisation les relations importantes entre deux (ou plusieurs)variables, qu'elles soient catégorielles et/ou numériques. La visualisation d'unrésultat de coclustering de variables prend la forme d'une grille (ou matrice) dontles dimensions sont partitionnées: les variables catégorielles sont partitionnéesen clusters et les variables numériques en intervalles. L'outil permet plusieurs variantesde visualisations à différentes échelles de la grille au moyen de plusieurscritères d'intérêt révélant diverses facettes des relations entre les variables.
Dans cet article, nous présentons une méthodologie originale permettantde faire des analyses scientométriques basées sur trois dimensions (spatiale,temporelle et thématique) à partir d'un corpus de publications. Cette méthodologiecomporte 3 étapes : (1) la préparation et la validation des données pourcompléter les critères usuels tels que les noms d'auteurs, affiliation, ... par descritères spatiaux, temporels et thématiques ; (2) l'indexation des contenus despublications et métadonnées associées ; (3) l'analyse et/ou la recherche d'informationmultidimentionnelle. Les expérimentations sont menées sur la série depublications des conférences EGC de 2004 à 2015.
Les articles scientifiques publiés dans les actes des conférences EGC,qui se déroulent chaque année depuis 2001, constituent la richesse de ces évènementsmettant en avant le fer de lance de la recherche francophone portantsur la gestion et l'extraction de connaissances. Nous nous sommes penchés surl'analyse de ces publications scientifiques afin d'en extraire l'essence en termesde thématiques de recherches abordées. Premièrement, nous avons analysé lespoints communs et les spécificités des publications dans les différentes éditionsde la conférence ainsi que les principales différences entre les éditions consécutives.Puis nous nous sommes intéressés à la façon dont les publications s'articulentautour des thématiques extraites et sur lesquelles nous avons essayé devisualiser une approximation sémantique. Enfin nous nous sommes intéresséà l'évolution des thématiques depuis les débuts de cette conférence et jusqu'àl'édition 2015.
Predicting the price of the electricity commodity in the long term is a challenge that currenttechniques do not meet satisfactorily (Karakatsani et Bunn, 2010; Weron, 2014). In this paper,we introduce a new regression tree based model that yields good predictions on a long-termperiod with low computational resources requirements. Our approach is validated by temporalseries collected from an electricity provider.
We propose a neighborhood-based approach for data streams clustering. Instead of processingeach new element one by one, we propose to process each group of new elements simultaneously.A neighborhood-based clustering is applied on each new group. We also definean incremental construction method of the neighborhood graph based on the stream evolution.To validate the approach, we apply it to multiple data sets and we compare it with variousstream clustering approaches.
Model tree is a useful and convenient method for predictive analytics in data streams.Often, this issue is solved by pre-processing techniques applied prior to the training phase ofthe model. In this article, we propose a new method that estimates and adjusts missing valuesbefore the model tree training. A prototype was developed and tested on several data streams.
Prendre une décision impliquant plusieurs acteurs aux objectifs divergentsnécessite de considérer des informations tant qualitatives – les préférencesdes acteurs sur les décisions possibles – que quantitatives – les paramètres servantd'indicateurs pour les acteurs. Dans cet article nous nous intéressons à l'associationde ces deux types d'approches. Le modèle qualitatif considéré est l'argumentation.Le modèle quantitatif simulant les scénarios découlant de chaquedécision est la dynamique des systèmes. Cet article s'intéresse aux éléments permettantde connecter les deux formalismes. Un exemple en agroalimentaire vienten appui à cette réflexion.
Machine learning has proven to be a powerful tool in diverse fields, and is getting moreand more widely used by non-experts. One of the foremost difficulties they encounter liesin the choice and calibration of the machine learning algorithm to use. Our objective is thusto provide assistance in the matter, using a meta-learning approach based on an evolutionaryheuristic. We introduce here this approach as a potential solution to the limitation of currentdata characterization.
Cet article présente une approche pour la catégorisation et la désambiguïsationdes intérêts que les individus renseignent sur les réseaux sociaux enutilisant Wikipédia.
Ces dernières années de nombreuses méthodes semi-supervisées declustering ont intégré des contraintes entre paires d'objets ou d'étiquettes declasse, afin que le partitionnement final soit en accord avec les besoins de l'utilisateur.Pourtant dans certains cas où les dimensions d'études sont clairementdéfinies, il semble opportun de pouvoir directement exprimer des contraintessur les attributs pour explorer des données. De plus, une telle formulation permettraitd'éviter les écueils classiques de la malédiction de la dimensionnalitéet de l'interprétation des clusters. Cet article propose de prendre en compte lespréférences de l'utilisateur sur les attributs afin de guider l'apprentissage de ladistance pendant le clustering. Plus précisément, nous montrons comment paramétrerla distance euclidienne par une matrice diagonale dont les coefficientsdoivent être au plus proche des poids fixés par l'utilisateur. Cette approche permetd'ajuster le clustering pour obtenir un compromis entre les approches guidéespar les données et par l'utilisateur. Nous observons que l'ajout des préférencesest parfois essentiel pour atteindre un clustering de meilleure qualité.
Nous proposons dans cet article une approche de clustering visuelsemi-interactif. L'approche proposée utilise la perception visuelle pour guiderl'utilisateur dans le processus interactif. Les clusters sont extraits de manièresuccessive et itérative, puis évalués selon leur ordre d'extraction. Pour l'utilisateur,l'approche semi-interactive permet non seulement d'évaluer les classes enfonction d'un critère déterminé mais aussi d'évaluer l'influence de l'extractiond'un cluster sur ceux précédemment extraits. Un protocole de test est présentéafin de comparer cette approche avec les approches purement automatiques etpurement interactives. Cet article est un résumé d'un papier accepté 1 pour unjournal international.
Our work consists in developing a workflow using Knowledge Discovery methodologiesto propose advanced predictive biomarkers discovery solutions from metabolomic data. Wepropose to use machine learning algorithms for feature selection and FCA for visualization.
Le suicide devient d'année en année une problématique plus préoccupante.Les organismes de santé tels que l'OMS se sont engagés à réduire lenombre de suicides de 10% dans l'ensemble des pays membres d'ici 2020. Sile suicide est généralement un geste impulsif, il existe souvent des actes et desparoles qui peuvent révéler un mal être et représenter des signes précurseurs deprédispositions au suicide. L'objectif de cette étude est de mettre en place unsystème pour détecter semi-automatiquement ces comportements et ces parolesau travers des réseaux sociaux. Des travaux précédents ont proposé la classificationde messages issus de Twitter suivant des thèmes liés au suicide : tristesse,blessures psychologiques, état mental, etc. Dans cette étude, nous ajoutons la dimensiontemporelle pour prendre en compte l'évolution de l'état des personnesmonitorées. Nous avons implémenté pour cela différentes méthodes d'apprentissagedont une méthode originale de concept drift. Nous avons expérimenté avecsuccès cette méthode sur des données réelles issues du réseau social Facebook.
Dans cet article, nous étudions de manière conjointe la construction etl'exploration visuelle d'une structure de classification pour de très grande based'images. Pour garantir que la structure construite vérifiera les contraintes detaille nécessaires à sa visualisation dans une interface Web tout en reflétant lespropriétés topologiques des données (clusters), nous combinons la classificationhiérarchique de BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)avec la construction de graphes de voisinage : un graphe de voisinageest créé et mis à jour de manière incrémentale pour représenter les fils de chaquenoeud de l'arbre. De plus, un ensemble d'images représentatives est remonté àchaque noeud interne pour guider l'utilisateur lors de l'exploration visuelle del'arbre. L'ensemble des algorithmes utilisés sont incrémentaux pour gérer l'insertionde nouvelles images dans la collection. Nous présentons les premiersrésultats sur des dizaines de milliers d'images qui peuvent être ainsi structuréesen une minute de temps de calcul. L'exploration dans l'interface est fluide grâceaux propriétés de la structure construite.
In this paper, we propose two contributions about the determination of chromatic numberand the verification of the 2-colorability property. We introduce an unreleased relation betweenthe problem of hypergraph coloring and the computation of minimal transversals hypergraphand, especially, a subset of them. Thereby, we propose two algorithms in order to optimize theverification of the 2-colorability property of hypergraphs and the evaluation of the chromaticnumber. Experiments carried out on several types of hypergraphs, showed that our algorithmobtains very interesting results.
L'analyse des données comportementales représente aujourd'hui ungrand enjeu. Tout individu génère des traces d'activité et de mobilité. Lorsqu'ellessont associées aux individus, ou labels, qui les ont créées, il est possiblede construire un modèle qui prédit avec précision l'appartenance d'une nouvelletrace. Sur internet, il est cependant fréquent qu'un utilisateur possède différentesidentités virtuelles, ou labels doublons. Les ignorer provoque une grande réductionde la précision de l'identification. Il est ainsi question dans cet article du problèmede déduplication de labels, et l'on présente une méthode originale baséesur l'exploration du treillis des classifieurs binaires. Chaque sous-ensemble delabels est classifié face à son complémentaire et des contraintes rendent possiblel'identification des labels doublons en élaguant l'espace de recherche. Des expérimentationssont menées sur des données issues du jeu vidéo STARCRAFT 2.Les résultats sont de bonne qualité et encourageants.
De nombreuses industries manufacturières s'intéressent aujourd'hui àl'exploitation des grandes collections de traces unitaires. Les applications sontmultiples et vont du simple "reporting" à la détection de fraudes en passant parla gestion de retours ou encore la mise en évidence d'incohérences dans lescircuits de distribution. Une étape importante consiste à détecter des anomaliesdans des collections de traces. Si les travaux concernant la détection d'anomaliessont assez nombreux, peu permettent de caractériser les anomalies détectées parune description intelligible. Étant donné un ensemble de traces unitaires, nousdéveloppons une méthode d'extraction de motifs pour détecter et contextualiserdes comportements non conformes à un modèle expert (fourni ou construit àpartir des données). Le degré d'anomalie est alors quantifié grâce à la proportiondu nombre de mouvements des objets qui ne sont pas prévus dans le modèleexpert. Cette recherche est financée partiellement par un programme industrielqui ne permet ni de dévoiler le contexte concret ni de parler des données réelles.Ainsi, nous validons empiriquement la valeur ajoutée de la méthode proposéepar l'étude de traces de mobilité dans un jeu vidéo : nous pouvons alors discuterd'un motif qui explicite les raisons de l'inexpérience de certains joueurs.
Dans le domaine de l'analyse de textes, l'extraction de motifs est unetechnique très populaire pour mettre en évidence des relations fréquentes entreles mots. De même, les techniques de topic modeling ont largement fait leurspreuves lorsqu'il s'agit de classer automatiquement des ensembles de textes partageantdes thématiques similaires. Ainsi, ce papier a pour ambition de montrerl'intérêt de l'utilisation conjointe de ces deux techniques afin de mettre en évidence,sous la forme d'un graphe biparti, des mots partageant des thématiquessimilaires mais aussi leurs relations fréquentes, intra et inter thématiques. Lesdonnées du Défi EGC 2016 permettent de valider l'intérêt de l'approche, touten montrant l'évolution des thématiques et des mots clés parmi les papiers de laconférence EGC sur ces onze dernières années.
Dans ce travail, nous analysons les données concernant les articles publiés à laconférence EGC. Notre objectif est d'identifier et de comprendre les tendances en matièrede collaborations. Pour ce faire, nous adoptons une modélisation descriptive, à travers uneapproche réseau qui consiste à générer tout d'abord le réseau de collaborations des auteursà partir des données. Nous enrichissons ensuite les noeuds de ce réseau d'une dizained'attributs individuels extraits à partir des données. Enfin, nous recherchons des vuesconceptuelles, une approche récente de clustering de liens, qui permet de synthétiser desréseaux en mettant en évidence les ensembles d'attributs retrouvés fréquemment liés dansle réseau. Les résultats obtenus montrent les tendances existantes dans les comportementsde collaborations. Dans ce papier, nous présentons ces tendances et montrons commentelles évoluent selon différents seuils d'extraction.
La détection de données aberrantes (outliers) consiste à détecter desobservations anormales au sein des données. Durant la dernière décennie, desméthodes de détection d'outliers utilisant les motifs fréquents ont été proposées.Elles extraient dans une première phase tous les motifs fréquents, puis assignentà chaque transaction un score mesurant son degré d'aberration (en fonction dunombre de motifs fréquents qui la couvre). Dans cet article, nous proposons deuxnouvelles méthodes pour calculer le score d'aberration fondé sur les motifs fréquents(FPOF). La première méthode retourne le FPOF exact de chaque transactionsans extraire le moindre motif. Cette méthode s'avère en temps polynomialpar rapport à la taille du jeu de données. La seconde méthode est une méthodeapprochée où l'utilisateur final peut contrôler l'erreur maximale sur l'estimationdu FPOF. Une étude expérimentale montre l'intérêt des deux méthodes pour lesjeux de données volumineux où une approche exhaustive échoue à calculer unesolution exacte. Pour un même nombre de motifs, la précision de notre méthodeapprochée est meilleure que celle de la méthode classique.
The Automatic Identification System was initially designed for safety purposes. However,the system is not secured and the messages contain errors and undergo attacks and falsifications.This article proposes a methodological approach for the detection of falsified AISmessages.
Les hiérarchies sont des structures cruciales dans un entrepôt de donnéespuisqu'elles permettent l'agrégation de mesures dans le but de proposerune vue analytique plus ou moins globale sur les données entreposées, selon leniveau hiérarchique auquel on se place. Cependant, peu de travaux s'intéressentà la construction de hiérarchies, via un algorithme de fouille de données, prenanten compte le contexte multidimensionnel de la dimension concernée. Danscet article, nous proposons donc un algorithme, implémenté sur une architectureROLAP, permettant d'enrichir une dimension avec des données factuelles.
De nos jours, il y a un fort intérêt pour de nouvelles méthodes d'évaluationdes groupes de recherche afin de quantifier l'impact de leur travail surtoute la communauté scientifique et de tenter de prédire leurs performances dansle futur. Dans ce contexte, nous proposons une nouvelle approche hybride quimesure la centralité d'un groupe de chercheurs publiants. Cette mesure profitede l'expressivité et de la capacité d'inférence apportées par une modélisationontologique des groupes et des thématiques inférées, et d'une modélisation engraphe qui permet d'explorer les interactions entre ces différents groupes aufil du temps. Ce modèle permet également de détecter les groupes capables decollaborer avec d'autres tout en maintenant un haut niveau de production, etd'identifier ceux qui sont plus déterminants sur les thématiques déduites, afin dedévelopper des collaborations de recherche plus fructueuses.
Nous présentons dans cet article les méthodes employées et les résultatsobtenus en réponse au Défi EGC 2016. Notre approche repose d'une partsur des chaînes automatiques de traitements linguistiques en français et en anglaisutilisant le plus possible des ressources et outils publics et d'autre part surun environnement d'exploration des données basé sur les systèmes d'informationlogiques ; ces systèmes exploitent une généralisation des treillis de conceptsformels appliquée aux données attribut-valeur ou au web sémantique.
Les technologies du web sémantique sont de plus en plus utiliséespour la gestion de flux de données. Plusieurs systèmes de traitement de fluxRDF ont été proposés : C-SPARQL, CQELS, SPARQLstream, EP-SPARQL,SPARKWAVE, etc. Ces derniers étendent tous à la base, le langage d'interrogationsémantique SPARQL. Les données à l'entrée du système sont volumineuseset générées en continu à un rythme rapide et variable. De ce fait, le stockage etle traitement de la totalité du flux deviennent coûteux et le raisonnement presqueimpossible. Par conséquent, le recours à des techniques permettant de réduire lacharge tout en conservant la sémantique des données, permet d'optimiser les traitementsvoire le raisonnement. Cependant, aucune des extensions de SPARQLn'inclut cette fonctionnalité. Ainsi, dans cet article, nous proposons d'étendre lesystème C-SPARQL pour générer des échantillons à la volée sur flux de graphesRDF. Nous ajoutons trois opérateurs d'échantillonnage (UNIFORM, RESERVOIRet CHAIN) à la syntaxe de C-SPARQL. Les expérimentations montrent laperformance de notre extension en terme de temps d'exécution, et de la préservationde la sémantique des données.
Nous détaillerons ici une approche permettant de détecter des affixes àpartir de dictionnaires en se basant sur l'algorithme de la plus longue sous-chaînecommune, dans le cadre de la reconnaissance d'entités nommées chimiques surCHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin deles intégrer au mieux dans un système d'apprentissage automatique.
De grandes quantités de données sont publiées sur le web des données.Les lier consiste à identifier les mêmes ressources dans deux jeux de donnéespermettant l'exploitation conjointe des données publiées. Mais l'extractionde liens n'est pas une tâche facile. Nous avons développé une approche qui extraitdes clés de liage (link keys). Les clés de liage étendent la notion de cléde l'algèbre relationnelle à plusieurs sources de données. Elles sont fondées surdes ensembles de couples de propriétés identifiant les objets lorsqu'ils ont lesmêmes valeurs, ou des valeurs communes, pour ces propriétés. On présenteraune manière d'extraire automatiquement les clés de liage candidates à partir dedonnées. Cette opération peut être exprimée dans l'analyse formelle de concepts.La qualité des clés candidates peut-être évaluée en fonction de la disponibilité(cas supervisé) ou non (cas non supervisé) d'un échantillon de liens. La pertinenceet de la robustesse de telles clés seront illustrées sur un exemple réel.
Dans cet article, nous présentons CommentsMiner, une solution d'extractionnon supervisée pour l'extraction de commentaires utilisateurs. Notreapproche se base sur une combinaison de techniques de fouille de sous-arbresfréquents, d'extraction de données et d'apprentissage de classement. Nos expérimentationsmontrent que CommentsMiner permet de résoudre le problèmed'extraction de commentaires sur 84% d'un jeu de données représentatif et publiquementaccessible, loin devant les techniques existantes d'extraction.
Nous présentons une méthode d'extraction de connaissances dans dessystèmes d'information pervasifs. Nous étudions l'impact du contexte (environnement)d'un utilisateur sur les applications qu'il utilise sur son smartphone.Notre proposition pour gérer la complexité des données contextuelles repose surl'Analyse Formelle de Concepts et les treillis de Galois. Nous nous focalisonssur l'automatisation du processus d'interprétation de ces treillis, pour généraliserl'extraction de connaissances et passer à l'échelle. Nous présentons desmétriques originales illustrées sur des données réelles.
This paper introduces a software factory for developing social networks. This factory takesan abstract social network and creates a concrete one, using mechanisms such as sub-typingand behavior overloading.
In data mining we often have to learn from biased data, because, for instance, data comesfrom different batches or there was a gender or racial bias in the collection of social data. Insome applications it may be necessary to explicitly control this bias in the models we learn fromthe data. Recently this topic received considerable interest both in the research community aswell as more general, as witnessed by several recent articles in popular news media such asthe New York Times. In this talk I will introduce and motivate research in fairness-aware datamining. Different techniques in unsupervised and supervised data mining will be discussed,dividing these techniques into three categories: algorithms of the first category adapt the inputdata in such a way to remove harmful biases while the second adapts the learning algorithmsand the third category modifies the output models in such a way that its predictions becomeunbiased. Furthermore different ways to quantify unfairness, and indirect and conditionaldiscrimination will be discussed, each with their own pros and cons. With this talk I hope toconvincingly argument the validity and necessity of this often contested research area.
La plateforme FODOMUST 1 est une implantation concrète des méthodes,librairies et interfaces proposées au sein d'ICube. Elle intègre une versionmultisource de la méthode de classification collaborative multistratégie SAMARAH.Elle propose aussi un ensemble d'algorithmes de segmentation soitpropres à ICUBE soit faisant appel à l'OTB. Enfin, trois interfaces dédiées chacuneà un type de données différent permettent une interaction avec l'utilisateur.Sa principale originalité est qu'elle permet la classification, basée sur DTW (DynamicTimeWarping) de données temporelles symboliques ou numériques et deséries temporelles d'images
Cet article présente l'utilisation de la programmation par ensemblesréponses (ASP) pour répondre à une tâche de fouille de motifs séquentiels. Lasyntaxe de l'ASP, proche du Prolog, en fait un langage très pertinent pour représenterdes connaissances de manière aisée et ses mécanismes de résolution,basés sur des solveurs efficaces, en font une solution alternative aux approchesde programmation par contraintes pour la fouille déclarative de motifs. Nousproposons un premier encodage de la tâche classique d'extraction de motifs séquentielset de ses variantes (motifs clos et maximaux). Nous comparons lesperformances calculatoires de ses encodages avec une approche de programmationpar contraintes. Les performances obtenues sont inférieures aux approchesde programmation par contraintes, mais l'encodage purement déclaratif offreplus de perspectives d'intégration de connaissances expertes.
Nous nous intéressons, dans le cadre du projet ANR Qualinca au traitementdes données redondantes. Nous supposons dans cet article que cette redondancea déjà été établie par une étape préalable de liage de données. Laquestion abordée est la suivante : comment proposer une représentation uniqueen fusionnant les "duplicats" identifiés ? Plus spécifiquement, comment décider,pour chaque propriété de la donnée considérée, quelle valeur choisir parmi cellesfigurant dans les "duplicats" à fusionner ? Quelle méthode adopter dans le butde pouvoir, par la suite, retracer et expliquer le résultat obtenu de façon transparenteet compréhensible par l'utilisateur ? Nous nous appuyons pour cela surune approche de décision multicritère et d'argumentation.
L'utilisation des connaissances a priori peut fortement améliorer laclassification non-supervisée. L'injection de ces connaissances sous forme decontraintes sur les données figure parmi les techniques les plus efficaces de lalittérature. Cependant, la génération des contraintes est très coûteuse et demandel'intervention de l'expert ; la sémantique apportée par l'étiquetage de l'expertest aussi perdue dans ce type de techniques, seuls les contraintes sont retenuespar le clustering. Dans cet article, nous proposons une nouvelle approche hybrideexploitant le raisonnement à base d'ontologie pour générer automatiquementdes contraintes permettant de guider et améliorer le clustering. L'utilisationd'une ontologie comme connaissance a priori a plusieurs avantages. Elle permetl'interprétation automatisée des connaissances, ajoute de la modularité dans lachaîne de traitement et améliore la qualité du clustering en prenant en comptela vision de l'utilisateur. Pour évaluer notre approche, nous l'avons appliquée àla classification d'images satellites et les résultats obtenus démontrent des améliorationsnotables à la fois au niveau de la qualité du clustering et au niveau del'étiquetage sémantique des clusters sans intervention de l'expert.
Semantic relations are the core of a growing number of knowledge-intensive systems. Theneed to validate automatically such relations remains an up-to-date challenge. In this paper, wepresent a web-based method enabling the automatic identification of the class of a semantic relation.Using measures based on syntactic patterns as entry features for a learning algorithm,we are able to successfully identify 72% of semantic relations divided in 4 classes in a semanticallyrich environment.
With the explosive growth of the social media (forums, blogs, and social networks) on theWeb, the exploitation of these new information sources became essential. In this paper, wepresent a new automatic method to integrate knowledge for sentiment detection from a SMScorpus by combining lexical and semantic information.
La recommandation de points d'intérêts (ou POI), est devenue un problèmemajeur avec l'émergence des réseaux sociaux (ou LBSN). À la différencedes approches de recommandation traditionnelles, les données des LBSN présententdes caractéristiques géographique et temporelle importantes qui limitentles performances des algorithmes traditionnels existant. L'intégration de ces caractéristiquesdans un unique modèle de factorisation pour augmenter la qualitéde la recommandation n'a pas été un problème très étudié jusqu'à présent. Dansce papier nous présentons GeoMF-TD, une extension d'un modèle de factorisationgéographique avec des dépendances temporelles. Nos expérimentationssur un jeu de données réel montre jusqu'à 20% de gain sur la précision de larecommandation.
Khiops est un outil d'apprentissage supervisé automatique pour lafouille de grandes bases de données multi-tables. L'importance prédictive desvariables est évaluée au moyen de modèles de discrétisation dans le cas numériqueet de groupement de valeurs dans le cas catégoriel. Dans le cas d'unebase multi-tables, par exemple des clients avec leurs achats, une table d'analyseindividus × variables est produite par construction automatique de variables.Le modèle de classification utilisé est un classifieur Bayésien naïf avec sélectionde variables et moyennage de modèles. L'outil est adapté à l'analyse desgrandes bases de données, avec des millions d'individus, des dizaines de milliersde variables et des centaines de millions d'enregistrements dans les tablessecondaires.
Cet article présente une méthode d'exploration de données temporelles,fondée sur l'analyse relationnelle de concepts (ARC) et appliquée à desdonnées séquentielles construites à partir d'échantillons physico-chimiques etbiologiques prélevés dans des cours d'eau. Notre but est de mettre au jour dessous-séquences pertinentes et hiérarchisées, associant les deux types de paramètres.Pour faciliter la lecture, ces sous-séquences sont représentées sous laforme de motifs partiellement ordonnés (po-motifs). Le processus de fouille dedonnées se décompose en plusieurs étapes : construction d'un modèle temporelad hoc et mise en oeuvre de l'ARC ; extraction des sous-séquences synthétiséessous la forme de po-motifs ; sélection des po-motifs intéressants grâce à unemesure exploitant la distribution des extensions de concepts. Le processus a ététesté sur un jeu de données réelles et évalué quantitativement et qualitativement.
This paper describes a new approach for the automatic generation of visual summariesdealing with cartographic visualization methods and modeling of data coming from sensors inreal time for meteorology. Indeed the concept of chorems seems to be an interesting candidateto visualize real time geographic database summaries.
Sequential patterns mining consist in identifying frequent sequences of ordered events. Tosolve the problem of the large number of patterns obtained, we extend the interest measurecalled confidence, conventionally used to select association rules to sequential patterns. Wefocused on a case study: myocardial infarction (MI), in order to predict the trajectory of patientswith MI between 2009 and 2013. The results were submitted to an expert for discussionand validation.
La quantité de données dans notre monde a explosé et l'analyse de grands ensemblesde données – aussi connu dans l'industrie sous le nom « Big Data » – deviendra un atoutmajeur de compétitivité, principalement dû à une croissance de productivité et surtoutà grâce à plus d'innovation. La croissance exponentielle de données est alimentée parla facilité de la captation et par la multiplication de canaux numériques d'acquisition.On pense non seulement à tous les processus qui sont informatisés aujourd'hui, maisaussi aux médias sociaux et aux objets connectés.L'assurance vie une révolution tout particulière. L'assureur, traditionnellement gestionnairedu risque en s'appuyant sur une longue expérience, qu'on traduirait aujourd'huipar une captation systématique de données, est après la révolution numériquepartiellement exclus de canaux digitaux.Ceci est en même temps une menace et une opportunité. Il s'agit d'un défi puisquel'industrie doit réaliser une forte mutation pour se positionner la où la donnée setrouve aujourd'hui, i.e. dans le digital. Il s'agit d'une opportunité puisque ces nouvellesdonnées permettront de mieux appréhender les risques, et plus particulièrement,permettront d'estimer au plus près les risques à la source, plutôt que passer par devariables intermédiaires, comme peut l'être l'âge pour le risque d'accident en conduite.L'opportunité est d'autant plus grande qu'en accédant aux données au plus près desutilisateurs il est possible de faire de la prévention évitant ainsi des accidents coûteuxpour l'assureur, mais surtout désastreux pour les victimes.Une fois la révolution engagée, ceci implique, un certain nombre de transformationsdans les processus d'extraction et gestion de connaissances. Les défis scientifiques sontnombreux, allant de la captation non-intrusive de la donnée, à la visualisation et gestionde connaissances extraites, en passant par de l'apprentissage artificiel pour pouvoirservir à de millions d'utilisateurs simultanément. Dans cette présentation nous allonscouvrir rapidement chacune de ces thématiques avec une attention particulière auxdéfis scientifiques sous-jacents.Nous allons illustrer notre propos par un exemple phare de cette révolution : lafamille d'offres d'assurance dite « pay as you drive » où généralement on obtient unedécote ou réduction en fonction de sa façon de conduire. Nous allons ce que ceci impliqueen termes d'extraction et de gestion de connaissances.Pour conclure, il est important de mentionner que cette révolution implique d'autreschallenges cruciaux qui dépassent ce qui est abordé ici. En particulier, pour ne mentionnerque deux grands axes : la protection de la vie privée, aussi bien du point de vuetechnique que juridique ; et la transformation de métiers accompagné d'une pénurie detalents déjà entamé.
The MAESTRA project (http://maestra-project.eu/) addresses the ambitious taskof predicting different types of structured outputs in several challenging settings, suchas semi-supervised learning, mining data streams and mining network data. It developsmachine learning methods that work in each of these settings, as well as combinationsthereof. The techniques developed are applied to problems from the area of biology andbioinformatics, sensor data analysis, multimedia annotation and retrieval, and socialnetwork analysis. The talk will give an introduction to the project and the topicsit addresses, an overview of the results of the project, and a detailed description ofselected techniques and applications: Semi-supervised learning for structured-outputprediction (SOP) and SOP on data streams will be discussed for the task of multitargetregression (MTR), as well as applications of MTR for the annotation/retrievalof images.
Nous présentons dans ce papier un protocole de gestion de la cohérenceappelé LibRe adapté aux systèmes de stockage orientés Cloud (telles queles bases de données NoSQL). Ce protocole garantit l'accès à la donnée la plusrécente tout en ne consultant qu'une seule réplique. Cet algorithme est évaluépar simulation et est également implémenté au sein du système de stockage Cassandra.Les résultats de ces expérimentations ont démontré l'efficacité de notreapproche.
Dans cette démonstration, nous proposons une application de visualisationdes résultats de la fouille de données séquentielles. Pour illustrer le fonctionnementde cette application, nous avons utilisé des données PMSI hospitalières,plus précisément dans le cas de l'infarctus du myocarde (IM). Les résultatsobtenus ont été soumis à un spécialiste pour discussion et validation.
Today, the volume of unstructured and heterogeneous data is exploding, coming from multiplesources with different levels of quality. Therefore, it is very likely to manipulate datawithout knowledge about their structures and their semantics. In fact, the meta-data may beinsufficient or totally absent. Data anomalies may be due to the poverty of their semantic descriptions,or even the absence of their descriptions. We propose an approach to understandbetter the semantics and the structure of the data. It helps to correct the intra-column anomalies(homogenization) and then the inter-columns ones caused by the violation of semanticdependencies.
Clowdflows est un logiciel open source qui permet à un utilisateur deréaliser des processus entiers de fouille de données à partir d'un navigateur etd'une connexion internet. Les calculs sont réalisés dans le “nuage”, c'est-à-direde façon transparente sur plusieurs serveurs exécutant les calculs ou hébergeantles données. Dans cet article, nous rappelons les points forts de clowdflows etnous présentons trois familles d'algorithmes de fouille de données relationnellesque nous venons d'y intégrer. En effet clowdflows est la seule plateforme webpermettant d'exécuter, voire comparer, plusieurs techniques de fouille de donnéesrelationnelles, souvent appelée programmation logique inductive.
De plus en plus de forums, tels que Slashdot ou Stack Exchange, proposentdes systèmes de réputations qui se basent sur le vote collaboratif. Lesutilisateurs peuvent ainsi donner un score à chaque message posté selon sa pertinenceou son utilité. Cependant, ces fonctionnalités de vote sont rarement utiliséesdans de nombreuses communautés en ligne tels que les forums de santé.Dans ces forums, les utilisateurs préfèrent poster un nouveau message exprimantde l'accord ou du remerciement vis à vis des messages pertinents plutôtque de cliquer sur un bouton de vote. Dans ce travail, nous proposons d'utiliserces formes implicites d'expression de la confiance pour estimer la réputation desutilisateurs dans les forums de santé.
L'algorithme de clustering spectral permet en principe d'extraire desclusters de formes arbitraires à partir de données numériques. Cette propriété acontribué à sa popularité, et même si ses bases théoriques sont établies depuisplus d'une décennie, des variantes en ont été proposées jusqu'à récemment. Sonfonctionnement repose sur une transformation vers un espace latent dans lequeldes formes de clusters arbitraires sont converties en structures faciles à traiterpar un algorithme tel que k-means. Toutefois, les distributions dans cet espacelatent n'ont été que peu discutées, beaucoup d'auteurs supposant que les propriétésprédites par la théorie sont vérifiées. Cet article propose alternativementune approche qualitative pour vérifier si cette structure idéale est effectivementobtenue en pratique. Le travail consiste également à identifier les paramètresde variabilité commandant à la transformation vers l'espace latent, via un étatde l'art synthétique de la théorie sous-jacente au clustering spectral. Les observationstirées de nos expériences permettent d'identifier les combinaisons deparamètres efficaces, et les conditions de cette efficacité.
Nous proposons un nouveau système appelé PersoRec afin de personnaliserles recommandations (d'amis, de tags ou de ressources) faites aux utilisateursdans les folksonomies. La personnalisation des recommandations estréalisée en prenant en compte le profil des utilisateurs. Cette nouvelle donnéepermet de proposer aux utilisateurs des tags ou/et ressources plus adaptées àleurs besoins. En plus du profil des utilisateurs, nous avons recours à leur historiquede partage de tags et de ressources dans le but de regrouper les utilisateursayant partagé des tags et des ressources en commun tout en ayant des profilséquivalents (i.e., des structures appelées concepts quadratiques). Ces deux donnéesprises en compte au moment du processus de recommandation a permisd'améliorer la qualité des recommandations faites aux utilisateurs. PersoRec estdonc capable de générer une recommandation personnalisée pour chaque utilisateurselon le mode de recommandation qu'il désire (recommandation d'amis,de tags ou de ressources) et selon le profil qu'il possède.
Nous explorons le plongement de la métrique de plus court chemindans l'hypercube de Hamming, dans l'objectif d'améliorer les performances desimilarité sémantique dans Wordnet (Subercaze et al. (2015)). Nous montronsque bien qu'un plongement isométrique est impossible en pratique, nous obtenonsde très bons plongements non isométriques. Nous obtenons une améliorationdes performances de trois ordres de grandeur pour le calcul de la similaritéde Leacock et Chodorow (LCH).
La qualité des contenus sur les plateformes collaboratives est très hétérogène.Dans la littérature scientifique, les algorithmes d'analyse structurelleappliqués à la tâche de détection de contenu de qualité reposent généralement surdes graphes définis à partir d'un seul type de noeuds et de relations. Pourtant lesgraphes sur lesquels reposent ces récentes plateformes présentent de nombreusessémantiques de noeuds et relations différentes, e.g., producteurs/consommateurs,questions/réponses, etc. Ces solutions souffrent d'un manque de généricité et nepeuvent s'adapter facilement à l'évolution des plateformes. Nous proposons unemodélisation générique de ces platformes par les graphes hétérogènes pouvantintégrer automatiquement de nouvelles sémantiques de noeuds et de relations. Unalgorithme de prédiction de qualité des contenus reposant sur ce modèle est proposé.Nous montrons qu'il généralise plusieurs travaux de la littérature. Enfin,en intégrant certaines relations inter-utilisateurs, nous montrons que notre solution,évaluée surWikipedia et Stack Exchange, améliore la tâche de détection decontenu de qualité.
Dans cet article, nous nous intéressons à une situation de classificationnon supervisée dans laquelle nous souhaitons imposer une "forme" commune àtous les clusters. Dans cette approche, la "forme" commune sera caractérisée parun hyperplan qui sera le même pour tous les groupes, à une translation près.Les points sont donc supposés être distribués autour d'hyperplans parallèles. Lafonction objectif utilisée peut naturellement s'exprimer comme la minimisationde la somme des distances de chaque point à son hyperplan. Comme pour le casde k-means, la résolution est effectuée par l'alternance de phases d'affectationde chaque point à l'hyperplan le plus proche et de phases de calcul de l'hyperplanqui ajuste au mieux l'ensemble des points qui lui sont affectés. L'objectifétant d'obtenir des hyperplans parallèles, cette phase de calcul est menée simultanémentpour tous les hyperplans, par une méthode de régression.
Nous présentons un nouvel algorithme parallèle de régression logistique(PAR-MC-LR) pour la classification d'images à grande échelle. Nous proposonsplusieurs extensions de l'algorithme original de régression logistique àdeux classes pour en développer une version efficace pour les grands ensemblesde données d'images avec plusieurs centaines de classes. Nous présentons unnouvel algorithme LR-BBatch-SGD de descente de gradient stochastique de régressionlogistique en batch équilibré avec un apprentissage parallèle (approcheun contre le reste) multi-classes sur de multiples coeurs. Les résultats expérimentauxsur des ensembles de données d'ImageNet montrent que notre algorithmeest efficace comparés aux algorithmes de classification linéaires de l'état de l'art.
Les requêtes skyline constituent un outil puissant pour l'analyse dedonnées multidimensionnelles et la décision multicritère. En pratique, le calculdu skyline peut conduire à deux scénarios : soit (i) un nombre important d'objetssont retournés, soit (ii) un nombre réduit d'objets sont retournés, ce qui peut êtreinsuffisant pour la prise de décisions. Dans cet article, nous abordons le secondproblème et proposons une approche permettant de le traiter. L'idée consiste àrendre le skyline plus permissive en lui ajoutant les objets, non skyline, les pluspréférés. L'approche s'appuie sur une nouvelle relation de dominance floue appelée«Much Preferred». Un algorithme efficace pour calculer le skyline relaxéest proposé. Une série d'expériences sont menées pour démontrer la pertinencede l'approche et la performance de l'algorithme proposé.
À l'ère du Big Data, les profils d'utilisateurs deviennent de plus enplus diversifiés et les données de plus en plus complexes, rendant souvent trèsdifficile l'exploration des données. Dans cet article, nous proposons une techniquede réécriture de requêtes pour aider les analystes à formuler leurs interrogations,pour explorer rapidement et intuitivement les données. Nous introduisonsles requêtes discriminantes, une restriction syntaxique de SQL, avecune condition de sélection qui dissocie des exemples positifs et négatifs. Nousconstruisons un ensemble de données d'apprentissage dont les exemples positifscorrespondent aux résultats souhaités par l'analyste, et les exemples négatifs àceux qu'il ne veut pas. En utilisant des techniques d'apprentissage automatique,la requête initiale est reformulée en une nouvelle requête, qui amorce un processusitératif d'exploration des données. Nous avons implémenté cette idée dansun prototype (iSQL) et nous avons mené des expérimentations dans le domainede l'astrophysique.
Nous partons de l'hypothèse que les dynamiques spatiales et l'évolutiondes usages des objets géographiques peuvent en partie être explicitées(voire anticipées) par leurs différentes évolutions précédentes et les configurationsspatiales dans lesquelles ils se situent. Aussi afin d'analyser et comprendreles changements de fonction des objets géographiques au cours du temps, et endéduire un modèle prospectif et puis prédictif, nous proposons l'outil SAFFIETqui exploite la recherche des motifs fréquents et des règles d'associations, pourextraire des règles d'évolution régissant les dynamiques spatiales.
We propose a meta-model, called SArEM, that specifies the basic elements of the softwarearchitecture extraction. SArEM serves as a tool to compare the different software architectureextraction approaches that aim to extract a system architecture from the source code.
La mise en place d'actions marketing efficaces passe par la segmentationde la clientèle. C'est-à-dire que les clients sont regroupés en ensembles homogènesen fonction de leurs habitudes de consommation, ce qui rend possibleles actions ciblées. Ces dernières, en personnalisant l'offre permettent d'obtenirdes taux de transformation plus importants et de meilleures ventes.Dans cet article, une méthode originale de segmentation comportementale de laclientèle est présentée. Elle permet de visualiser les segments de clients à traversdes réseaux de communautés et de déceler aisément des mutations soudainesou graduelles dans les comportements de quelques individus ou d'un ensembleplus important. L'analyste bénéficie alors d'une meilleure visibilité et peut adapterl'offre à tout moment.
En apprentissage automatique, la présence d'un grand nombre de variablesexplicatives conduit à une plus grande complexité des algorithmes et àune forte dégradation des performances des modèles de prédiction. Pour cela,une sélection d'un sous-ensemble optimal discriminant de ces variables s'avèrenécessaire. Dans cet article, une approche topologique est proposée pour la sélectionde ce sous-ensemble optimal. Elle utilise la notion de graphe de voisinagepour classer les variables par ordre de pertinence, ensuite, une méthode pas à pasde type ascendante "forward" est appliquée pour construire une suite de modèlesdont le meilleur sous-ensemble est choisi selon son degré d'équivalence topologiquede discrimination. Pour chaque sous-ensemble, le degré d'équivalence estmesuré en comparant la matrice d'adjacence induite par la mesure de proximitéchoisie à celle induite par la "meilleure" mesure de proximité discriminante ditede référence. Les performances de cette approche sont évaluées à l'aide de donnéessimulées et réelles. Des comparaisons de sélection de variables en discriminationavec une approche métrique montrent une bien meilleure sélection àpartir de l'approche topologique proposée.
The main drawbacks of current reasoning methods over ontologies are they struggle toprovide scalability for large datasets. The batch processing reasoners who provide the bestscalability so far are unable to infer knowledge from evolving data. We contribute to solvingthese problems by introducing Slider, an efficient incremental reasoner. Slider exhibits a performanceimprovement by more than a 70% compared to the OWLIM-SE reasoner. Slider isconceived to handle expanding data from streams with a growing background knowledge base.It natively supports df and RDFS, and its architecture allows to extend it to more complexfragments with a minimal effort.
Dans cet article nous présentons une approche couplant une courberemplissant l'espace et une chaîne de Markov pour analyser des données spatialesconcernant la localisation de haies. Du fait de l'hétérogénéité spatiale desdonnées, nous utilisons une courbe adaptative de Hilbert qui permet de linéariserl'espace en s'ajustant localement à la densité des données. Pour ensuite exploiterla séquence produite, il est nécessaire de caractériser la distance entre un pointet son prédecesseur sur la courbe ainsi que la densité locale. Nous proposonsde calculer un temps d'accès à un point à partir du point précédent en utilisantla notion de profondeur de découpe. Cette variable, couplée avec les variablescaractérisant les haies est ensuite analysée avec un modèle de Markov. Nousprésentons et interprétons les résultats obtenus sur un jeu de données d'environ10000 segments de haies d'une zone de la Basse vallée de la Durance.
We propose a new generic knowledge model dedicated to the consideration of temporaland spatial dimensions of moving objects. We extend usual approaches to meet the specificityof the representation of moving objects and their trajectories. An application on shipping andboat trip scenarii is done.
In this paper, we present TOM (TOpic Modeling), a Python libraryfor topic modeling and browsing. Its objective is to allow for an efficient analysisof a text corpus from start to finish, via the discovery of latent topics. To thisend, TOM features advanced functions for preparing and vectorizing a text corpus.It also offers a unified interface for two topic models (namely LDA usingeither variational inference or Gibbs sampling, and NMF using alternating leastsquarewith a projected gradient method), and implements three state-of-the-artmethods for estimating the optimal number of topics to model a corpus. What ismore, TOM constructs an interactive Web-based browser that makes exploringa topic model and the related corpus easy.
Dans le cadre du défi proposé à l'édition 2016 de la conférence EGC, nous exploitons lesarticles qui y ont été publiés de 2004 à 2015, avec pour but d'expliquer sa structure et sonévolution. A partir des thématiques latentes découvertes et d'autres propriétés des articles (e.g.auteurs, affiliations), nous mettons en lumière des caractéristiques intéressantes des structuresthématique et collaborative d'EGC. A l'aide d'une méthode d'extraction d'itemsets dans leshyper-graphes nous mettons aussi en avant des liens latents entre auteurs ou entre thématiques.De plus, nous proposons des recommandations d'auteurs ou de thématiques. Enfin, nous décrivonsune interface Web pour explorer les connaissances découvertes.
In today's data-rich world, pattern mining techniques allow us to extract knowledge fromdata. However, such knowledge can take many forms and often depends on the application athand. This calls for generic techniques that can be used in a wide range of settings. In recentyears, constraint programming has been shown to offer a generic methodology that fits manypattern mining settings, including novel ones. Existing constraint programming solvers do notscale very well though. In this talk, I will review different ways in which this limitation hasbeen overcome. Often, this is through principled integration of techniques and data structuresfrom pattern mining into the constraint solvers.
Alors que l'extraction de connaissances à partir de données(ecd) est un processus qualifié d'interactif et d'itératif, l'interactivité desoutils est souvent limitée et son étude est relativement récente. Elle estpourtant déterminante lors de l'interprétation pour choisir les motifs quideviendront des connaissances. Nous proposons Transmute, un outild'assistance à l'interprétation dans le processus d'ecd, dans le cadre dela recherche d'épisodes séquentiels à partir de traces. La phase d'interprétationest itérative et à chaque itération les résultats de la fouille sontmis à jour dynamiquement en fonction des interactions avec l'analyste.Des outils de visualisation et des mesures de qualité indépendantes dudomaine permettent de caractériser l'intérêt des motifs à interpréter pourfaciliter leur choix et accompagner le travail de l'analyste afin de l'aider àse focaliser plus rapidement sur les motifs potentiellement intéressants.
Dans cet article nous présentons CoSC, un cadre collaboratif pour lasegmentation et la classification d'images de télédétection permettant d'extraireles objets d'une classe thématique donnée. Le processus de collaboration estguidé par la qualité des données évaluée par des critères d'homogénéité ainsique des critères implicitement liés à la sémantique des objets afin d'extraire uneclasse thématique donnée. Nos expériences montrent que CoSC atteint des bonsrésultats en termes de classification, et améliore notablement la segmentation del'image de manière globale.
Dans le cadre du défi EGC 2016, nous avons développé une applicationweb pour explorer les données décrivant les articles publiés depuis 2004 lorsdes conférences EGC. L'outil permet de découvrir les thèmes importants qui ontété abordés dans ces papiers. De plus, il permet de déterminer automatiquementles articles sémantiquement similaires à des thèmes donnés.
Nous présentons une recherche sur la distribution et la classificationnon-supervisée des graphèmes. Nous visons à réduire l'écart entre les résultatsde recherches récentes qui montrent la capacité des algorithmes d'apprentissageet de classification non-supervisée pour détecter les propriétés de phonèmes, etles possibilités actuelles de la représentation textuelle d'Unicode. Nos procéduresdoivent assurer la reproductibilité des expériences et garantir que l'informationrecherchée n'est pas implicitement présente dans le pré-traitement desdonnées. Notre approche est capable de catégoriser correctement de potentielsgraphèmes, ce qui montre que les propriétés phonologiques sont présentes dansles données textuelles, et peuvent être automatiquement extraites à partir desdonnées textuelles brutes en Unicode, sans avoir besoin de les traduire en représentationsphonologiques.
Depuis 2001, les conférences EGC ont rassemblé 1 782 chercheursautour de l'extraction et la gestion de connaissances. En 2016, l'associationEGC réfléchit à son histoire et se projette en lançant un défi à sa communauté.Que peut-on révéler sur la communauté EGC via des approches développées enEGC ? Notre étude lexico-scientométrique apporte un éclairage sur les thématiquesdu congrès, les lieux de publication investis par ses auteurs, ou encore lesauteurs sollicitables comme évaluateurs. Les résultats sont intégrés à un site websous-tendu par un système d'information décisionnel.
Mettre en place un dispositif de détection de pannes représente denos jours l'un des défis majeurs pour les constructeurs des systèmes robotisés.Le processus de détection nécessite l'utilisation d'un certain nombre de capteursafin de surveiller le fonctionnement de ces systèmes. Or, le coût ainsi queles contraintes liées à la mise en place de ces capteurs conduisent souvent lesconcepteurs à optimiser leurs nombres, ce qui mène à un manque de mesuresnécessaires pour la détection de défaillances. L'une des méthodes pour comblerce manque est d'estimer les paramètres non mesurables à partir d'un modèlemathématique décrivant la dynamique du système réel. Cet article présente uneapproche basée sur des données mixtes (données mesurées et données estimées)pour la détection de défaillances dans les systèmes robotisés. Cette détection esteffectuée en utilisant un classifieur de type arbre de décision. Les données utiliséespour son apprentissage proviennent des mesures prises sur le système réel.Ces données sont ensuite enrichies par des données estimées en provenance d'unobservateur basé sur un modèle analytique. Cet enrichissement sous forme d'attributssupplémentaires a pour but d'augmenter la connaissance du classifieursur le fonctionnement du système et par conséquent améliorer le taux de bonnedétection de défaillances. Une expérience sur un système d'actionnement d'unsiège robotisé, montrant l'intérêt de notre approche, sera présentée à la fin del'article.
Cet article porte sur l'étiquetage automatique de documents décrivantdes produits, avec des concepts très spécifiques traduisant des besoins précisd'utilisateurs. La particularité du contexte est qu'il se confronte à une triple difficulté: 1) les concepts utilisés pour l'étiquetage n'ont pas de réalisations terminologiquesdirectes dans les documents, 2) leurs définitions formelles ne sontpas connues au départ, 3) toutes les informations nécessaires ne sont pas forcémentprésentes dans les documents mêmes. Pour résoudre ce problème, nousproposons un processus d'annotation en deux étapes, guidé par une ontologie.La première consiste à peupler l'ontologie avec les données extraites des documents,complétées par d'autres issues de ressources externes. La deuxièmeest une étape de raisonnement sur les données extraites qui recouvre soit unephase d'apprentissage de définitions de concepts, soit une phase d'applicationdes définitions apprises. L'approche SAUPODOC est ainsi une approche originaled'enrichissement d'ontologie qui exploite les fondements du Web sémantique,en combinant les apports du LOD et d'outils d'analyse de texte, d'apprentissageautomatique et de raisonnement. L'évaluation, sur deux domaines d'application,donne des résultats de qualité et démontre l'intérêt de l'approche.
Sharing knowledge and data coming from different sources is one of the biggest advantageof linked data. Keeping this knowledge graph up to date may take in account both ontologyvocabularies and data since they should be consistent. Our general problem is to deal with webof data evolution in particular: We aim at modifing both levels : A-Box and T-Box.
Nous présentons une méthode de réduction de dimensionnalité pourdes données de préférences multicritères lorsque l'espace des évaluations estun treillis distributif borné. Cette méthode vise à réduire la complexité desprocédures d'apprentissage d'un modèle d'agrégation sur des données qualitatives.Ainsi nous considérons comme modèle d'agrégation l'intégrale de Sugeno.L'apprentissage d'un tel modèle à partir de données empiriques est unproblème d'optimisation à 2n paramètres (où n est le nombre de critères considérés).La méthode de réduction que nous proposons s'appuie sur l'observationde certaines relations entre les éléments de ces données, et nous donnons despremiers résultats d'applications.
Nous proposons une nouvelle approche pour le calcul de similarité sémantiqueentre phrases en utilisant les noyaux sémantiques qui les composent.Ces noyaux, sous la forme de triplets (sujet, verbe et objet) sont supposés porteursde l'information des phrases dont ils sont extraits. Sur la base de la comparaisonsémantique de noyaux, on extrait un ensemble d'indicateurs descriptifs.Nous utilisons ensuite un apprentissage automatique, sur un benchmark contenantdes phrases dont la similarité sémantique a été évaluée par des experts humains,afin de déterminer l'importance de chaque indicateur et de construireainsi un modèle capable de fournir une mesure de similarité sémantique entrephrases. Les expérimentations et les études comparatives, effectuées avec d'autresapproches permettant l'estimation des similarités sémantiques entre phrases,montrent les bonnes performances de notre approche. En se basant sur cette dernière,un outil de navigation sémantique est en cours de développement.
Les traces de mobilité générées par les divers capteurs qui nous entourentpeuvent être analysées à des fins prédictives et explicatives pour répondreà divers problèmes du quotidien. Si de nombreuses méthodes ont été proposéespour décrire le comportement d'un individu de manière globale à partir destransitions entre ses différents points d'intérêts (par exemple via un modèle deMarkov), peu de travaux cherchent à l'expliquer de manière locale. Nous proposonsdans cet article une méthode qui permet d'extraire pour un individu donton a une trace de mobilité conséquente des motifs de mobilité dits contextualisés.Chaque motif est composé d'une description sur l'ensemble des visites auxdifférents points d'intérêt de l'individu qui maximise une ou plusieurs mesuresavec une sémantique particulière (le motif décrit une phase sédentaire ou exceptionnelde la mobilité de l'individu). Une expérimentation a été menée à partirde traces de mobilité de véhicules et donne des résultats encourageants.
Au cours des dernières années, la classification à base de clusterings'est imposée comme un sujet de recherche important. Cette approche vise àdécrire et à prédire un concept cible d'une manière simultanée. Partant du faitque le choix des centres pour l'algorithme des K-moyennes standard a un impactdirect sur la qualité des résultats obtenus, cet article vise alors à tester à quelpoint une méthode d'initialisation supervisée pourrait aider l'algorithme des Kmoyennesstandard à remplir la tâche de la classification à base des K-moyennes.
Our purpose is to implement a Visual Analytics tool for exploring topic variants in textcorpora. The overlapping bi-clustering methods extract multiple topics from the documents,but the interpretation of the results remains difficult. We make the assumption that bi-clusteroverlaps are articulation points between high-level topics, and their multiple variants and viewpoints.We propose to extract and visualize a hierarchical structure of bi-cluster overlaps, allowingto explore the corpus and to discover unsuspected viewpoints.
CD7Online est l'application SaaS de la 7ème version de Cartes &Données (C & D), le logiciel de cartographie statistique décisionnelle et de géomarketingédité par Articque. C & D permet aux utilisateurs occasionnels de réalisersimplement des cartes à partir de données statistiques et géographiques. 25ans de retours utilisateurs nous ont permis de voir que la qualité des cartes reposeen partie sur la bonne connaissance des données dont disposent les utilisateurset sur leur capacité à choisir des outils d'analyse et de représentation pertinents.Pour aider les utilisateurs à mieux comprendre leurs données et à réaliser descartes de meilleure qualité, nous avons développé une brique sémantique avecun outil de visualisation interactif permettant de visualiser les connaissances extraitesdes espaces de travail des utilisateurs. Nous décrivons ici l'applicationCD7Online ainsi que l'outil de visualisation que nous présenterons lors de ladémonstration logicielle.
RDF(S)/OWL data sources are not organized according to a predefined schema, as they are structureless by nature. This lack of schema limits their use to express queries or to understand their content. Our work is a contribution towards the inference of the structure of RDF(S)/OWL data sources. We present an approach relying on density-based clustering to discover the types describing the entities of possibly incomplete and noisy data sets.
La segmentation et annotation de maillages utilisant la sémantique a été l'objet d'un intérêt grandissant avec la démocratisation des techniques de reconstruction 3D. Une approche classique consiste à réaliser cette tâche en deux étapes, tout d'abord en segmentant le maillage, puis en l'annotant. Cependant, cette approche ne permet pas à chaque étape de profiter de l'autre. En traitement d'images, quelques méthodes combinent la segmentation et l'annotation, mais ces approches ne sont pas génériques, et nécessitent des ajustements d'implémentation ou des réécritures pour chaque modification des connaissances expertes. Dans ce travail, nous décrivons un cadre de fonctionnement qui mélange segmentation et annotation afin de réduire le nombre d'étapes de segmentation, et nous présentons des résultats préliminaires qui montrent la faisabilité de l'approche.Notre système fournit une ontologie générique qui décrit sous forme de concepts les propriétés d'un objet (géométrie, topologie, etc.), ainsi que des algorithmes permettant de détecter ces concepts. Cette ontologie peut être étendue par un expert pour décrire formellement un domaine spécifique. La description formelle du domaine est alors utilisée pour réaliser automatiquement l'assemblage de la segmentation et de l'annotation d'objets et de leurs propriétés, en sélectionnant à chaque étape l'algorithme le plus pertinent, étant données les information sémantiques déjà détectées. Cette approche originale comporte plusieurs avantages. Tout d'abord, elle permet de segmenter et d'annoter des objets sans aucune connaissance en traitement d'images ou de maillages, en décrivant uniquement les propriétés de l'objet en terme de concepts ontologiques. De plus, ce cadre de fontionnement peut facilement être réutilisé et appliqué à différents contextes, dès lors qu'une ontologie de domaine a été définie. Finalement, la réalisation conjointe de la segmentation et de l'annotation permet d'utiliser d'une manière efficace la connaissance experte, en réduisant les erreurs de segmentation et le temps de calcul, en lançant toujours l'algorithme le plus pertinent.
Cet article présente une analyse détaillée d'un ensemble de 2 millions de résultats de recherche d'information obtenus par différents paramétrages de systèmes de recherche d'information. Plus spécifiquement, nous avons utilisé la plateforme Terrier et l'interface RunGeneration pour créer différentes exécutions (run en anglais) en modifiant les modèles d'indexation et de recherche. Nous avons ensuite évalué chacun des résultats obtenus selon différentes mesures de performance de recherche d'information. Une analyse systématique a été menée sur ces données afin de déterminer d'une part quels étaient les paramètres qui ont le plus d'influence, d'autre part quels étaient les valeurs de ces paramètres les plus susceptibles de conduire à de bonnes performances du système.
L'analyse d'opinions est une tâche qui consiste en l'identification et la classification de textes subjectifs. Dans ce travail, nous nous intéressons au problème d'analyse d'opinions dans un contexte de veille sur le Web. Nous proposons une approche pour visualiser les résultats d'analyse d'opinions, basée sur l'utilisation de termes clés. Nous décrivons également la plateforme de veille sur leWeb AMIEI, au sein de laquelle notre approche a été implémentée. La démonstration consistera en une expérimentation de la plateforme de veille AMIEI et du module d'analyse d'opinions sur un corpus de tweets politiques.
Le projet ANR IMAGIWEB dans lequel s'inscrit ce travail s'est donné pour mission d'étudier les images véhiculées sur Internet en se basant sur la détection d'opinions. Deux cas d'étude ont été définis : (1) le premier vise à répondre aux besoins d'analyse de chercheurs en science politique grâce à des données issues de Twitter durant la campagne présidentielle de 2012 ; (2) le second doit permettre à l'entreprise française EDF d'évaluer l'opinion du public en matière de sécurité, d'emploi et de prix à partir de billets de blogs. Dans cet article, nous présentons un retour d'expérience sur l'usage de l'analyse en ligne OLAP (OnLine Analytical Processing) pour des données textuelles, mettant en avant l'intérêt de ce type d'analyse pour les membres du projet.
La démocratisation d'Internet, couplée à l'effet de la mondialisation, a pour résultat d'interconnecter les personnes, les états et les entreprises. Le côté déplaisant de cette interconnexion mondiale des systèmes d'information réside dans un phénomène appelé "Cybercriminalité". Nous proposons une méthode de visualisation de grands "graphes" et l'exploitation d'analyses statiques des flux permettant de détecter les comportements anormaux et dangereux afin d'appréhender les risques d'une façon compréhensible par tous les acteurs.
In this article, we highlight the interest and usefulness of Formal Concept Analysis (FCA) in multilingual document clustering. We propose a statistical approach for clustering multilingual documents based on Closed Concepts and vector model partition the documents of one or more collections.An experimental evaluation was conducted on the collection of bilingual documents French-English of CLEF' 2 2003 and showed the merits of this method and the interesting degree of comparability of the obtained bilingual classes.
We observe an increasing amount of sequential data, for instance open data sources provide real-time information. In order to apply classical learning algorithms, sequential data are often modelled in an attribute-value setting using a sliding window. In this paper, we propose a relational approach. A first advantage is to let the relational algorithm choose the length of the window. A second advantage is to allow to consider conditions based on the existential quantifier and aggregates. A third advantage is to be able to consider several granularities at the same time.
The mainstream adoption of the internet as a source for knowledge and interaction for the past decades has given rise to new data sources that are characterized by large sizes and rapid creation. In addition, sensory data from mobile devices and machinery are on the rise with similar characteristics. All these sources have the commonality that they will tell us something new or something more detailed than before. From a business standpoint these data sources holds the opportunity to create more customized services and improved products in practically anything, however, they also present a challenge since they are big and typically residing outside the traditional server structure of organizations. This talk will explore the challenges of integrating these new, so-called Big Data, in decision processes. Specifically, we will explore the paradigm shifts when external data become equally or more important than internal data. We will also explore the emerging shift in decision making becoming algorithmic as opposed to human discovery driven.
Big Data is now becoming a buzz word in information technology industry and research. Is Big Data only about large volume of data?, and if it is yes, why is it suddenly becoming a trend. Hasn't the growth of data volume been gigantic in the last decade? From a research point of view, it is not surprising to see researchers from all walks of computer science are trying to align their research to Big Data for the sake of being trendy. The question remains whether it tackles the real Big Data problems. In this talk, I will describe the misconceptions of Big Data, present motivating cases, and discuss the unavoidable challenges faced by industry and research.
While overtly exposed in the media, the challenges faced by our societies to transition towards sustainable energy use are quite formidable. A simple visual refresher of the cold hard facts should amply reveal the importance of visualization to assess the situation. Private companies, such as IBM, and public research centers are joining forces and investing to design and evaluate novel approaches to build and manage Cities, defined as the rational organisation of dense human habitat. Information and Communication technologies are certainly part of the answers, in particular in areas related to knowledge management, data mining, HCI and social computing. Illustrated with telltaling examples of research work carried at IBM, the CSTB and the Efficacity Institute, I will argue that Interactive Information Technologies can help managing the energy transition of cities in 3 key aspects: — to support the city design process, notably computer supported tooling and information infrastructure that help taming the complexity of the intertwinning actors and interests at play, — to help understand better the city's dynamics, identifiy inefficiencies and reveal optimization opportunities, where knowledge management and extraction is crucial, — and foremost, to ease the necessary changes that will have to happen in our mobility and housing habits with novel tools and services that alleviate our energy needs.
Les résultats de toute opération de classification ou de classement d'objets dépendent fortement de la mesure de proximité choisie. L'utilisateur est amené à choisir une mesure parmi les nombreuses mesures de proximité existantes. Or, selon la notion d'équivalence topologique choisie, certaines sont plus ou moins équivalentes. Dans cet article, nous proposons une nouvelle approche de comparaison et de classement de mesures de proximité, dans une structure topologique et dans un objectif de discrimination. Le concept d'équivalence topologique fait appel à la structure de voisinage local.Nous proposons alors de définir l'équivalence topologique entre deux mesures de proximité à travers la structure topologique induite par chaque mesure dans un contexte de discrimination. Nous proposons également un critère pour choisir la "meilleure" mesure adaptée aux données considérées, parmi quelques mesures de proximité les plus utilisées dans le cadre de données quantitatives. Le choix de la "meilleure" mesure de proximité discriminante peut être vérifié a posteriori par une méthode d'apprentissage supervisée de type SVM, analyse discriminante ou encore régression Logistique, appliquée dans un contexte topologique.Le principe de l'approche proposée est illustré à partir d'un exemple de données quantitatives réelles avec huit mesures de proximité classiques de la littérature. Des expérimentations ont permis d'évaluer la performance de cette approche topologique de discrimination en terme de taille et/ou de dimension des données considérées et de sélection de la "meilleur" mesure de proximité discriminante.
Ce papier propose une version améliorée de l'algorithme de classification automatique évidentielle semi-supervisée SECM. Celui-ci bénéficie de l'introduction de données étiquetées pour améliorer la pertinence de ses résultats et utilise la théorie des fonctions de croyance afin de produire une partition crédale qui généralise notamment les concepts de partitions dures et floues. Le pendant de ce gain d'expressivité est une complexité qui est exponentielle avec le nombre de classes, ce qui impose en retour l'utilisation de schémas efficaces pour optimiser la fonction objectif. Nous proposons dans cet article une heuristique qui relâche la contrainte classique de positivité liée aux masses de croyances des méthodes évidentielles. Nous montrons sur un ensemble de jeux de données de test que notre méthode d'optimisation permet d'accélérer sensiblement l'algorithme SECM avec un schéma d'optimisation classique, tout en améliorant également la qualité de la fonction objectif.
Cet article présente une solution centrée sur les ontologies pour la classification multi-label automatique d'information nécessaire à un système de recommandation d'informations économiques.
Actuellement, le clustering de flux de données devient le moyen le plus efficace pour partitionner un très grand ensemble de données. Dans cet article, nous présentons une nouvelle approche topologique, appelée G-Stream, pour le clustering de flux de données évolutives. La méthode proposée est une extension de l'algorithme GNG (Growing Neural Gas) pour gérer le flux de données. G-Stream permet de découvrir de manière incrémentale des clusters de formes arbitraires en ne faisant qu'une seule passe sur les données. Les performances de l'algorithme proposé sont évaluées à la fois sur des données synthétiques et réelles.
Le maintien de la qualité et de la fiabilité de bases de connaissances RDF du Web Sémantique est un problème courant. De nombreuses propositions pour l'intégration de « bonnes » données ont été faites, se basant soit sur les ontologies de ces bases, soit sur des méta-données additionnelles. Dans cet article, nous proposons une approche originale, basée exclusivement sur l'étude des données de la base. Le principe est de déterminer si les modifications apportées par la mise à jour candidate rendent la partie ciblée de la base plus similaire – selon certains critères – à d'autres parties existantes dans la base. La mise à jour est considérée cohérente avec cette base et peut être appliquée.
La modularisation de grands graphes ou recherche de communautés est abordée comme l'optimisation d'un critère de qualité, l'un des plus utilisés étant la modularité de Newman-Girvan. D'autres critères, ayant d'autres propriétés, aboutissent à des solutions différentes. Dans cet article, nous présentons une réécriture relationnelle de six critères linéaires: Zahn-Condorcet, Owsi´nski- Zadro˙zny, l'Ecart à l'Uniformité, l'Ecart à l'Indétermination et la Modularité Equilibrée. Nous utilisons une version générique de l'algorithme d'optimisation de Louvain pour approcher la partition optimale pour chaque critère sur des réseaux réels de différentes tailles. Les partitions obtenues présentent des caractéristiques différentes, concernant notamment le nombre de classes. Le formalisme relationnel nous permet de justifier ces différences d'un point de vue théorique. En outre, cette notation permet d'identifier facilement les critères ayant une limite de résolution (phénomène qui empêche en pratique la détection de petites communautés sur de grands graphes). Une étude de la qualité des partitions trouvées dans les graphes synthétiques LFR permet de confirmer ces résultats.
Dans de nombreux problèmes d'apprentissage automatique la performance des algorithmes est évaluée à l'aide des mesures précision et rappel. Or ces deux mesures peuvent avoir une importance très différente en fonction du contexte. Dans cet article nous étudions le comportement des principaux indices de performance en fonction du couple précision-rappel. Nous proposons un nouvel outil de visualisation de performances et définissons l'espace de compromis qui représente les différents indices en fonction du compromis précision-rappel. Nous analysons les propriétés de ce nouvel espace et mettons en évidence ses avantages par rapport à l'espace précision-rappel.
L'opérateur skyline est devenu un paradigme dans les bases de données. Il consiste à localiser Sky l'ensemble des points d'un espace vectoriel qui ne sont pas dominés. Cet opérateur est utile lorsqu'on n'arrive pas à se décider dans les situations conflictuelles. Le calcul des requêtes skyline est pénalisé par le nombre de points que peuvent contenir les bases de données. Dans ce papier, nous présentons une solution analytique pour la réduction de l'espace candidat et nous proposons une méthode efficace pour le calcul de ce type de requêtes
Ce travail se situe dans le domaine de la "Cybersécurité", le projet "D113" permet de visualiser en temps réel les flux transitant sur des équipements de filtrage sans avoir recours au traitement manuel des journaux d'événements. Nous centrerons notre démonstration sur la visualisation de grands "graphes" et l'exploitation d'analyses statiques des flux.
Cet article présente un nouveau cadre pour la découverte de connaissances basé sur la notion de proportion analogique qui exprime l'égalité des rapports entre les attributs de deux paires d'éléments. Cette notion est développée dans le contexte des bases de données pour découvrir des parallèles dans les données. Dans un premier temps, nous donnons une définition formelle des proportions analogiques dans le cadre des bases de données relationnelles, puis nous étudions le problème de l'extraction des proportions analogiques. Nous montrons qu'il est possible de suivre une approche de clustering pour découvrir les classes d'équivalence de paires de n-uplets dans le même rapport de proportion analogique. Ce travail constitue unCet article présente un nouveau cadre pour la découverte de connaissances basé sur la notion de proportion analogique qui exprime l'égalité des rapports entre les attributs de deux paires d'éléments. Cette notion est développée dans le contexte des bases de données pour découvrir des parallèles dans les données. Dans un premier temps, nous donnons une définition formelle des proportions analogiques dans le cadre des bases de données relationnelles, puis nous étudions le problème de l'extraction des proportions analogiques. Nous montrons qu'il est possible de suivre une approche de clustering pour découvrir les classes d'équivalence de paires de n-uplets dans le même rapport de proportion analogique. Ce travail constitue une première étape vers l'extension des langages d'interrogation de base de données avec des requêtes « analogiques ».e première étape vers l'extension des langages d'interrogation de base de données avec des requêtes « analogiques ».
Dans le cadre de la détection du plagiat, la phase de comparaison de deux documents est souvent réduite à une comparaison mot à mot, une recherche de « copier/coller ». Dans cet article, nous proposons une approche naïve de comparaison de deux documents dans le but de détecter automatiquement aussi bien les phrases copiées de l'un des textes dans l'autre que les paraphrases et reformulations, ceci en se focalisant sur l'existence des mots porteurs de sens, ainsi que sur leurs mots de substitution possibles. Nous comparons trois algorithmes utilisant cette approche afin de déterminer la plus efficace pour ensuite l'évaluer face à des méthodes existantes. L'objectif est de permettre la détection des similitudes entre deux textes en utilisant uniquement des mots clefs. L'approche proposée permet de détecter des reformulations non paraphrastiques impossibles à détecter avec des approches conventionnelles faisant appel à une phase d'alignement.
La détection de plagiat extrinsèque devient vite inefficace lorsque l'on n'a pas accès aux documents potentiellement sources du plagiat ou lorsque l'on se confronte à un espace aussi vaste que leWeb, ce qui est souvent le cas dans les logiciels anti-plagiat actuels. Dès lors la détection intrinsèque devient nettement plus efficace. Dans cet article, nous traitons justement de la détection automatique d'auteurs qui permet de savoir si un passage d'un texte n'appartient pas au même auteur que le reste du texte et donc en théorie de repérer les passages plagiés d'un document. Nous expliquons notre contribution aux procédures déjà existantes et évaluons les limites de notre approche. L'objectif est de permettre la détection et le regroupement de passages d'un document par auteur.
Le risque chimique ou alimentaire couvre les situations où les produits chimiques sont dangereux pour la santé et consommation humaine ou animale, et pour l'environnement. Les experts qui assurent le contrôle et la gestion de ces substances se retrouvent face à de gros volumes de littérature scientifique, qui doit être analysée pour appuyer la prise de décisions. Nous proposons une aide automatique pour l'analyse de cette littérature. Nous abordons la tâche comme une problématique de catégorisation: il s'agit de catégoriser les phrases des textes dans les classes du risque lié aux substances. Nous utilisons deux approches: par apprentissage supervisé et la recherche d'information. Les résultats obtenus avec l'apprentissage supervisé (toute classe confondue, F-mesure autour de 0,8 pour le risque alimentaire, entre 0,61 et 0,64 pour le risque chimique) sont meilleurs que ceux obtenus avec par recherche d'information (toute classe confondue, F-mesure entre 0,18 et 0,226 pour le risque alimentaire, entre 0,20 et 0,32 pour le risque chimique). Le rappel est compétitif avec les deux approches.
Nowadays, processing online massive data streams with special techniques like load shedding is an unavoidable alternative to optimize system resources use. In this paper, we propose a graph-oriented approach for load shedding semantic data streams. Our approach, unlike the RDF triple based one, preserves the semantic level of the data streams, which improves the responses quality of the RDF data stream processing systems.
This paper presents a new function of collection selection. Our function is free of any extracollection parameter and is based on the documents relevance. The ranking of a collection is proportional to its number of relevant documents.
Un nouveau domaine de motifs appelé chemins pondérés condensés a été introduit en 2013 lors de la conférence IJCAI. Le contexte de fouille est alors un graphe acyclique orienté (DAG) dont les sommets sont étiquetés par des attributs. Nous avons travaillé à une implémentation efficace de ce type de motifs et nous montrons que l'algorithme proposé était juste mais incomplet. Nous établissons ce résultat d'incomplétude et nous l'expliquons avant de trouver une solution pour réaliser une extraction complète. Nous avons ensuite développé des structures complémentaires pour calculer efficacement tous les chemins pondérés condensés. L'algorithme est amélioré en performance de plusieurs ordres de magnitude sur des jeux de données artificiels et nous l'appliquons à des données réelles pour motiver qualitativement l'usage des chemins pondérés.
Les systèmes de recommandation ont pour objectif de sélectionner et présenter d'abord les informations susceptibles d'intéresser les utilisateurs. Ce travail expose un système de recommandation qui s'appuie sur deux concepts: des relations sémantiques sur les données et une technique de filtrage collaboratif distribué basée sur la factorisation des matrices (MF). D'une part, les techniques sémantiques peuvent extraire des relations entre les données, et par conséquent, améliorer la précision des recommandations. D'autre part, MF donne des prévisions très précises avec un algorithme facilement parralélisable. Notre proposition utilise cette technique en ajoutant des relations sémantiques au processus. En effet, nous analysons en profondeur les intérêts cachés des utilisateurs dans les attributs des items à recommander. Nous utilisons dans nos expérimentations le jeu de données MovieLens enrichi par la base de données IMDb. Nous comparons notre travail à une technique MF classique. Les résultats montrent une précision dans les recommandations, tout en préservant un niveau élevé d'abstraction du domaine. En outre, nous améliorons le passage à l'échelle du système en utilisant des techniques parallélisables.
L'apprentissage automatique a fait son apparition dans l'écosystème Hadoop créant, de par la puissance promise, une opportunité sans précédent pour ce domaine. Dans cet écosystème, Apache Mahout est une réponse à la question du temps de calcul et/ou de la volumétrie: il consiste en un entrepôt d'algorithmes d'apprentissage automatique, tous portés afin de s'exécuter sur Map/Reduce. Ce rapport se concentre sur le portage et l'utilisation de l'algorithme des Random Forest dans Mahout. Il montre à travers notre retour d'expérience les difficultés qui peuvent être rencontrées tant pratiques que théoriques et suggère une piste d'amélioration.
Les données manquantes sont problématiques en hydrologie, car elles gênent le calcul de statistiques interannuelles et sur de longues périodes, ainsi que l'analyse et l'interprétation de la variabilité des données. Dans cet article, nous présentons gapIT, une plateforme d'analyse de données permettant d'inspecter visuellement les données manquantes et ensuite de choisir la méthode de correction adéquate. Nous avons utilisé l'outil pour estimer les données manquantes dans des séries temporelles correspondant aux débits mesurés par des stations hydrométriques du Luxembourg.
The knowledge representation area needs some methods that allow to detect and handle uncertainty. Indeed, a lot of text hold information whose the veracity can be called into question. These information should be managed efficiently in order to represent the knowledge in an explicit way. As first step, we have identified the different forms of uncertainty during a knowledge extraction process, then we have introduce an RDF representation for these kind of knowledge based on an ontologie that we developped for this issue.
Les correspondances sémantiques entre ontologies (mappings) jouent un rôle essentiel dans les systèmes d'information. Cependant, en vertu de l'évolution des connaissances, les éléments ontologiques sont sujets à modification invalidant potentiellement les alignements préalablement établis. Des techniques de maintenance sont donc nécessaires pour maintenir la validité des mappings. Dans cet article, nous présentons un ensemble d'heuristiques guidant leur adaptation. Notre approche s'appuie sur l'explication des mappings existants, les informations provenant de l'évolution des ontologies ainsi que les adaptations possibles applicables aux mappings. Nous proposons une validation expérimentale à partir d'ontologies du domaine médical et des mappings qui leur sont associés.
Etant donné un ensemble de documents rédigés par un même auteur, le problème d'authentification d'auteurs consiste à décider si un nouveau texte a été rédigé ou non par cet auteur. Pour résoudre ce problème, nous avons proposé et implémenté différentes approches : comptage de similarité, techniques de vote et apprentissage supervisé qui exploitent différents modèles de représentation des documents. Les expérimentations réalisées à partir des collections de la compétition PAN-CLEF 2013 et 2014 ont confirmé l'intérêt de nos approches et leur performance en termes de temps de traitement.
Malgré des performances très satisfaisantes, l'approche sociale de la recommandation ne fournit pas de bonnes recommandations à un sous-ensemble des utilisateurs. Nous supposons ici que certains de ces utilisateurs ont des préférences différentes de celles des autres, nous les qualifions d'atypiques. Nous nous intéressons à leur identification, en amont de la tâche de recommandation, et proposons plusieurs mesures représentant l'atypicité des préférences d'un utilisateur. L'évaluation de ces mesures sur un corpus de l'état de l'art montre qu'elles permettent d'identifier de façon fiable des utilisateurs recevant de mauvaises recommandations.
Le repérage des Entités Nommées (REN) en langue amazighe est un prétraitement éventuellement essentiel pour de nombreuses applications du traitement automatique des langues (TAL), en particulier pour la traduction automatique. Dans cet article, nous présentons une chaîne de repérage des entités nommées en amazighe fondée sur une étude synthétique des spécificités de la langue et des entités nommées en amazighe. L'article met l'accent sur les choix méthodologiques à résoudre les ambiguïtés dues à la langue, en exploitant les technologies existantes pour d'autres langues.
The perception about real estate properties, both for individuals and agents, is not formed exclusively by their intrinsic characteristics, such as surface and age, but also from property externalities, such as pollution, traffic congestion, criminality rates, proximity to playgrounds, schools and stimulating social interactions that are equally important. In this paper, we present the Real-Estate 2.0 System that in contrary to existing Real-Estate e-services and applications, takes also into account important externalities. By leveraging Web 2.0 (content from Social Networks, POI listings) applications and Open Data enables the thorough analysis of the current physical and social context of the property, the context-based objective valuation of RE properties, along with an advanced property search and selection experience that unveils otherwise “hidden” property features and significantly reduces user effort and time spent in their RE quest. The system encompasses the above to provide services which assist individuals and agents in making more informed and sound RE decisions.
Dans cet article nous présentons une approche de fusion de données fondée sur l'utilisation d'informations sur la qualité des données pour résoudre les éventuels conflits entre valeurs.
Multidimensional database concepts such as cubes, dimensions with hierarchies, and measures have been a cornerstone of analytical business intelligence tools for decades. However, the standard data models and system implementations (OLAP) for multidimensional databases cannot handle “Big Multidimensional Data”, very large amounts of complex and highly dynamic multidimensional data that occur in a number of emerging domains such as energy, transport, logistics, as well as science. This talk will discuss similarities and differences between traditional Business Intelligence (BI) and Big Data, present examples of Big Multidimensional data with the characteristics of large volume, high velocity (fast data), and/or high variety (complex data) and discuss how to manage Big Multidimensional Data, including modeling, algorithmic, implementation, as well as practical, issues.
For social network analysis, existing centrality measures emphasize the importance of an actor considering only the structural position in the network regardless of a priori information on this actors such as popularity, accessibility or behavior. In this study new variants of centrality measures are proposed operating both the network structure and the specific attributes of an actor. Experiments have validated the contribution of valuations especially for the detection of broadcasters in social networks.
La détection du plagiat passe le plus souvent par la phase de recherche de similitudes la plus naïve, la détection de « copier/coller ». Dans cet article, nous proposons une méthode alternative à l'approche standard de comparaison mot à mot. Le principe étant d'effectuer une intersection des deux textes à comparer, récupérant ainsi un tableau des mots qu'ils ont en commun et de ne conserver que les séquences maximales des mots se suivant dans l'un des textes et existant également dans l'autre. Nous montrons que cette méthode est plus rapide et moins coûteuse en ressources que les méthodes de parcours de textes habituellement utilisées. L'objectif étant de détecter les passages identiques entre deux textes plus rapidement que les méthodes de comparaison mot à mot, tout en étant plus efficace que les méthodes n-grammes.
We propose a new approach to mine potential classes in news documents by examining close relationship between new classes and probability vectors of multiple labeling of the documents. Using EM algorithm to obtain the distribution over linear mixture models, we make clustering and mine classes.
Biclustering is a main task in a variety of areas of machine learning providing simultaneous observations and features clustering. Biclustering approches are more complex compared to the traditional clustering particularly those requiring large dataset and Mapreduce platforms. We propose a new approach of biclustering based on popular self-organizing maps for cluster analysis of large dataset. We have designed scalable implementations of the new biclustering algorithm using MapReduce with the Spark platform. We report the experiments and demonstrated the performance public dataset using different cores. Using practical examples, we demonstrate that our algorithm works well in practice. The experimental results show scalable performance with near linear speedups across different data and 120 cores.
Tweets are short messages that do not exceed 140 characters. Since they must be written respecting this limitation, a particular vocabulary is used. To make them understandable to a reader, it is therefore necessary to know their context. In this paper, we describe our approach for the tweet contextualization. This approach allows the extension of the tweet's vocabulary by a set of thematically related words using mining association rules between terms.
Pour la prédiction automatique des items préférés par des utilisateurs sur le Web, différents systèmes de filtrage collaboratif ont été proposés. La plupart d'entre eux sont basés sur la factorisation matricielle et les approches de type k plus proches voisins. Malheureusement ces deux approches requièrent un temps de calcul important. Une partie de ces problèmes a pu être surmontée par la classification croisée ou co-clustering qui s'avère pertinente du fait qu'elle permet par nature une gestion simultanée des ensembles correspondant aux utilisateurs et aux items. Cependant, des travaux doivent encore être menés pour une meilleure prise en compte des données manquantes. Dans ce travail, nous proposons donc une gestion efficace des données non observées permettant une meilleure exploitation du potentiel de la classification croisée dans le domaine des systèmes de recommandation. Nous montrons de plus qu'elle permet d'obtenir des représentations à base de graphes bipartis facilitant l'interprétation interactive des affinités entre des groupes d'utilisateurs et des groupe d'items.
Cet article présente un nouvel outil visuel de clustering interactif. Il utilise une technique de réduction de dimensionnalité pour permettre une représentation 2D des données et des classes associées, initialement établies de manière non-supervisée. L'originalité de l'outil consiste à autoriser des modifications itératives à la fois du clustering et de la projection 2D. Grâce à des contrôles adaptés, l'utilisateur peut ainsi injecter ses préférences, et observer le changement induit en temps réel. La méthode de projection utilisée suit une métaphore physique, qui facilite le suivi des changements par l'utilisateur. Nous montrons un exemple illustrant l'intérêt pratique de l'outil.
Remplacer des hypothèses sur le modèle de données par des informations mesurées sur les données réelles est l'une des forces de la fouille de données. Cet article étudie cet ajustement entre les données et les méthodes de découverte de motifs pour en évaluer la qualité et la complexité. Nous formalisons ce lien entre données et mesures d'intérêt en identifiant les motifs liés qui sont ceux nécessaires pour l'évaluation d'une mesure ou d'une contrainte. Nous formulons alors trois axiomes que devraient satisfaire ces motifs liés pour qu'une méthode d'extraction se comporte bien. En outre, nous définissons la complexité en évaluation qui quantifie finement l'interrelation entre les motifs au sein d'une méthode d'extraction. A la lumière de ces axiomes et de cette complexité en évaluation, nous dressons une typologie de multiples méthodes de découverte de motifs impliquant la fréquence.
Trouver les liens manquants dans un grand réseau social est une tâche difficile, car ces réseaux sont peu denses, et les liens peuvent correspondre à des environnements structurels variés. Dans cet article, nous décrivons RankMerging, une méthode d'apprentissage supervisé simple pour combiner l'information obtenue par différentes méthodes de classement. Afin d'illustrer son intérêt, nous l'appliquons à un réseau d'utilisateurs de téléphones portables, pour montrer comment un opérateur peut détecter des liens entre les clients de ses concurrents. Nous montrons que RankMerging surpasse les méthodes à disposition pour prédire un nombre variable de liens dans un grand graphe épars.
La prédiction de séquences de symboles est une tâche ayant de multiples applications. Plusieurs modèles de prédiction ont été proposés tels que DG, All-k-order markov et PPM. Récemment, il a été montré qu'un nouveau modèle nommé Compact Prediction Tree (CPT) utilisant une structure en arbre et un algorithme de prédiction plus complexe, offre des prédictions plus exactes que plusieurs approches de la littérature. Néanmoins, une limite importante de CPT est sa complexité temporelle et spatiale élevée. Dans cet article, nous pallions ce problème en proposant trois stratégies pour réduire la taille et le temps de prédiction de CPT. Les résultats expérimentaux sur 7 jeux de données réels montrent que le modèle résultant nommé CPT+ est jusqu'à 98 fois plus compact et est 4.5 fois plus rapide que CPT, tout en conservant une exactitude très élevée par rapport à All-K-order Markov, DG, Lz78, PPM et TDAG.
Dans les systèmes d'apprentissage supervisé par construction de règles de classification floues, un nombre élevé d'attributs descriptifs conduit à une explosion du nombre de règles générées et peut affecter la précision des algorithmes d'apprentissage. Afin de remédier à ce problème, une solution est de traiter séparément des sous-groupes d'attributs. Cela permet de décomposer le problème d'apprentissage en des sous-problèmes de complexité inférieure, et d'obtenir des règles plus intelligibles car de taille réduite. Nous proposons une nouvelle méthode de regroupement des attributs qui se base sur le concept des règles d'association. Ces règles découvrent des relations intéressantes entre des intervalles de valeurs des attributs. Ces liaisons locales sont ensuite agrégées au niveau des attributs mêmes en fonction du nombre de liaisons trouvées et de leur importance. Notre approche, testée sur différentes bases d'apprentissage et comparée à l'approche classique, permet d'améliorer la précision tout en garantissant une réduction du nombre de règles.
Dans le domaine de la fouille de séries temporelles, plusieurs travaux récents exploitent des noyaux construits à partir de distances élastiques de type Dynamic Time Warping (DTW) au sein d'approches à base de noyaux. Pourtant les matrices, apparentées aux matrices de Gram, construites à partir de ces noyaux n'ont pas toujours les propriétés requises ce qui peut les rendre in fine impropres à une telle exploitation. Des approches émergeantes de régularisation de noyaux élastiques peuvent être mises à profit pour répondre à cette insuffisance. Nous présentons l'une de ces méthodes, KDTW, pour le noyau DTW, puis, autour d'une analyse en composantes principales non-linéaire (K-PCA), nous évaluons la capacité de quelques noyaux concurrents (élastiques v.s non élastiques, définis v.s. non définis) à séparer les catégories des données analysées tout en proposant une réduction dimensionnelle importante. Cette étude montre expérimentalement l'intérêt d'une régularisation de type KDTW.
Dans cet article, nous nous intéressons à la recherche des points les plus intéressants au sens de l'ordre de Pareto, dans les bases de données évidentielles. Nous présentons le modèle skyline évidentiel qui est adapté à la nature des données incertaines. Ensuite, nous présentons une évaluation expérimentale de notre approche.
Ardans method ArdansSas (2006b) and technology ArdansSas (2006a) of knowledge capitalization and structuration are used with different industries (automotive, aerospace, energy, defence, steel, health, etc.) for more than a decade in France and Europe.The proposed solutions in knowledge management and especially in expertise capitalisation have set a lot of feedback over time. With a view toward ongoing improvement, what are the impacts of these feedbacks on the method nowadays? Put into practice into the industry, the return of investment of a capitalization campaign is inferred from the quality of the knowledge base delivered at the end of the campaign. Therefore, the method and the technology are intrinsically connected. How IT tools can assist with the quality diagnosis of the knowledge base?A comparative study was conducted on the basis of the method Mariot et al. (2007) exposed at EGC'2007. This article sets out the results of the changes and improvements of the method, in conjunction with the latest technical and scientific development on the one hand, and the change of the industry needs on the other hand.
Millions of Twitter users post messages every day to communicate with other users in real time information about events that occur in their environment. Most of the studies on the content of tweets have focused on the detection of emerging topics. However, to the best of our knowledge, no approach has been proposed to create a knowledge base and enrich it automatically with information coming from tweets. The solution that we propose is composed of four main phases: topic identification, tweets classification, automatic summarization and creation of an RDF triplestore. The proposed approach is implemented in a system covering the entire sequence of processing steps from the collection of tweets written in English language (based on both trusted and crowd sources) to the creation of an RDF dataset anchored in DBpedia's namespace.
Nous introduisons une mesure d'ultramétricité pour les dissimilaritées et examinons les transformations des dissimilaritées et leurs impact sur cette mesure. Ensuite, nous étudions l'influence de l'ultramétricité sur la comportement de deux classes d'algorithmes d'exploration de données (le kNN algorithme de classification et l'algorithme de regroupement PAM) appliqués sur les espaces de dissimilarité. On montre qu'il existe une variation inverse entre ultramétricité et la performance des classificateurs. Pour les clusters, une augmentation d'ultramétricité genere regroupements avec une meilleure séparation. Une diminution de la ultramétricité produit groupes plus compacts.
Nous considérons une version parcimonieuse de l'analyse en composantes principales probabiliste. La pénalité `1 imposée sur les composantes principales rend leur interprétation plus aisée en ne faisant dépendre ces dernières que d'un nombre restreint de variables initiales. Un algorithme EM, simple de mise en oeuvre, est proposé pour l'estimation des paramètres du modèle. La méthode de l'heuristique de pente est finalement utilisée pour choisir le coefficient de pénalisation.
Dans cet article nous proposons une modification pour l'algorithme "Iterated Conditional Modes" (ICM) appliqué à la segmentation d'images à très haute résolution. Pour ce faire, nous introduisons un nouveau critère de convergence basé sur la compacité des clusters et qui repose sur une fonction d'énergie adaptée aux modèles de voisinages irréguliers de ce type d'images. Grâce à cette méthode, nos premières expériences ont montré que nous obtenons des résultats plus fiables en terme de convergence et de meilleure qualité qu'en utilisant l'énergie globale comme critère d'arrêt.
Cet article propose un langage générique d'interrogation pour le modèle des graphes conceptuels. D'abord, nous introduisons les graphes d'interrogation. Un graphe d'interrogation est utilisé pour exprimer un « ou » entre deux sous-graphes, ainsi qu'une « option » sur un sous-graphe optionnel. Ensuite, nous proposons quatre types de requêtes (interrogation, sélection, description et construction) en utilisant les graphes d'interrogation. Enfin, les réponses à ces requêtes sont calculées à partir d'une opération basée sur l'homomorphisme de graphe.
Nous nous intéressons dans ce travail au problème de détection de communautés dans les réseaux multiplexes. Le modèle de réseau multiplexe a été récemment introduit afin de faciliter la modélisation des réseaux multirelationnels, des réseaux dynamiques et/ou des réseaux attribués. Les approches existantes pour la détection de communautés dans ce genre de graphes sont, pour la plupart, basées sur des schémas d'agrégation de couches ou d'agrégation de partitions. Nous proposons ici une nouvelle approche centrée graine qui permet de prendre en compte directement la nature multi-couche d'un réseau multiplexe. Des expérimentations effectuées sur différents réseaux multiplexes montrent que notre approche surpasse les approches de l'état de l'art en termes de qualité des communautés identifiées.
Les modèles de propagation d'informations, d'influence et d'actions dans les réseaux sociaux sont nombreux et diversifiés rendant le choix de celui approprié à une situation donnée potentiellement difficile. La sélection d'un modèle pertinent pour une situation exige de pouvoir les comparer. Cette comparaison n'est possible qu'au prix d'une traduction des modèles dans un formalisme commun et indépendant de ceux-ci. Nous proposons l'utilisation de la réécriture de graphes afin d'exprimer les mécanismes de propagation sous la forme d'un ensemble de règles de transformation locales appliquées selon une stratégie donnée. Cette démarche prend tout son sens lorsque les modèles ainsi traduits sont étudiés et simulés à partir d'une plate-forme de visualisation analytique dédiée à la réécriture de graphe. Après avoir décrit les modèles et effectué différentes simulations, nous exhibons comment la plate-forme permet d'interagir avec ces formalismes, et comparer interactivement les traces d'exécution de chaque modèle grâce à diverses mesures soulignant leurs différences.
L'évolution d'une ontologie est un processus indispensable dans son cycle de vie. Elle est exprimée et définie par des changements ontologiques de différents types : élémentaires, composés et complexes. Les changements complexes et composés sont très utiles dans le sens où ils aident l'utilisateur à adapter son ontologie sans se perdre dans les détails des changements élémentaires. Cependant, ils cachent derrière une formalisation sophistiquée puisqu'ils affectent, à la fois, plusieurs entités ontologiques et peuvent causer des inconsistances à l'ontologie évoluée. Pour adresser cette problématique, cet article présente une nouvelle formalisation des changements ontologiques composés et complexes basée sur les grammaires de graphes typés. Cette formalisation s'appuie sur l'approche algébrique Simple Pushout (SPO) de transformation de graphes et possède deux principaux avantages : (1) fournir une nouvelle formalisation permettant de contrôler les transformations de graphes et éviter les incohérences d'une manière a priori, (2) simplifier la définition des changements composés et complexes en réduisant le nombre de changements élémentaires nécessaires à leur application.
L'objectif de nos travaux est de proposer une méthode d'analyse automatique du comportement des utilisateurs à des fins de prédiction de leur propension à réaliser une action suggérée. Nous proposons dans cet article une nouvelle méthode de Web Usage Mining basée sur une étude sémiotique des styles perceptifs, considérant l'expérience de l'utilisateur comme élément déterminant de sa réaction à une sollicitation. L'étude de ces styles nous a amené à définir de nouveaux indicateurs (des descripteurs sémiotiques) introduisant un niveau supplémentaire à l'approche sémantique d'annotation des sites. Nous proposons ensuite un modèle neuronal adapté au traitement de ces nouveaux indicateurs. Nous expliquerons en quoi le modèle proposé est le plus pertinent pour traiter ces informations.
Nous nous intéressons, dans ce papier, à l'impact des données massives dans un environnement décisionnel et plus particulièrement sur la phase d'intégration des données. Dans ce contexte, nous avons développé une plateforme, baptisée P-ETL (Parallel-ETL), destinée à l'entreposage de données massives selon le paradigme MapReduce. P-ETL permet le paramétrage de processus ETL (workflow) et un paramétrage avancé relatif à l'environnement parallèle et distribué. Ce papier décrit la plateforme P-ETL en vue d'une démonstration. Face à des jeux de données allant de 244 * 106 à 7, 317 * 109 tuples, les expérimentations menées ont montré l'amélioration significative des performances de P-ETL lorsque la taille du cluster et le nombre des tâches parallèles augmentent.
Dans ce travail, nous proposons une nouvelle méthode de détection des conversations sur les sites des réseaux sociaux. Cette méthode est basée sur l'analyse et l'enrichissement de contenu dans le but de présenter un résultat informatif basé sur les interactions des utilisateurs. Nous avons évalué notre méthode sur corpus recueillis de réseau social lié à des sujets spécifiques, et nous avons obtenu des bons résultats.
In this paper we present a new codicum stemma visualization method. Don Quentin's modeling is usec to classify the textual tradition.We supplement the genealogical editor's information of betweenness triplets obtained directly from the corpus. A pyramid depicting the family codicum stemma is then constructed on the basis of information obtained by the triplets
Issue d'un phénomène complexe partant d'une molécule odorante jusqu'à la perception dans le cerveau, l'olfaction reste le sens le plus difficile à appréhender par les neuroscientifiques. L'enjeu principal est d'établir des règles sur les propriétés physicochimiques des molécules (poids, nombre d'atomes, etc.) afin de caractériser spécifiquement un sous-ensemble de qualités olfactives (fruité, boisé, etc.). On peut trouver de telles règles descriptives grâce à la découverte de sous-groupes (“subgroup discovery”). Cependant les méthodes existantes permettent de caractériser soit une seule qualité olfactive ; soit toutes les qualités olfactives à la fois (“exceptional model mining”) mais pas un sousensemble. Nous proposons alors une approche de découverte de sous-groupes caractéristiques de seulement certains labels, par une nouvelle technique d'énumération, issue de la fouille de redescriptions. Nous avons expérimenté notre méthode sur une base de données d'olfaction fournie par des neuroscientifiques et pu exhiber des premiers sous-groupes intelligibles et réalistes.
Hotspots, à laquelle de nombreuses photographies ont été prises, pourraient être des lieux intéressants pour beaucoup de gens faire du tourisme. Visualisation des hotspots révèle les intérêts des utilisateurs, ce qui est important pour les industries telles que la recherche et du marketing touristiques. Bien que plusieurs techniques basées sociaux-pour hotspots extraction indépendamment ont été proposés, un hotspot a une relation à d'autres hotspots dans certains cas. Pour organiser ces hotspots, nous proposons une méthode pour détecter et de visualiser les relations entre les hotspots. Notre méthode proposée détecte et évalue les relations de taches de tir et sujets photographiques. Notre approche extrait les relations à l'aide de sous-hotspots, qui sont fendus d'un hotspot qui comprend des photographies de différents types.
The Competitive Intelligence System Xplor EveryWhere helps searching, visualizing, and sharing useful data. In this paper, we will intorduce Xplor EveryWhere and its newest feature called XEWGraph, which is dedicated to the analysis of massive data and visualization of hypergraphs.
SAX (Symbolic Aggregate approXimation) est une des techniquesmajeures de symbolisation des séries temporelles. La non prise en compte destendances dans la symbolisation est une limitation bien connue de SAX. Cet articleprésente 1d-SAX, une méthode pour représenter une série temporelle parune séquence de symboles contenant des informations sur la moyenne et la tendancedes fenêtres successives de la série segmentée. Nous comparons l'efficacitéde 1d-SAX vs SAX dans une tâche de classification de séries temporellesd'images satellites. Les résultats montrent que 1d-SAX améliore les taux de classificationpour une quantité d'information identique utilisée.
Cet article étudie l'intérêt de représenter les documents textuels nonplus comme des sacs-de-mots, mais comme des sacs-de-sacs-de-mots. Au coeurde l'utilisation de cette représentation, le calcul de similarité entre deux objetsnécessite alors d'agréger toutes les similarités entre sacs de chacun des objets.Nous évaluons cette représentation dans un cadre de recherche d'information,et étudions les propriétés attendues de ces fonctions d'agrégation. Les expériencesrapportées montrent l'intérêt de cette représentation lorsque les opérateursd'agrégation respectent certaines propriétés, avec des gains très importantspar rapport aux représentations standard.
Nous proposons dans cet article une méthode d'alignement d'une ontologiesource avec des ontologies cibles déjà publiées et liées sur le web dedonnées. Nous présentons ensuite un retour d'expérience sur l'alignement d'uneontologie dans le domaine des sciences du vivant et de l'environnement avecAGROVOC et NALT.
La numérisation de documents administratifs est un enjeu économiqueet écologique prioritaire dans le contexte sociétal actuel. La dématérialisationmassive de document n'est pas sans conséquence et soulève les problèmes d'organisation,de stockage et d'accès à l'information. Le défi n'est donc plus la numérisationdu document, mais l'extraction des informations qu'ils contiennent.Les documents sont produits par l'Homme et pour l'Homme. Cette propriétépermet de localiser des informations dans les zones saillantes du document (logos).La saillance et la reconnaissance sont deux éléments essentiels pour laclassification rapide de documents. A l'opposé, la recherche d'un document oud'un ensemble de documents repose presque toujours sur le texte brut, il estdonc nécessaire de faire une correspondance entre une requête textuelle et ledocument. Cet article présente une nouvelle approche d'annotation automatiquede documents administratifs qui utilise une approche visuel et une approche defouille de texte.
Le modèle MapReduce est aujourd'hui l'un des modèles de programmationparallèle les plus utilisés. Définissant une architecture Maître-Esclave,il permet le traitement parallèle de grandes masses de données. Dans ce papier,nous proposons un algorithme basé sur MapReduce qui permet, à partir des donnéespubliques du Ministère Français de la Communication et de la Culture, dedéfinir un classement des galeries et musées nationaux selon leurs degré d'accessibilitéaux personnes handicapées. Tout en profitant de la puissance et de laflexibilité du paradigme MapReduce, les décideurs pourront mettre en place desstratégies efficaces à moindre coût et avoir ainsi une vision plus précise sur lesétablissements culturels et leurs limites relatives à cette catégorie de personnes.L'algorithme que nous proposons peut être exploité et appliqué à d'autres casd'études avec des jeux de données plus volumineux.
Les fonctions biologiques dans la cellule mettent en jeu des interactions3D entre protéines et ARN. Les avancées des techniques exérimentalesrestent insuffisantes pour de nombreuse applications. Il faut alors pouvoir prédirein silico les interactions protéine-ARN. Dans ce contexte, nos travaux sontfocalisés sur la construction de fonctions de score permettant d'ordonner les solutionsgénérées par le programme d'amarrage protéine-ARN RosettaDock. Laméthodologie d'évaluation utilisée par RosettaDock impose de trouver une fonctionde score s'exprimant comme une combinaison linéaire de mesures physicochimiques.Avec une approche d'apprentissage supervisé par algorithme génétique,nous avons appris différentes fonctions de score en imposant descontraintes sur la nature des poids recherchés. Les résultats obtenus montrentl'importance de la signification des poids à apprendre et de l'espace de rechercheassocié.
Nous considérons le problème de classification supervisée pour desflux de données présentant éventuellement un très grand nombre de variablesexplicatives. Le classifieur Bayésien naïf se révèle alors simple à calculer etrelativement performant tant que l'hypothèse restrictive d'indépendance des variablesconditionnellement à la classe est respectée. La sélection de variables etle moyennage de modèles sont deux voies connues d'amélioration qui reviennentà déployer un prédicteur Bayésien naïf intégrant une pondération des variablesexplicatives. Dans cet article, nous nous intéressons à l'estimation directe d'untel modèle Bayésien naïf pondéré. Nous proposons une régularisation parcimonieusede la log-vraisemblance du modèle prenant en compte l'informativité dechaque variable. La log-vraisemblance régularisée obtenue étant non convexe,nous proposons un algorithme de gradient en ligne qui post-optimise la solutionobtenue afin de déjouer les minima locaux. Les expérimentations menéess'intéressent d'une part à la qualité de l'optimisation obtenue et d'autre part auxperformances du classifieur en fonction du paramétrage de la régularisation.
L'apprentissage de dépendances est une tâche consistant à établir, àpartir des phrases d'un texte, un modèle de construction d'arbres traduisant unehiérarchie syntaxique entre les mots. Nous proposons un modèle intermédiaireentre l'analyse syntaxique complète de la phrase et les sacs de mots. Il est basésur une grammaire stochastique hors-contexte se traduisant par des relations dedépendance entre les catégories grammaticales d'une phrase. Les résultats expérimentauxobtenus sur des benchmarks attestés dépassent pour cinq langues surdix les scores de l'algorithme de référence DMV, et pour la première fois desscores sont obtenus pour le français. La très grande simplicité de la grammairepermet un apprentissage très rapide, et une analyse presque instantanée.
L'article propose une approche formelle de fusion d'ontologies se reposantsur les grammaires de graphes typés. Elle se décompose en trois étapes :1) la recherche de similarités entre concepts ; 2) la fusion des ontologies parl'approche algébrique SPO (Simple Push Out) ; 3) l'adaptation d'une ontologieglobale par le biais de règles de réécriture de graphes. Contrairement aux solutionsexistantes, cette méthode offre une représentation formelle de la fusiond'ontologies ainsi qu'une implémentation fonctionnelle basée sur l'outil AGG.
Dans cet article nous nous intéressons aux approches pour l'analysede graphes pouvant évoluer dans le temps et tel qu'un sommet à un temps donnépeut correspondre à plusieurs sommets au temps suivant et où les sommets sontassociés à un ensemble d'attributs catégoriels. Dans ce type de données, nousproposons une nouvelle classe de motifs basée sur des contraintes permettant dedécrire l'évolution de structures homogènes. Ce type d'approche est particulièrementadaptée pour l'analyse d'images multi-résolution sans perte d'information.Nous présentons un résultat qualitatif dans ce domaine.
Concept drift is an important feature of real-world data streams thatcan make usual machine learning techniques rapidly become unsuitable. Thispaper addresses the problem of sudden concept drift in classification problemsfor which standard techniques may fail. To this end, support vector machines(SVMs) are automatically corrected to cope with a new suddenly drifted dataset.Results on real-world datasets with several types of sudden drift indicate that themethod is able to correct the SVM in order to better classify the new data afterthe concept drift, using a correction based on the difference between the initialdataset and the new drifted dataset, even when the new dataset is small.
“Big Data” is used to refer to the very large datasets generated by scientists, to the manypetabytes of data held by companies like Facebook and Google, and to analyzing real-time dataassets like the stream of twitter messages emerging from events around the world. Key areasof interest include technologies to manage much larger datasets (cf. NoSQL), technologies for the visualization and analysis of databases, cloud-based data management and dataminingalgorithms.Recently, however, we have begun to see the emergence of another, and equally compellingdata challenge – that of the “Broad data” that emerges from millions and millions of rawdatasets available on the World Wide Web. For broad data the new challenges that emerge includeWeb-scale data search and discovery, rapid and potentially ad hoc integration of datasets,visualization and analysis of only-partially modeled datasets, and issues relating to the policiesfor data use, reuse and combination. In this talk, we present the broad data challenge anddiscuss potential starting points for solutions. We illustrate these approaches using data froma “meta-catalog” of over 1,000,000 open datasets that have been collected from about twohundred governments from around the world.
Dans cet article, nous proposons un nouveau descripteurspatio-temporel appelé ST-SURF pour l'analyse et la reconnaissance d'actionsdans des flux vidéo. L'idée principale est d'enrichir le descripteur Speed UpRobust Feature (SURF) en intégrant l'information de mouvement issue du flotoptique. Seuls les points d'intérêts qui ont subi un déplacement sont pris encompte pour générer un dictionnaire de mots visuels (DMV) robuste basé surl'algorithme des k-moyennes (K-means). Le dictionnaire est utilisé lors du processusd'apprentissage et de reconnaissance d'actions basé sur la méthode desmachines à vecteurs supports (SVM). Les résultats obtenus confirment l'intérêtdu descripteur proposé ST-SURF pour l'analyse de scènes et en particulierpour la reconnaissance d'actions. La méthode atteind une précision de reconnaissancede l'ordre de 80.7%, équivalente aux performances des descripteursspatio-temporels de l'état de l'art.
La prédiction du rayonnement solaire horaire dans une journée estun enjeu primordial pour la production d'énergie de type photovoltaïque. Nousprésentons deux stratégies de classification des jours selon leurs rayonnementssolaires puis une méthode de prédiction du flux solaire cohérente avec la classification.
Un classifieur naïf de Bayes est un classifieur probabiliste basé surl'application du théorème de Bayes avec l'hypothèse naïve, c'est-à-dire que lesvariables explicatives (Xi) sont supposées indépendantes conditionnellement àla variable cible (C). Malgré cette hypothèse forte, ce classifieur s'est avéré trèsefficace sur de nombreuses applications réelles et est souvent utilisé sur les fluxde données pour la classification supervisée. Le classifieur naïf de Bayes nécessitesimplement en entrée l'estimation des probabilités conditionnelles parvariable P(Xi|C) et les probabilités a priori P(C). Pour une utilisation sur lesflux de données, cette estimation peut être fournie à l'aide d'un « résumé superviséen-ligne de quantiles ». L'état de l'art montre que le classifieur naïf de Bayespeut être amélioré en utilisant une méthode de sélection ou de pondération desvariables explicatives. La plupart de ces méthodes ne peuvent fonctionner quehors-ligne car elles nécessitent de stocker toutes les données en mémoire et/oude lire plus d'une fois chaque exemple. Par conséquent, elles ne peuvent être utiliséessur les flux de données. Cet article présente une nouvelle méthode baséesur un modèle graphique qui calcule les poids des variables d'entrée en utilisantune estimation stochastique. La méthode est incrémentale et produit un classifieurNaïf de Bayes Pondéré pour flux de données. Cette méthode est comparéeau classique classifieur naïf de Bayes sur les données utilisées lors du challenge« Large Scale Learning ».
Les approches existantes pour structurer automatiquement un flux detélévision (i.e. reconstituer un guide de programme exact et complet), sont supervisées.Elles requièrent de grandes quantités de données annotées manuellement,et aussi de définir a priori les types d'émissions (publicités, bandes annonces,programmes, sponsors...). Pour éviter ces deux contraintes, nous proposonsune classification non supervisée. La nature multi-relationnelle de nosdonnées proscrit l'utilisation des techniques de clustering habituelles reposantsur des représentations sous forme attributs-valeurs. Nous proposons et validonsexpérimentalement une technique de clustering capable de manipuler ces donnéesen détournant la programmation logique inductive (PLI) pour fonctionnerdans ce cadre non supervisé.
Nous proposons une nouvelle méthode de clustering et d'analyse deséquences temporelles basée sur les modèles en grille à trois dimensions. Lesséquences sont partitionnées en clusters, la dimension temporelle est discrétiséeen intervalles et la dimension évènement est partitionnée en groupes. La grille decellules 3D forme ainsi un estimateur non-paramétrique constant par morceauxde densité jointe des séquences et des dimensions des évènements temporels.Les séquences d'un cluster sont ainsi groupés car elles suivent une distributionsimilaire d'évènements au cours du temps. Nous proposons aussi une méthoded'exploitation du clustering par simplification de la grille ainsi que des indicateurspermettant d'interpréter les clusters et de caractériser les séquences quiles composent. Les expériences sur des données artificielles ainsi que sur desdonnées réelles issues de DBLP démontrent le bien-fondé de notre approche.
La recherche de liens conceptuels fréquents (FCL) est une nouvelleapproche de clustering de réseaux, qui exploite à la fois la structure et les attributsdes noeuds. Bien que les travaux récents se soient déjà intéressés à l'optimisationdes algorithmes de recherche des FCL, peu de travaux sont aujourd'huimenés sur la complémentarité qui existe entre les liens conceptuels et l'approcheclassique de clustering qui consiste en l'extraction de communautés. Ainsi dansce papier, nous nous intéressons à ces deux approches. Notre objectif est d'évaluerles relations potentiellement existantes entre les communautés et les FCLpour comprendre la façon dont les motifs obtenus par chacune des méthodespeuvent correspondre ou s'intersecter ainsi que la connaissance utile résultantde la prise en compte de ces deux types de connaissance. Nous proposons pourcela un ensemble de mesures originales, basées sur la notion d'homogénéité, visantà évaluer le niveau d'intersection des FCL et des communautés lorsqu'ilssont extraits d'un même jeu de données. Notre approche est appliquée à deuxréseaux et démontre l'importance de considérer simultanément plusieurs typesde connaissance et leur intersection.
Nous avons tous déjà eu l'occasion d'effectuer des recherches d'ordremédical sur Internet. Si certains sites spécialisés se refusent à tout diagnosticen ligne, préférant le renvoi vers des professionnels de santé, d'autres en revancheconduisent souvent à des déclarations alarmistes faisant état de situationshumaines difficiles. Dans ce travail, nous étudions l'ampleur de ce phénomèneet montrons que quel que soit le syndrome recherché, les résultats obtenusconduisent toujours à l'énoncé des mots "cancer" ou "tumeur".
Le clustering incrémental en une passe repose sur l'affectation efficacede chaque nouveau point aux clusters existants. Dans le cas général, où lesclusters ne peuvent être représentés par une moyenne, la détermination exhaustivedu cluster le plus proche possède une complexité quadratique avec le nombrede données. Nous proposons dans ce papier une nouvelle méthode d'affectationstochastique à chaque cluster qui minimise le nombre de comparaisons à effectuerentre la donnée et chaque cluster pour garantir, étant donné un taux d'erreuracceptable, l'affectation au cluster le plus proche. Plusieurs bornes théoriques(Bernstein, Hoeffding et Student) sont comparées dans ce papier. Les résultatssur des données artificielles et réelles montrent que la borne de Bernstein donneglobalement les meilleurs résultats (notamment lorsqu'elle est réduite) car ellepermet une accélération forte du processus de clustering, tout en conservant unnombre très faible d'erreurs.
Cet article compare deux représentations de données spatiales, lesgraphes de voisinages et les chemins de Hilbert-Peano, utilisées par des algorithmesde fouille. Cette comparaison s'appuie sur la mise en oeuvre d'une méthoded'énumération de « sacs de noeuds », qui permet d'obtenir des caractérisationshomogènes à partir des deux représentations. La méthode est appliquée àla caractérisation de parcellaires agricoles et les résultats tendent à montrer quela linéarisation de l'espace capte la majorité de l'information, à l'exception deséléments rares, sur cet exemple particulier.
Sur les sites Web communautaires, les utilisateurs échangent des connaissances,en étant à la fois auteurs et lecteurs. Nous présentons une méthodepour construire notre propre compréhension de la sémantique de la communauté,sans recours à une base de connaissances externe. Nous effectuons une extractionde la connaissance présente dans les contributions analysées. Nous proposonsune évaluation de la confiance imputable à cette compréhension déduite,afin d'évaluer la qualité du contenu, avec application à un site Web de partagede recettes de cuisine.
L'optimisation de la construction de cubes OLAP 1 a été jusqu'à présentaxée sur le développement d'algorithmes de calcul performants. Ces derniersopèrent sur des données extraites de l'entrepôt de données qui est généralementimplémenté selon le modèle relationnel qui adopte l'architecture orientéelignes. Or, pour les requêtes décisionnelles, l'architecture orientée colonnes offrede meilleures performances. Cependant, les SGBDR 2 selon cette architecture nedisposent pas d'opérateurs appropriés pour le calcul de cube OLAP. Nous proposonsdans cet article une nouvelle méthode de calcul de cube OLAP. Les résultatsobtenus à partir des expérimentations que nous avons menées démontrentque notre approche optimise considérablement le temps de construction de cubeOLAP et réduit le temps de réponse relatif à l'exploitation du cube comparé àl'approche orientée lignes.
L'utilisation de préférences suscite un intérêt croissant pour personnaliserdes réponses et effectuer des recommandations. En amont, l'étape essentielleest l'élicitation des préférences qui consiste à construire un profil depréférences en sollicitant le moins possible l'utilisateur. Dans cet article, nousprésentons une méthode basée sur l'extraction de motifs séquentiels afin de générerdes règles de préférences contextuelles à partir d'une base de paires detransactions. À partir de ces règles générées, qui ont une expressivité plus richeque celle des approches existantes, nous montrons comment construire et utiliserun profil modélisant les préférences de l'utilisateur. De plus, notre approchea l'avantage de bénéficier des nombreux algorithmes efficaces d'extraction deséquences fréquentes. L'évaluation de notre méthode sur des données réellesmontre que les modèles de préférences construits permettent d'effectuer des recommandationsjustes à un utilisateur.
L'extraction de connaissances à partir de données issues du génie logicielest un domaine qui s'est beaucoup développé ces dix dernières années, avecnotamment la fouille de référentiels logiciels (Mining Software Repositories) etl'application de méthodes statistiques (partitionnement, détection d'outliers) àdes thématiques du processus de développement logiciel. Cet article présente ladémarche de fouille de données mise en oeuvre dans le cadre de Polarsys, ungroupe de travail de la fondation Eclipse, de la définition des exigences à la propositiond'un modèle de qualité dédié et à son implémentation sur un prototype.Les principaux concepts adoptés et les leçons tirées sont également passés enrevue.
Un des défis actuels dans le domaine de la classification supervisée dedocuments est de pouvoir produire un modèle fiable à partir d'un faible volumede données. Avec un volume conséquent de données, les classifieurs fournissentdes résultats satisfaisants mais les performances sont dégradées lorsque celui-cidiminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérationsrésistant à une diminution du volume de données. Leur efficacité, évaluéeen utilisant des algorithmes de classification supervisés existants (Naive Bayeset Class-Feature-Centroid) sur deux corpus différents, est supérieure à celle desautres algorithmes lorsque le nombre de descripteurs diminue. Nous avons étudiéen parallèle les paramètres influençant les différentes approches telles que lenombre de classes, de documents ou de descripteurs.
Les Humanités Numériques, aussi contestable et critiquable que soit le terme, font maintenantpartie du paysage de la recherche en sciences humaines, institutionnalisées par la TrèsGrande Infrastructure de Recherche Huma-Num du CNRS. Elles sont généralement définiescomme la convergence de disciplines autour d'un matériau numérique, matériau inévitablementaccompagné d'un outillage tout aussi numérique. Ce matériau, suivant la discipline quil'observe pourra être considéré comme un objet éditorial, un objet analysable ou un objetcalculable. Nous tenterons de montrer que ce matériau peut aussi être perçu, voire construit,comme un dépôt voire un entrepôt de connaissances. Notre présentation s'appuiera sur diversprojets de recherche en humanités numériques auxquels nous contribuons afin de mettre enexergue le lien qui peut être fait entre extraction et gestion de connaissances d'une part ethumanités numériques d'autre part : le premier peut trouver un terrain expérimental dans lesecond tandis que le second peut tirer profit des méthodes et outils développés par le premier.Nous égrainerons par ailleurs d'autres problématiques inhérentes aux Humanités numériques :de la constitution à l'analyse du corpus en passant par la formalisation et la normalisationdes données. Enfin, nous tenterons de montrer par l'exemple que les questions posées par leshumanités numériques ne sont pas sans rappeler celles des industries de la connaissance.
Twitter est à l'heure actuelle un des réseau sociaux les plus utilisé aumonde et analyser les opinions qui y sont contenues permet de fournir de précieusesinformations notamment aux entreprises commerciales. Dans cet article,nous décrivons une méthode permettant de déterminer l'opinion d'un tweet endétectant dans un premier temps sa subjectivité, puis sa polarité.
Pour mieux analyser et extraire de la connaissance de flots de données,des approches spécifiques ont été proposées ces dernières années. L'un deschallenges auquel elles doivent faire face est la détection de changement dansles données. Alors que de plus en plus de données qualitatives sont générées,peu de travaux de recherche se sont intéressés à la détection de changement dansce contexte et les travaux existants se sont principalement focalisés sur la qualitéd'un modèle appris plutôt qu'au réel changement dans les données. Danscet article nous proposons une nouvelle méthode de détection de changementnon supervisée, appelée CDCStream (Change Detection in Categorical DataStreams), adaptée aux flux de données qualitatives.
Avec le vieillissement de la population dans les décennies à venir, laprise en charge de la dépendance est devenu un enjeu majeur. Les nouvellestechnologies permettent d'améliorer le confort et la sécurité des personnes dépendantesà domicile. Dans cet article nous proposons une méthode de détectionde situations à risques basée sur le seuillage automatique des intervalles d'inactivitédes capteurs de mouvement de type infrarouge passif. Notre contributionconsiste à apprendre de façon automatique la durée maximale d'inactivité, parpièce et par plage horaire. La méthode est évaluée sur des données réelles provenantde l'activité d'une personne réelle dans un appartement équipé de capteursdomotiques. Notre approche permet de réduire le temps d'appel des secours.
Avec la prolifération des données géographiques, il y a un fort besoinde concevoir des outils automatiques pour l'exploitation des connaissances géographiquesincarnées dans les documents textuels. C'est dans ce contexte, quenous proposons une approche permettant de générer une base de données géographiques(BDG) à partir de textes. Notre approche s'articule autour de deuxgrandes phases : la génération du schéma de la BDG et la détermination desdonnées qui serviront au remplissage de cette base. L'implémentation de notreapproche a donné naissance à un outil que nous avons baptisé GDB Generatoret que nous avons intégré dans le SIG : OpenJUMP.
Dans cet article, nous proposons une approche générale de prédictiondes communautés basée sur un modèle d'apprentissage automatique pour la prédictiondes interactions. En effet, nous pensons que, si on peut prédire avec précisionla structure du réseau, alors on a juste à rechercher les communautés surle réseau prédit. Des expérimentations sur des jeux de données réels montrent lafaisabilité de cette approche.
De nos jours dans les secteurs commerciaux et financiers la veille estcruciale et complexe, car la charge d'informations est importante. Pour répondreà cette problématique, nous proposons un système novateur de recommandationd'articles basé sur une modélisation ontologique des connaissances. Nous présentonségalement une nouvelle méthode d'évaluation de la pertinence utilisantle modèle vectoriel intrinsèquement efficace et adapté afin de pallier la confusionnative de ces modèles entre les notions de similarité et de pertinence.
Dans cet article, nous présentons une approche de fouille de textesainsi qu'une interface de visualisation afin d'explorer une large collection dechansons frana¸ises à partir des paroles. Dans un premier temps, nous collectonsparoles et métadonnées de différentes sources sur leWeb. Nous utilisons une approchecombinant clustering et analyse sémantique latente afin d'identifier différentesthématiques et de déterminer différents descripteurs significatifs. Noustransformons par la suite le modèle afin d'obtenir une visualisation interactivepermettant d'explorer la collection de chansons
Les techniques de classification modernes permettent d'étiqueter leszones non couvertes des bases de données cartographiques, mais souffrent d'unmanque de robustesse important. Dans cet article, nous proposons une méthoderobuste d'extension d'étiquetage sur l'emprise d'une image satellite, par analysehiérarchique des données existantes. Notre approche est fondée sur une sélectiond'attributs par thème de la base de données, une sélection des pixels d'apprentissageet des classifications par objet de chaque thème. La décision finaled'étiquetage est prise après fusion des classifications par thème. Notre méthodeest appliquée avec succès et comparée à plusieurs méthodes de classification,couplant données d'occupation du sol et imagerie spatiale très haute résolution.
Les graphes orientés attribués sont des graphes orientés dans lesquelsles noeuds sont associés à un ensemble d'attributs. De nombreuses données, issuesdu monde réel, peuvent être représentées par ce type de structure, maisencore peu d'algorithmes sont capables de les traiter directement. La fouille desgraphes attribués est difficile, car elle nécessite de combiner l'exploration de lastructure du graphe avec l'identification d'itemsets fréquents. De plus, du fait del'explosion combinatoire des itemsets, les isomorphismes de sous-graphes, dontla présence impacte énormément les performances des algorithmes de fouille,sont beaucoup plus nombreux que dans les graphes étiquetés.Dans cet article, nous présentons une nouvelle méthode de fouille de donnéesqui permet d'extraire des motifs fréquents à partir d'un ou de plusieurs graphesorientés attribués. Nous montrons comment réduire l'explosion combinatoireprovoquée par les isomorphismes de sous-graphes en traitant de manière particulièreles motifs automorphes.
Les messages déposés quotidiennement sur les réseaux sociaux et lesblogs sont très nombreux et constituent une source d'informations précieuse.Leur fouille peut être utilisée dans un but de prédiction d'informations. Notreobjectif dans cet article est de proposer un algorithme permettant la prédictiond'informations au plus tôt et de façon fiable, par le biais de l'identification derègles d'épisodes.
Les représentations condensées ont fait l'objet de nombreux travauxdepuis 15 ans. Tandis que les motifs maximaux des classes d'équivalence ontreçu beaucoup d'attention, les motifs minimaux sont restés dans l'ombre notammentà cause de la difficulté de leur extraction. Dans ce papier, nous présentonsun cadre générique concernant l'extraction de motifs minimaux en introduisantla notion de système minimisable d'ensembles. Il permet de considérer des langagesvariés comme les motifs ensemblistes ou les chaînes de caractères, maisaussi différentes métriques dont la fréquence. Ensuite, pour n'importe quel systèmeminimisable d'ensembles, nous introduisons un test de minimalité rapidepermettant d'extraire en profondeur les motifs minimaux. Nous démontrons quel'algorithme proposé est polynomial-delay et polynomial-space. Des expérimentationssur les benchmarks traditionnels complètent notre étude.
Nous présentons ici la plate-forme KD-Ariane, un déploiement d'outilspour la fouille de données dans l'environnement de programmation visuelleAriane. Ce déploiement facilite la conception de chaînes structurées de traitementspour l'extraction de connaissance dans les données
Pour atteindre un but, tout agent en compétition élabore inévitablementdes stratégies. Lorsque l'on dispose d'une certaine quantité de traces d'interactionsentre agents, il est naturel d'utiliser la fouille de motifs séquentielspour découvrir de manière automatique ces stratégies. Dans cet article, nous proposonsune méthodologie qui permet l'élicitation de stratégies et leur capacité àdiscriminer une réussite ou un échec. La méthodologie s'articule en trois étapes :(i) les traces brutes sont transformées en une base de séquences selon des choixqui permettent, (ii) l'extraction de stratégies fréquentes, (iii) lesquelles sont muniesd'une mesure originale d'émergence. C'est donc une méthodologie de découvertede connaissances que nous proposons. Nous montrons l'intérêt des motifsextraits et la faisabilité de l'approche à travers des expérimentations quantitativeset qualitatives sur des données réelles issues du domaine émergent dusport électronique.
La recherche de groupes non-disjoints à partir de données non-étiquetéesest une problématique importante en classification non-supervisée. Laclassification recouvrante (Overlapping clustering) contribue à la résolution deplusieurs problèmes réels qui nécessitent la détermination de groupes qui se chevauchent.Cependant, bien que les recouvrements entre groupes soient tolérésvoire encouragés dans ces applications, il convient de contrôler leur importance.Nous proposons dans ce papier des généralisations de k-moyennes offrant lecontrôle et le paramétrage des recouvrements. Deux principes de régulation sontmis en place, ils visent à contrôler les recouvrements relativement à leur tailleet à la dispersion des classes. Les expérimentations réalisées sur des jeux dedonnées réelles, montrent l'intérêt des principes proposés.
Dans ce papier, nous présentons une approche dédiée à la transformationd'une base de données en un extrait textuel. L'idée sous-jacente à notreproposition est d'apporter plus de sémantique aux données de la base. Cet objectifest atteint moyennant l'utilisation des ontologies comme ressources sémantiques.Notre approche prend comme input un ensemble de bases de donnéeset associe à chacune une ontologie. Une ontologie globale est générée, à partirde laquelle des règles d'association sont proposées pour mieux expliciter sasémantique. Enfin, la génération d'un extrait textuel prend lieu.
Découvrir des connaissances dans des graphes qui sont dynamiqueset dont les sommets sont attribués est de plus en plus étudié, par exemple dansle contexte de l'analyse d'interactions sociales. Il est souvent possible d'expliciterdes hiérarchies sur les attributs permettant de formaliser des connaissancesa priori sur les descriptions des sommets. Nous proposons d'étendre destechniques de fouille sous contraintes récemment proposées pour l'analyse degraphes attribués dynamiques lorsque l'on exploite de telles hiérarchies et doncle potentiel de généralisation/spécialisation qu'elles permettent. Nous décrivonsun algorithme qui calcule des motifs de co-évolution multi-niveaux, c'est-à-diredes ensembles de sommets qui satisfont une contrainte topologique et qui évoluentde la même façon selon un ensemble de tendances et de pas de temps. Nosexpérimentations montrent que l'utilisation d'une hiérarchie permet d'extrairedes collections de motifs plus concises sans perdre d'information.
La classification recouvrante correspond à un enjeu important en classificationnon-supervisée en permettant à une observation d'appartenir à plusieursclusters. Plusieurs méthodes ont été proposées pour faire face à cetteproblématique en utilisant plusieurs approches usuelles de classification. Cependant,malgré l'efficacité de ces méthodes à déterminer des groupes non-disjoints,elles échouent lorsque les données comportent des groupes de densités différentescar elles ignorent la densité locale de chaque groupe et ne considèrentque la distance Euclidienne entres les observations. Afin de détecter des groupesnon-disjoints de densités différentes, nous proposons deux méthodes de classificationintégrant la variation de densité des différentes classes dans le processusde classification. Des expériences réalisées sur des ensembles de données artificiellesmontrent que les méthodes proposées permettent d'obtenir de meilleuresperformances lorsque les données contiennent des groupes de densités différentes.
La notion de structure de communautés est particulièrement utile pourétudier les réseaux complexes, car elle amène un niveau d'analyse intermédiaire,par opposition aux plus classiques niveaux local (voisinage des noeuds) et global(réseau entier). Le concept de rôle communautaire permet de décrire le positionnementd'un noeud en fonction de sa connectivité communautaire. Cependant,les approches existantes sont restreintes aux réseaux non-orientés, utilisentdes mesures topologiques ne considérant pas tous les aspects de la connectivitécommunautaire, et des méthodes d'identification des rôles non-généralisables àtous les réseaux. Nous proposons de résoudre ces problèmes en généralisant lesmesures existantes, et en utilisant une méthode non-supervisée pour déterminerles rôles. Nous illustrons l'intérêt de notre méthode en l'appliquant au réseaude Twitter. Nous montrons que nos modifications mettent en évidence les rôlesspécifiques d'utilisateurs particuliers du réseau, nommés capitalistes sociaux.
Dans ce travail, nous nous intéressons au problème de la prédiction d'attributs sur lesnoeuds dans un réseau social. La plupart des techniques sont hors ligne et ne sont pas adaptéesà des situations où les données arrivent massivement en flux comme dans le cas des médiassociaux. Dans ce travail, nous utilisons les modèles de variables latentes pour prédire les attributsinconnus des noeuds dans un réseau social et proposer une méthode pour mettre à jourincrémentalement le modèle avec des nouvelles données. Des expérimentations sur un jeu dedonnées issues des médias sociaux montrent que notre méthode est moins coûteuse en tempsde calcul et peut garantir des performances acceptables en comparaison avec les techniquesnon-incrémentales de l'état de l'art.
In this paper, we focus on modeling expert knowledge for simulating complex landscapespatial dynamics. One modeling tool to do that is the Ocelet modeling language that usesinteraction graphs to describe spatial dynamics. Most present approaches impose an a priorichoice of spatial format between: (i) a vector format representing the shapes of the entities, or(ii) a gridding of space into regular elements (raster). In this paper we show how Ocelet wasextended to support the interaction semantics between these two spatial formats (vector andraster). As case study, we present a runoff model in a tropical insular environment.
De nombreuses ressources publiées sur le Web des données sont décritespar une composante qui désigne d'une manière directe ou indirecte unelocalisation géographique. Comme toute autre propriété, cette information delocalisation peut être mise à profit pour permettre l'interconnexion des donnéesavec d'autres sources. Elle permet en outre leur représentation cartographique.Cependant, les informations de localisation utilisées dans les sources de donnéeslinked data peuvent parfois s'avérer imprécises ou hétérogènes d'une source àl'autre. Ceci rend donc leur exploitation pour réaliser une interconnexion difficile,voire impossible. Dans cet article, nous proposons de pallier ces difficultésen ancrant les données linked data thématiques aux objets d'un référentielgéographique. Nous mettons à profit le référentiel géographique afin de mettreen correspondance des données thématiques dotées d'indications de localisationhétérogènes. Nous exploitons enfin les relations de correspondance créées entredonnées thématiques et référentiel géographique dans une application de visualisationcartographique des données.
Nous présentons une nouvelle méthode d'analyse exploratoirede grands flots de liens que nous appliquons à la détection d'événementssignificatifs dans plus de 2 millions d'interactions (pendant 4 mois) entreutilisateurs du réseau social en ligne Github. Nous combinons une méthodestatistique de détection automatique d'événements dans une série temporelle,Outskewer, avec un système de visualisation de graphes. Outskewer identifiedes instants de l'évolution du graphe d'interactions méritant d'être étudiés, etun analyste peut valider et interpréter ces événements par la visualisation demotifs anormaux dans les sous-graphes correspondants. Nous montrons par demultiples exemples que cette approche 1) permet de détecter des événementspertinents et de rejeter ceux qui ne le sont pas, 2) est adaptée à une démarcheexploratoire car elle ne nécessite pas de connaissance a priori sur les données.
Les entités nommées sont des éléments intéressants pour les applicationsfondées sur le Traitement du Langage Naturel. Dans le cas de la recherched'information, les entités nommées sont largement employées par les utilisateursdu web dans les requêtes de recherche, soit pour définir un concept debase, soit pour décrire un autre concept dans la requête. Du côté du modèlede recherche, les entités nommées sont des éléments riches en information quiaident à mieux cibler les documents pertinents. Dans cet article, nous étudionsl'avantage d'étendre les entités nommées dans la requête. L'idée est d'utiliserune technique d'expansion sémantique sur une ontologie générale (Yago) pourdésambiguïser les entités nommées et pour trouver leurs différentes appellationsque l'on intègre dans la requête en utilisant 3 approches : sac de mots, dépendanceséquentielle, et concept clé. Nous mesurons l'efficacité de ces expériencesen termes de précision et rappel, et nous étudions l'effet du rôle des entités nomméessur l'expansion. Nous concluons que l'expansion des entités nommées estune méthode simple qui améliore significativement la qualité de la recherchequand elle est comparée à un modèle de référence sans expansion. De plus, cetteméthode est assez compétitive par rapport à l'approche pseudo retour de pertinencesouvent utilisée pour l'expansion de la requête.
Les acteurs et usagers du domaine médical (médecins, infirmiers, patients,internes, pharmaciens, etc.) ne sont pas issus de la même catégorie socioprofessionnelleet ne présentent pas le même niveau de maîtrise du domaine.Leurs écrits en témoignent et véhiculent, de plus, la subjectivité qui leur estpropre. Nous nous intéressons à l'étude automatisée de la subjectivité dans lediscours médical dans des textes en langue française. Nous confrontons le discoursdes médecins (articles scientifiques, rapports cliniques) à celui des patients(messages de forums de santé) en analysant contrastivement les différencesd'emploi des descripteurs tels que les marqueurs d'incertitude et de polarité,les marques émotives non lexicales (smileys, ponctuations répétées, etc.)et lexicales, et les termes médicaux relatifs aux pathologies, traitements et procédures.Nous effectuons une annotation et catégorisation automatiques des documentsafin de mieux observer les spécificités que présentent les discours médicauxciblés.
La notion d'incertitude a été longtemps un sujet de controverses. En particulier la prééminencede la théorie des probabilités dans les sciences tend à gommer les différences présentesdans les premières tentatives de formalisation, remontant au 17ème siècle, entre l'incertitudedue à la variabilité des phénomènes répétables et l'incertitude due au manque d'information(dite épistémique). L'école Bayésienne affirme que quelle que soit l'origine de l'incertitude,celle-ci peut être modélisée par une distribution de probabilité unique. Cette affirmation a étébeaucoup remise en cause dans les trente dernières années. En effet l'emploi systématiqued'une distribution unique en cas d'information partielle mène à des utilisations paradoxales dela théorie des probabilités.Dans de nombreux domaines, il est crucial de distinguer entre l'incertitude due à la variabilitéd'observations et l'incertitude due à l'ignorance partielle. Cette dernière peut être réduitepar l'obtention de nouvelles informations, mais pas la première, dont on ne se prémunit quepar des actions concrètes. Dans le cas des bases de données, il est souvent supposé qu'ellessont précises, et l'incertitude correspondante est souvent négligée. Quant elle est abordée onreste souvent dans une approche probabiliste orthodoxe.Néanmoins, les statisticiens ont développé des outils qui ne relèvent pas de la théorie deKolmogorov pour pallier le manque de données (intervalles de confiance, principe de maximumde vraisemblance...).De nouvelles théories de l'incertain ont émergé, qui offrent la possibilité de représenter lesincertitudes épistémiques et aléatoires de façon distincte, notamment l'incertitude épistémique,en remplaçant la distribution de probabilité unique par une famille de distributions possibles,cette famille étant d'autant plus grande que l'information est absente. Cette représentationcomplexe possède des cas particuliers plus simples à utiliser en pratique, comme les ensemblesaléatoires (théorie des fonctions de croyance), les distributions de possibilité (représentant desensembles flous de valeurs possibles) et les p-boxes, notamment.Le but de cet exposé est de susciter l'intérêt pour ces nouvelles théories de l'incertain,d'en donner les bases formelles, d'en discuter la philosophie sous-jacente, de faire le lien aveccertaines notions en statistique, et de les illustrer sur des exemples.
Du fait qu'elles apportent des solutions dans de nombreuses applications,les traverses minimales des hypergraphes ne cessent de susciter l'intérêt dela communauté scientifique et le développement d'algorithmes pour les calculer.Dans cet article, nous présentons une nouvelle approche pour l'optimisation del'extraction des traverses minimales basée sur les notions d'hypergraphe partielet de traverses minimales locales selon une stratégie diviser pour régner. Nousintroduisons aussi un nouvel algorithme, appelé LOCAL-GENERATOR pour lecalcul des traverses minimales. Les expérimentations effectuées sur divers jeuxde données ont montré l'intérêt de notre approche, notamment sur les hypergraphesayant un nombre de transversalité élevé et renfermant un nombre trèsimportant de traverses minimales.
Pour parler, le locuteur met en mouvement un ensemble complexed'articulateurs : la mâchoire qu'il ouvre plus ou moins, la langue à laquelle ilfait prendre de nombreuses formes et positions, les lèvres qui lui permettent delaisser l'air s'échapper plus ou moins brutalement, etc. Le modèle articulatoirele plus connu est celui de Maeda (1990), obtenu à partir d'Analyses en ComposantesPrincipales faites sur les tableaux de coordonnées des points des articulateursd'un locuteur en train de parler. Nous proposons ici une analyse 3-way dumême type de données, après leur transformation en tableaux de distances. Nousvalidons notre modèle par la prédiction des sons prononcés, qui s'avère presqueaussi bonne que celle du modèle acoustique, et même meilleure quand on prenden compte la co-articulation.
Harnessing a crowd of Web users for data collection has recently become a wide-spreadphenomenon. A key challenge is that the human knowledge forms an open world and it is thusdifficult to know what kind of information we should be looking for. Classic databases haveaddressed this problem by data mining techniques that identify interesting data patterns. Thesetechniques, however, are not suitable for the crowd. This is mainly due to properties of thehuman memory, such as the tendency to remember simple trends and summaries rather thanexact details. Following these observations, we develop here a novel model for crowd mining.We will consider in the talk the logical, algorithmic, and methodological foundations neededfor such a mining process, as well as the applications that can benefit from the knowledgemined from crowd.
Le nombre de caméras de vidéosurveillance installées dans le monde augmente chaquejour. En France, le système de la RATP déployé sur Paris comprend 9000 caméras fixes et19000 mobiles. Lors de faits particuliers (e.g., agressions, vols), les opérateurs de vidéo surveillancese basent sur les indications spatiales et temporelles de la victime et sur leur connaissancede la localisation des caméras pour sélectionner les contenus intéressants pour l'enquête.Deux grands problèmes peuvent alors survenir : (1) le temps de réponse est long (jusqu'à plusieursjours de traitement) et (2) un risque important de perte de résultats à cause d'une mauvaiseconnaissance du terrain (appel à des opérateurs extérieurs). Le but de notre recherche estde définir des outils d'assistance aux opérateurs qui puissent, à partir d'une trajectoire donnée,sélectionner de façon automatique les caméras pertinentes par rapport à la requête.
Nous proposons une méthode originale pour extraire un résumé compact,représentatif et intelligible des motifs fréquents dans des données transactionnellesou séquentielles. Notre approche consiste à extraire un nouveau typede motifs que nous appelons motifs récursifs, i.e. des motifs de motifs, à l'aided'un algorithme hiérarchique agglomératif nommé RepaMiner. Nous généronsnon pas un simple ensemble de motifs mais une véritable structure dérivée dedendrogrammes, le RPgraph.
La classification recouvrante correspond à un domaine d'étude très actifces dernières années et dont l'objectif est d'organiser un ensemble de donnéesen groupes d'individus similaires avec la particularité d'autoriser des chevauchementsentre les groupes. Parmi les approches étudiées nous nous intéressonsaux extensions recouvrantes des modèles de type moindres carrés et constatonsles difficultés théoriques et pratiques liées à leur adaptation aux noyaux. Nousformulons alors une nouvelle définition ensembliste pour caractériser un recouvrementde plusieurs classes, nous montrons que cette modélisation permet lerecours aux noyaux et nous proposons une solution algorithmique efficace pourrépondre au problème de la classification recouvrante à noyaux.
Dans cet article, nous proposons une nouvelle approche permettantà la fois le bi-partitionnement topologique (bi-clustering) et la pondération deblocs variables. Le modèle que nous proposons FBR-BiTM (Feature Block Relevanceusing BiTM) permet de découvrir un espace topologique d'un ensembled'observations et de variables en associant un nouveau score de pondération àchaque sous ensemble de variables. L'estimation des coefficients de pondérationest réalisée dans le même processus d'apprentissage que le bi-partitionnement.Ces pondérations sont locales et associées à chaque prototype. Elles reflètentl'importance locale de chaque bloc de variables pour le bi-partitionnement. L'évaluationmontre que l'approche proposée, comparée
Cet article présente une méthode originale de prédiction de valeursmanquantes dans les bases de données relationnelles, fondée sur la notion deproportion analogique. Nous montrons en particulier comment un algorithmeproposé dans le cadre de la classification automatique peut être adapté à cette fin.Deux cas sont considérés : celui d'une base de données transactionnelle (attributsbooléens), et celui où les valeurs manquantes peuvent être de type numérique.
Les forums de santé en ligne sont des espaces d'échanges où les patientspartagent leurs sentiments à propos de leurs maladies, traitements, etc.Sous couvert d'anonymat, ils expriment très librement leurs expériences personnelles.Ces forums sont donc une source d'informations très utile pour les professionnelsde santé afin de mieux identifier et comprendre les problèmes, lescomportements et les sentiments de leurs patients. Dans cet article, nous proposonsd'exploiter les messages des forums via des techniques de fouille de textespour extraire des traces d'émotions (e.g. joie, colère, surprise , etc.).
It is not uncommon that individuals create multiple profiles across several SNSs, eachcontaining partially overlapping sets of personal information. As a result, the creation of aglobal profile that gives an holistic view of the information of an individual requires methodsthat automatically match, or reconciliates, profiles across SNSs. In this paper, we focus on theproblem of identifying, or matching, the profiles of any individual across social networks.
La reconstruction de chronologies d'évènements cybercriminels (oureconstruction d'évènements) est une étape primordiale dans une investigationnumérique. Cette phase permet aux enquêteurs d'avoir une vue des évènementssurvenus durant un incident. La reconstruction d'évènements requiert l'étuded'importants volumes de données en raison de l'omniprésence des nouvellestechnologies dans notre quotidien. De plus, les conclusions produites se doiventde respecter les critères fixés par la justice. Afin de répondre à ces challenges,nous proposons une nouvelle méthodologie basée sur une ontologie permettantd'assister les enquêteurs tout au long du processus d'enquête.
Dans cet article, nous proposons de montrer l'intérêt et l'utilité de déploiementdes règles d'association inter-langues (RAILs) dans le domaine de laRecherche d'Information Multilingue (RIM). Ces règles sont des connaissancesadditionnelles résultantes d'un processus de fouille de grands corpus parallèlesalignés au niveau de la phrase. En effet, leurs conclusions exprimées dans unelangue cible représentent des traductions potentielles de leurs prémisses, expriméesdans une langue source. Nous illus trons l'utilisation des RAILs dans lecontexte de la RIM à travers deux propositions, à savoir : (i) la traduction desrequêtes et (ii) la traduction des termes de l'index. L'évaluation expérimentale aété menée sur la collection de documents MUCHMORE. Les résultats ont montréune amélioration significative de la pertinence système.
We propose a novel approach for the estimation of the size of trainingsets that are needed for constructing valid models in machine learning and datamining. We aim to provide a good representation of the underlying populationwithout making any distributional assumptions.Our technique is based on the computation of the standard deviation of the 2-statistics of a series of samples. When successive statistics are relatively close,we assume that the samples produced represent adequately the true underlyingdistribution of the population, and the models learned from these samples willbehave almost as well as models learned on the entire population.We validate our results by experiments involving classifiers of various levels ofcomplexity and learning capabilities.
Dans cet article, nous nous intéressons à la recherche des points lesplus intéressants au sens de l'ordre de Pareto, i.e., à l'évaluation de requêtes« skyline » , dans des jeux de données présentant des anomalies. Il n'est pas rareque les données, de petites annonces par exemple, soient peuplées d'erreurs oud'exceptions qui peuvent perturber la recherche des meilleurs points car cellescisont susceptibles de dominer les autres points. L'approche présentée vise àcalculer les requêtes skyline malgré la présence de ces exceptions, sans pourautant les écarter définitivement, et à présenter graphiquement les résultats defaçon à identifier rapidement les points d'intérêt et les anomalies potentielles.
L'objectif de cet article est d'évaluer la capacité de 12 algorithmesde classification multi-label à apprendre, en peu de temps, avec peu d'exemplesd'apprentissage. Les résultats expérimentaux montrent des différences importantesentre les méthodes analysées, pour les 3 mesures d'évaluation choisies:Log-Loss, Ranking-Loss et Temps d'apprentissage/prédiction, et les meilleursrésultats sont obtenus avec: multi-label k Nearest neighbours (ML-kNN), suivide Ensemble de Classifier Chains (ECC) et Ensemble de Binary Relevance (EBR).
La technique des K plus proches voisins (KNN) est une méthoded'apprentissage à base d'instances, elle a été appliquée dans la catégorisationde textes depuis de nombreuses années. En contraste avec ses performances declassification, il est reconnu que cet algorithme est lent pendant la classificationd'un nouveau document. Les Techniques de sélection de prototypes sont apparuescomme des méthodes très compétitives pour améliorer le KNN grâce à laréduction des données. L'étude contenue dans ce papier a pour objectif d'analyserl'impact de ces méthodes sur la performance de la classification de textesavec l'algorithme KNN.
Dans le domaine de la reconnaissance de gestes isolés, bon nombrede travaux se sont intéressés à la réduction de dimension sur l'axe spatial pourréduire à la fois la complexité algorithmique et la variabilité des réalisationsgestuelles. Il est assez étonnant de constater que peu de ces méthodes se sontexplicitement penchées sur la réduction de dimension sur l'axe temporel. Enmatière de complexité, la réduction de dimension sur cet axe est un enjeu majeurquant à l'utilisabilité de distances élastiques en complexité quadratique. Parailleurs, la prise en compte de la variabilité sur cet axe demeure une source avéréede gain de performance. Pour tenter d'apporter un éclairage en matière deréduction de dimension sur l'axe temporel, nous présentons dans cet article uneapproche basée sur un sous échantillonnage temporel associé à l'exploitationd'un apprentissage automatique à base de noyaux élastiques. Nous montronsexpérimentalement, sur deux jeux de données très référencés dans la communautéet très opposés en matière de qualité de capture de mouvement, qu'il estpossible de réduire sensiblement le nombre de postures sur les trajectoires temporellestout en conservant, grâce à des noyaux élastiques, des performances dereconnaissance au niveau de l'état de l'art du domaine. Le gain de complexitéobtenu rend une telle approche éligible pour des applications temps-réel.
Dans cet article, nous proposons une approche argumentative visant àautomatiser la résolution des conflits entre les décideurs qui ont des préférencescontradictoires lors d'une classification multicritères collaborative des connaissancescruciales. Notre étude expérimentale a prouvé que cette approche peutrésoudre jusqu'à 81% des conflits et améliorer la qualité d'approximation dedécideurs d'un taux de 0.62 pour un récepteur et de 0.15 pour un initiateur.
Les symétries sont des propriétés structurelles qu'on détecte dans ungrand nombre de bases de données. Dans cet article, nous étudions l'exploitationdes symétries pour élaguer l'espace de recherche dans les problèmes d'extractionde motifs ensemblistes. Notre approche est basée sur une intégrationdynamique des symétries dans les algorithmes de type Apriori permettant de réduirel'espace des motifs candidats. En effet, pour un motif donné, les symétriesnous permettent de déduire les motifs qui lui sont symétriques et vérifiant parconséquent les mêmes propriétés. Nous détaillons notre approche en utilisantl'exemple des motifs fréquents. Ensuite, nous la généralisons au cadre unificateurde Mannila et Toivonen pour l'extraction des motifs ensemblistes. Les expériencesmenées montrent la faisabilité et l'apport de notre approche d'élagagebasé sur les symétries.
Artificial Intelligence has long had the dream of making computers smarter. For quite sometime, this vision has remained just that: a dream. With the development of large knowledgebases, though, we now have large amounts of semantic information at our hands. This changesthe game of AI. Computers have indeed become smarter. In this talk, we present the latestdevelopments in the field: The construction of general purpose knowledge bases (includingYAGO and DBpedia, as well as NELL and TextRunner), and their applications to tasks thatwere previously out of scope, The extraction of fine-grained information from natural languagetexts, semantic query answering, and the interpretation of newspaper texts at large scale.
With the ever-growing amount of messages exchanged via Twitter, there is an increasinginterest in filtering this information, which is delivered under the form of a stream of messages.In this paper, we present a system for detecting popular topics in Twitter. The system can beapplied to static corpora and can also handle the live Twitter stream.
En classification non-supervisée, le consensus de partitions a pour objectifde produire une partition unique, représentant le consensus, à partir d'unensemble de partitions où chacune est engendrée indépendamment des autres,voire avec des méthodologies différentes. En complément des techniques ayantleur qualité propre en terme de robustesse ou de passage à l'échelle, nous apportonsun point de vue original sur le consensus de partitions, c'est-à-dire, par lebiais de définitions algébriques qui permettent d'établir la nature des déductionspouvant être réalisées dans une approche systématique (p.ex. un système à basede connaissances). Nous fondons notre approche sur le treillis des partitions pourlequel nous montrons comment peuvent être adjoint des opérateurs dans le butde formuler une expression caractérisant le consensus à partir d'un ensemble departitions.
Dans le cadre des cartes topologiques, nous proposons une nouvelleapproche d'ensemble clusters basée sur la méthode STATIS. Les méthodes d'ensembleclusters visent à améliorer la qualité de la partition d'un jeu de donnéesà travers la combinaison de plusieurs partitions.Les différentes partitions peuvent être obtenues en faisant varier les paramètresd'un algorithme (choix des centres initiaux, du voisinage initial et final des cellulesdans le cas des cartes topologiques auto-organisée SOM, etc). L'approcheprésentée dans cette communication repose sur la méthode d'analyse de donnéesmulti-tableaux STATIS pour déterminer une matrice compromis représentant aumieux la similarité entre les partitions issues des cartes topologiques. La fusiondes cartes topologiques est alors obtenue à travers une classification basée surcette matrice compromis. La méthode proposée est illustrée sur des donnéesréelles issues de l'UCI et sur des données simulées.
Nous proposons dans cet article une nouvelle approche croisant destechniques de programmation par contraintes et de fouille pour l'extraction demotifs séquentiels. Le modèle que nous proposons offre un cadre générique etdéclaratif pour modéliser et résoudre des contraintes de nature hétérogène
Au vu de l'émergence rapide des nouvelles technologies mobiles et lacroissance des offres et besoins d'une société en mouvement, les travaux se multiplientpour identifier de nouvelles plateformes d'apprentissage pertinentes afind'améliorer et faciliter l'apprentissage à distance. La prochaine étape de l'apprentissageà distance est naturellement le port de l'e-learning (apprentissageélectronique) vers les nouveaux systèmes mobiles. On parle de m-learning (apprentissagemobile). Nos travaux portent sur le développement d'une nouvellearchitecture pour le m-learning dont l'objectif est d'adapter et recommander desparcours de formations selon les contraintes contextuelles de l'apprenant.
Trouver le nombre optimal de groupes dans le contexte d'un algorithmede clustering est un problème notoirement difficile. Dans cet article,nous en décrivons et évaluons une solution approchée dans le cas de l'algorithmespectral. Notre méthode présente l'avantage d'être déterministe, et peucoûteuse. Nous montrons qu'elle fonctionne de manière satisfaisante dans beaucoupde cas, même si quelques limites amènent des perspectives à ce travail.
Dans cet article, nous nous intéressons à la détection du profil desauteurs (âge, genre) à travers leurs discussions. La méthode proposée s'appuiesur la classification automatique qui utilise certaines données extraites d'une manièrestatistique à partir de corpus source. Nous présentons une méthode hybridequi combine l'analyse de surface dans les textes avec une méthode d'apprentissageautomatique. A fin d'obtenir une meilleure gestion de ces données, nousnous sommes basés sur l'utilisation des arbres de décision. Notre méthode adonné des résultats intéressants pour la détection du genre.
De nombreux systèmes complexes sont étudiés via l'analyse de réseauxdits complexes ayant des propriétés topologiques typiques. Parmi cellesci,les structures de communautés sont particulièrement étudiées. De nombreusesméthodes permettent de les détecter, y compris dans des réseaux contenant desattributs nodaux, des liens orientés ou évoluant dans le temps. La détection prendla forme d'une partition de l'ensemble des noeuds, qu'il faut ensuite caractériserrelativement au système modélisé. Nous travaillons sur l'assistance à cettetâche de caractérisation. Nous proposons une représentation des réseaux sous laforme de séquences de descripteurs de noeuds, qui combinent les informationstemporelles, les mesures topologiques, et les valeurs des attributs nodaux. Lescommunautés sont caractérisées au moyen des motifs séquentiels émergents lesplus représentatifs issus de leurs noeuds. Ceci permet notamment la détectionde comportements inhabituels au sein d'une communauté. Nous décrivons uneétude empirique sur un réseau de collaboration scientifique.
L'explosion du volume de messages échangés via Twitter entraîne unphénomène de surcharge informationnelle pour ses utilisateurs. Il est donc crucialde doter ces derniers de moyens les aidant à filtrer l'information brute, laquelleest délivrée sous la forme d'un flux de messages. Dans cette optique, nousproposons une méthode basée sur la modélisation de l'anomalie dans la fréquencede création de liens dynamiques entre utilisateurs pour détecter les picsde popularité et extraire une liste ordonnée de thématiques populaires. Les expérimentationsmenées sur des données réelles montrent que la méthode proposéeest capable d'identifier et localiser efficacement les thématiques populaires.
La maximisation d'étiquetage (F-max) est une métrique non biaiséed'estimation de la qualité d'une classification non supervisée (clustering) qui favoriseles clusters ayant une valeur maximale de F-mesure d'étiquetage. Danscet article, nous montrons qu'une adaptation de cette métrique dans le cadrede la classification supervisée permet de réaliser une sélection de variables etde calculer pour chacune d'elles une fonction de contraste. La méthode est expérimentéesur différents types de données textuelles. Dans ce contexte, nousmontrons que cette technique améliore les performances des méthodes de classificationde façon très significative par rapport à l'état de l'art des techniquesde sélection de variables, notamment dans le cas de la classification de donnéestextuelles déséquilibrées, fortement multidimensionnelles et bruitées.
Face à la complexité des nouvelles générations d'images médicales, les processus de recherche d'images basés sur leurs contenus visuels peuvent s'avérer insuffisants. Cet article propose une nouvelle approche basée sur l'annotation des images via des termes sémantiques pouvant pallier ce problème. Elle repose sur la combinaison d'une distance hiérarchique permettant de comparer les images en considérant les corrélations entre les termes utilisés pour les décrire et d'une mesure de similarité permettant d'évaluer la proximité sémantique entre des termes ontologiques. Cette approche est validée dans le cadre de la recherche d'images tomodensitométriques.
Automatic processing of textual data enables users to analyze semi-automatically and on alarge scale the data. This analysis is based on two successive processes: (i) representation oftexts, (ii) gathering of textual data (clustering). The software described in this paper focuses onthe first step of the process by offering expert a parameterized representation of textual data.
L'induction d'arbre de décision est une technique puissante et populairepour extraire de la connaissance. Néanmoins, les arbres de décision obtenusdepuis des données issues du monde réel peuvent être très complexes et donc difficilesà exploiter. Dans ce cadre, cet article présente une solution originale pouradapter le résultat d'une classification non supervisée quelconque afin d'obtenirdes arbres de décision simplifiés pour chaque cluster.
La modularité, introduite par Newman pour mesurer la qualité d'unepartition des sommets d'un graphe, ne prend pas en compte d'éventuelles valeursassociées à ces sommets. Dans cet article, nous introduisons une mesure de modularitécomplémentaire, basée sur l'inertie, et adaptée pour évaluer la qualitéd'une partition d'éléments représentés dans un espace vectoriel réel. Cette mesurese veut un pendant pour la classification non supervisée de la modularitéde Newman. Nous présentons également 2Mod-Louvain, une méthode utilisantce critère de modularité basée sur l'inertie conjointement à la modularité deNewman pour détecter des communautés dans des réseaux d'information. Lesexpérimentations que nous avons menées ont montré qu'en exploitant à la foisles données relationnelles et vectorielles, 2Mod-Louvain détectait plus efficacementles communautés que des méthodes utilisant un seul type de données etqu'elle était robuste face à des dégradations des données.
Dans cet article nous présentons deux approches de visualisation développéesdans le cadre d'un projet collaboratif sur l'accès et l'exploitation desdonnées prosopographiques de la Renaissance en France. L'objectif du projetest de modéliser et réaliser un portail sémantique assurant l'accès à différentesbases de données prosopographiques existantes afin de permettre une meilleureexploration et exploitation de ces données. Dans ce cadre, nous avons proposédeux interfaces de visualisation ProsoGraph et ProsoMap qui s'appuient respectivementsur la visualisation de graphes de réseaux sociaux et la visualisationde lieux géographiques et de trajectoires spatio-temporelles. Les deux interfacescommuniquent avec le portail via une couche sémantique et lui offrent des fonctionnalitésd'interrogation supplémentaires.
Depuis deux décennies, la découverte de motifs a été l'un des champs de recherche les plus actifs de l'exploration de données. Cet article en établit une étude bibliographique quantitative en nous appuyant sur 1030 publications issues de 5 conférences internationales majeures : KDD, PKDD, PAKDD, ICDM et SDM. Nous avons d'abord mesuré depuis 2005 un sévère ralentissement de l'activité de recherche dédiée à la découverte de motifs. Puis, nous avons quantifié les principales contributions en terme de langages, de contraintes et de représentations condensées de sorte à comprendre ce ralentissement et à esquisser les directions actuelles.
Si la 3D est un sujet de débat dans la communauté, les expériences sur lesquelles s'appuient les discussions concernent le plus souvent des restitutions visuelles basées sur une projection classique en perspective linéaire. L'objectif de cette communication est de renouveler le cadre expérimental en étudiant l'impact de l'ajout de la disparité binoculaire. Nous nous focalisons ici sur une tâche importante en analyse de réseaux : l'identification de communautés. Et nous comparons la 3D monoscopique et la 3D stéréoscopique à la fois pour la performance de résolution de la tâche et pour le comportement exploratoire à travers l'analyse du mouvement du pointeur de la souris et de la dynamique des modifications de points de vue sur les graphes. Nos résultats expérimentaux mettent en évidence des performances significativement meilleures pour la 3D stéréoscopique et des différences comportementales dans l'exploration avec un centrage plus important sur des zones restreintes en stéréoscopie.
Part-of-speech (POS) tagging is often used in other modules of natural language processing and therefore the results of this process should be as precise as possible. Many different types of taggers have been developed to improve the accuracy of the results in the field of literature or newspapers. Nowadays when the internet is widespread, the environments for online collaboration as chats, forums, blogs, wikis have become important means of communication. The purpose of this research is to analyse the results of tagging the words obtained from the labelling of the words from the online collaboration environments and literary texts with the corresponding parts of speech. In the case of POS tagging, the ambiguities arise due to the fact that a word may have multiple morphological values depending on context.
Parmi la panoplie de classificateurs utilisés dans la catégorisation de textes, nous nous intéressons à l'algorithme des k-voisins les plus proches. Ces performances le situent parmi les meilleures méthodes de catégorisation de textes. Toutefois, il présente certaines limites: (i) coût mémoire car il faut stocker l'ensemble d'apprentissage en entier et (ii) coût élevé de calcul car il doit explorer l'ensemble d'apprentissage pour classer un nouveau document. Dans ce papier, nous proposons une nouvelle démarche pour réduire ce temps de classification sans dégrader les performances de classification.
Dans cet article nous présentons une approche conceptuelle d'aide à la décision dans la conception de systèmes complexes. Cette approche s'appuie sur le formalisme de l'analyse de concepts formels par similarité (ACFS) pour la classification, la visualisation et l'exploration de données de simulation afin d'aider les concepteurs de systèmes complexes à identifier les choix de conception les plus pertinents. L'approche est illustrée sur un cas test de conception de cabine d'un avion de ligne fourni par les partenaires industriels et qui consiste à étudier les données de simulation de différentes configurations du système de ventilation de la cabine afin d'identifier celles qui assurent un confort convenable pour les passagers la cabine. La classification des données de simulation avec leurs scores de confort en utilisant l'ACFS permet d'identifier pour chaque paramètre de conception simulé la plage de valeurs possibles qui assure un confort convenable pour les passagers. Les résultats obtenus ont été confirmés et validés par de nouvelles simulations.
L'analyse formelle de concepts (AFC) est un formalisme de représentation et d'extraction de connaissance fondé sur les notions de concepts et de treillis de concepts (Galois).L'AFC a été exploitée avec succès dans plusieurs domaines en informatique tels le génie logiciel, les bases et entrepôts de données, l'extraction et la gestion de la connaissance et dans plusieurs applications du monde réel comme la médecine, la psychologie, la linguistique et la sociologie.Dans cette présentation, nous allons explorer le potentiel de l'AFC et de quelques extensions de cette théorie (ex. analyse triadique de concepts) dans l'analyse de réseaux sociaux en vue de découvrir des connaissances à partir de réseaux homogènes simples (ex. détection de communautés et d'individus influents à partir d'un réseau d'amis) ou même de réseaux hétérogènes (ex. extraction de règles d'association d'un réseau bibliographique).
La gestion des réclamations est un élément fondamental dans la relation client. C'est le cas en particulier pour la Caisse Nationale des Allocations Familiales qui veut mettre en place une politique nationale pour faciliter cette gestion. Dans cet article, nous décrivons la démarche que nous avons adoptée afin de traiter automatiquement les réclamations provenant d'allocataires de la CAF du Rhône. Les données brutes mises à notre disposition nécessitent une série importante de prétraitements pour les rendre utilisables. Une fois ces données correctement nettoyées, des techniques issues de l'analyse des données et de l'apprentissage non supervisé nous permettent d'extraire à la fois une typologie des réclamations basée sur leur contenu textuel mais aussi une typologie des allocataires réclamants. Après avoir présenté ces deux typologies, nous les mettons en correspondance afin de voir comment les allocataires se distribuent selon les différents types de réclamation.
L'Analyse Relationnelle de Concepts (ARC) est une extension de l'Analyse Formelle de Concepts (AFC), une méthode de classification non supervisée d'objets sous forme de treillis de concepts. L'ARC supporte en plus la gestion de relations entre objets de différents contextes ce qui permet d'établir des liens entre les concepts des différents treillis. Cette particularité lui permet d'être plus intuitive à utiliser pour extraire des connaissances à partir de données relationnelles et de donner des résultats plus riches. Malheureusement lorsque les jeux de données présentent de nombreuses relations, les résultats obtenus sont difficilement exploitables et des problèmes de passages à l'échelle se posent. Nous proposons dans cet article une adaptation possible de l'ARC pour explorer les relations de manière supervisée pour augmenter la pertinence des résultats obtenus et réduire le temps de calcul. Nous prenons pour exemple des données hydrobiologiques ayant trait à la qualité des milieux aquatiques.
La classification orientée objet (COO) prend de plus en plus de dimension dans les travaux de télédétection grâce à sa capacité d'intégrer des connaissances de haut niveau telles que la taille, la forme et les informations de voisinage. Cependant, les approches existantes restent tributaires de l'étape de construction des objets à cause de l'absence d'interaction entre celle-ci et celle de leur identification. Dans cet article, nous proposons une approche sémantique, hiérarchique et collaborative entre les algorithmes de croissances de régions et une classification orientée objet supervisée, permettant une coopération entre l'extraction et l'identification des objets de l'image. Les expériences menées sur une image de très haute résolution de la région de Strasbourg ont confirmé l'intérêt de l'approche introduite.
Cet article présente une application de classification multi-étiquettes permettant de déterminer le programme à utiliser pour construire un alignement multiple d'un ensemble de séquences protéiques donné. Dans un premier temps, nous avons réussi à améliorer le système existant, Alexsys en ajoutant des attributs. Dans un second temps, nous déterminons pour un ensemble de séquences protéiques donné le ou les aligneurs capable de produire les alignements de meilleur score, à epsilon près. Les mesures de performances propres à la classification multi-étiquette nous permettent d'analyser l'influence de epsilon et de choisir une valeur assez petite pour distinguer les meilleurs aligneurs des autres.
Le clustering (ou classification non supervisée) de trajectoires a fait l'objet d'un nombre considérable de travaux de recherche. La majorité de ces travaux s'est intéressée au cas où les objets mobiles engendrant ces trajectoires se déplacent librement dans un espace euclidien et ne prennent pas en compte les contraintes liées à la structure sous-jacente du réseau qu'ils parcourent (ex. réseau routier). Dans le présent article, nous proposons au contraire la prise en compte explicite de ces contraintes. Nous représenterons les relations entre trajectoires et segments routiers par un graphe biparti et nous étudierons la classification de ses sommets. Nous illustrerons, sur un jeu de données synthétiques, l'utilité d'une telle étude pour comprendre la dynamique du mouvement dans le réseau routier et analyser le comportement des véhicules qui l'empruntent.
L'accès croissant à une information pléthorique et le développement de gisements de données ambitieux posent aujourd'hui deux grands types de difficultés aux historiens.Le premier consiste à mettre en relation des gisements qui ont été développés de manière indépendante. C'est par exemple le cas pour l'intégration d'un ensemble de bases de données prosopographiques développées entre 1980 et 2010 au Lamop, ou même dans le cadre d'un projet dont le seul lien est une problématique spatiale et temporelle (projet ANR-DFG, Euroscientia).Le deuxième tient en la nature des données introduites dans ces différents systèmes : elles sont souvent hétérogènes, ambiguës, floues. Pour que le chercheur puisse se les approprier, les données doivent faire l'objet d'un véritable travail, afin de comprendre comment elles ont été obtenues, structurées. L'historien doit donc les évaluer et les valider s'il souhaite les mettre en relation. Cette évaluation nécessitant, elle-même de pouvoir être commentée, partagée et critiquée par d'autres chercheurs.Dans les deux cas, il est nécessaire de développer des outils d'appropriation, qui permettent d'entrer dans le réel historique contenu dans les stocks de données. C'est là la fonction du projet Histobase, un système permettant d'entrer dans la structuration des gisements, d'en évaluer l'information, d'ajouter des couches d'interprétation (qualification de l'information historique) de les évaluer et de partager les données « obtenues ». Chacune des analyses individuelles et collectives fait l'objet d'une mémorisation. Il faut pour cela laisser une place importante aux historiens en tant qu'expert en prêtant une attention particulière aux processus métiers qu'ils mettent en oeuvre.
Nous présentons un processus de construction de descripteurs pour la classification supervisée de séries temporelles. Ce processus est libre de tout paramétrage utilisateur et se décompose en trois étapes : (i) à partir des données originales, nous générons de multiples nouvelles représentations simples ; (ii) sur chacune de ces représentations, nous appliquons un algorithme de coclustering ; (iii) à partir des résultats de co-clustering, nous construisons de nouveaux descripteurs pour les séries temporelles. Nous obtenons une nouvelle base de données objets-attributs dont les objets (identifiant les séries temporelles) sont décrits par des attributs issus des diverses représentations générées. Nous utilisons un classifieur Bayésien sur cette nouvelle base de données. Nous montrons expérimentalement que ce processus offre de très bonnes performances prédictives comparées à l'état de l'art.
Les skypatterns sont des motifs traduisant des préférences de l'utilisateur selon une relation de dominance. Dans cet article, nous introduisons la notion de souplesse dans la problématique des skypatterns et nous montrons comment celle-ci permet de découvrir des motifs intéressants qui seraient manqués autrement. Nous proposons une méthode efficace d'extraction de skypatterns ainsi que de soft-skypatterns, méthode fondée sur la programmation par contraintes. La pertinence de notre approche est illustrée à travers une étude de cas en chémoinformatique pour la découverte de toxicophores.
In this paper, we tackle the problem of detecting academic plagiarism, which is considered as a severe problem owing to the convenience of online publishing. Typical information retrieval methods, stopword-based methods and ngerprinting methods, are commonly used to detect plagiarism by using the sequence of words as they appear in the article. As such, they fail to detect plagiarism when an author reconstructs a source article by re-ordering and recombining phrases. Because graph structure ts for representing relationships between entities, we propose a novel plagiarism detection method, in which we use graphs to represent documents by modeling grammatical relationships between words. Experimental results show that our proposed method outperforms two n-gram methods and increases recall values by 10 to 20%.
L'extraction des traverses minimales d'un hypergraphe est une problématique réputée comme particulièrement difficile et qui a fait l'objet de plusieurs travaux dans la littérature. Dans cet article, nous établissons un lien entre les concepts de la fouille de données et ceux de la théorie des hypergraphes, proposant ainsi un cadre méthodologique pour le calcul des traverses minimales. Le nombre de ces traverses minimales étant, souvent, exponentiel même pour des hypergraphes simples, nous proposons d'en représenter l'ensemble de manière concise et exacte. Pour ce faire, nous introduisons la notion de traverses minimales irrédondantes, à partir desquelles nous pouvons retrouver l'ensemble global de toutes les traverses minimales, à l'aide de l'algorithme IMT-EXTRACTOR. Une étude expérimentale de ce nouvel algorithme a confirmé l'intérêt de l'approche introduite.
Dans ce papier, nous présentons une nouvelle approche qui permet la détection précoce de tendances "produits" dans le cadre des activités commerciales de la grande distribution. S'agissant d'un domaine où la concurrence est très vive entre les différentes enseignes avec des enjeux financiers colossaux, les stratégies commerciales ont pour principal objectif de fidéliser la clientèle pour limiter leur défection. C'est là qu'intervient la détection des changements de tendances produits, qui va permettre d'anticiper l'attrition de la clientèle. Déceler des tendances suffisamment tôt permettra aux décideurs de mettre en place des stratégies préventives efficaces à moindre coût. Notre objectif est donc d'analyser et de modéliser clairement les changements de tendances et leurs impacts potentiels globaux sur les achats des clients. Nous illustrerons notre approche sur des données réelles d'achats de clients d'une grande enseigne.
Nous présentons une approche pour enrichir automatiquement une ontologie à partir d'un ensemble de pages web structurées. Cette approche s'appuie sur un noyau d'ontologie initial. Son originalité est d'exploiter conjointement la structure des documents et des annotations sémantiques produites à l'aide du noyau d'ontologie pour identifier de nouveaux concepts et des spécialisations de relations qui enrichissent l'ontologie. Nous avons implémenté et évalué ce processus en réalisant une ontologie de plantes à partir de fiches de jardinage.
Nous proposons dans cet article de présenter une application d'analyse d'une base de données de grande taille issue du secteur des télécommunications. Le problème consiste à segmenter un territoire et caractériser les zones ainsi définies grâce au comportement des habitants en terme de téléphonie mobile. Nous disposons pour cela d'un réseau d'appels inter-antennes construit pendant une période de cinq mois sur l'ensemble de la France. Nous proposons une analyse en deux phases. La première couple les antennes émettrices dont les appels sont similairement distribués sur les antennes réceptrices et vice versa. Une projection de ces groupes d'antennes sur une carte de France permet une visualisation des corrélations entre la géographie du territoire et le comportement de ses habitants en terme de téléphonie. La seconde phase découpe l'année en périodes entre lesquelles on observe un changement de distributions d'appels sortant des groupes d'antennes. On peut ainsi caractériser l'évolution temporelle du comportement des usagers de mobiles dans chacune des zones du pays.
Cet article étudie les possibilités d'utilisation d'oubli dans l'apprentissage incrémental en-ligne de classifieurs évolutifs basés sur des systèmes d'inférence floue. Pour cela, nous étudions différentes possibilités, existant dans la littérature dédiée au contrôle, pour introduire de l'oubli dans l'algorithme des moindres carrés récursifs. Nous présentons l'impact de ces différentes techniques dans le contexte de l'apprentissage incrémental de classifieurs évolutifs en environnement non stationnaire. Ces approches sont évaluées, pour l'optimisation des systèmes d'inférence floue, sur la problématique de la reconnaissance de gestes manuscrits sur surface tactile.
Nous nous intéressons dans cet article à la problématique d'évolution d'une ontologie permettant de représenter des relations n-aires. Nous présentons la représentation formelle des changements applicables à notre ontologie permettant de modifier sa structure tout en maintenant sa cohérence structurelle. Nous illustrerons nos propos sur une ontologie dédiée à la représentation de relations n-aires entre des données expérimentales quantitatives.
Les graphes orientés acycliques attribués peuvent être utilisés dans beaucoup de domaines applicatif. Dans ce papier, nous étudions un nouveau domaine de motif pour permettre leur analyse : les chemins pondérés fréquents. Nous proposons en conséquence des contraintes primitives permettant d'évaluer leur pertinence (par exemple, les contraintes de fréquence et de compacité), et un algorithme extrayant ces solutions. Nous aboutissons à une représentation condensée dont l'efficacité et le passage à l'échelle sont étudiés empiriquement.
L'extraction de motifs fréquents est une tâche importante en fouille de données. Initialement centrés sur la découverte d'ensembles d'items fréquents, les premiers travaux ont été étendus pour extraire des motifs structurels comme des séquences, des arbres ou des graphes. Dans cet article, nous proposons une nouvelle méthode de fouille de données qui consiste à extraire de nouveaux types de motifs à partir d'une collection d'arbres attribués. Les arbres attribués sont des arbres dans lesquels les noeuds sont associés à des ensembles d'attributs. L'extraction de ces motifs (appelés sous-arbres attribués) combine une recherche d'ensembles d'items fréquents à une recherche de sous-arbres et nécessite d'explorer un immense espace de recherche. Nous présentons plusieurs nouveaux algorithmes d'extraction d'arbres attribués et montrons que leurs implémentations peuvent efficacement extraire des motifs fréquents à partir de grands jeux de données.
L'analyse exploratoire de données multidimensionnelles est un problème complexe. Nous proposons d'extraire certains invariants topologiques appelés nombre de Betti, pour synthétiser la topologie de la structure sous-jacente aux données. Nous définissons un modèle génératif basé sur le complexe simplicial de Delaunay dont nous estimons les paramètres par l'optimisation du critère d'information Bayésien (BIC). Ce Complexe Simplicial Génératif nous permet d'extraire les nombres de Betti de données jouets et d'images d'objets en rotation. Comparé à la technique géométrique des Witness Complex, le CSG apparait plus robuste aux données bruitées.
Nous proposons dans cet article un Système de Recherche d'Information (SRI) qui se base sur des techniques d'indexation de textes en langue naturelle. Nous présentons une méthode d'indexation de documents qui repose sur une approche hybride pour la sélection de descripteurs textuels. Cette approche emploie des traitements du langage naturel pour l'extraction des syntagmes nominaux et sur un filtrage statistique basé sur l'information mutuelle pour sélectionner les syntagmes nominaux les plus informatifs pour le processus d'indexation. Nous effectuons des expérimentations en utilisant le corpus Le Monde 94 de la collection CLEF 2001 et sur le SRI Lemur pour évaluer l'approche proposée.
La littérature s'est beaucoup intéressée à l'extraction de règles d'association positives et peu à l'extraction de règles négatives en raison essentiellement du coût de calculs et du nombre prohibitif de règles extraites qui sont pour la plupart redondantes et inintéressantes. Dans cet article, nous nous sommes intéressés aux algorithmes d'extraction de RAPN (Règles d'Association Positives et Négatives) reposant sur l'algorithme fondateur Apriori. Nous avons fait une étude de ceux-ci en mettant en évidence leurs avantages et leurs inconvénients. A l'issue de cette étude, nous avons proposé un nouvel algorithme qui améliore cette extraction au niveau du nombre et de la qualité des règles extraites et au niveau du parcours de recherche des règles. L'étude s'est terminée par une évaluation de cet algorithme sur plusieurs bases de données.
Nous présentons une méthode en-ligne de détection de changement de concept dans un flux étiqueté. Notre méthode de détection est basée sur un critère supervisé bivarié qui permet d'identifier si les données de deux fenêtres proviennent ou non de la même distribution. Notre méthode a l'intérêt de n'avoir aucun a priori sur la distribution des données, ni sur le type de changement et est capable de détecter des changements de différentes natures (changement dans la moyenne, dans la variance...). Les expérimentations montrent que notre méthode est plus performante et robuste que les méthodes de l'état de l'art testées. De plus, à part la taille des fenêtres, elle ne requiert aucun paramètre utilisateur.
Les travaux présentés dans cet article s'inscrivent dans le paradigme des recherches visant à acquérir des relations sémantiques à partir de folksonomies (ensemble de tags attribués à des ressources par des utilisateurs). Nous expérimentons plusieurs approches issues de l'état de l'art ainsi que l'apport de l'apprentissage automatique pour l'identification de relations entre tags. Nous obtenons dans le meilleur des cas un taux d'erreur de 23,7 % (relations non reconnues ou fausses), ce qui est encourageant au vu de la difficulté de la tâche (les annotateurs humains ont un taux de désaccord de 12%).
Nous proposons une approche permettant de prédire des complexes impliquant trois protéines (appelés trimères) à partir de combinaison de classifieurs appris sur des complexes n'impliquant que deux protéines (dimères). La prédiction de ces trimères repose sur deux hypothèses biologiques : (i) deux protéines orthologues présentent des caractéristiques fonctionnelles similaires; (ii) deux protéines interagissant sous la forme d'un complexe sous-tendent une fonction biologique essentielle à l'espèce concernée. Ces deux hypothèses sont exploitées pour décrire chaque paire de protéines par l'ensemble des espèces pour lesquelles elles possèdent un orthologue. Un ensemble de mesures de qualité classiquement utilisées pour évaluer l'intérêt des règles d'association est utilisé pour évaluer la force du lien entre les deux protéines. L'organisme modèle Escherichia Coli a été utilisé pour évaluer notre approche.
La réponse cellulaire d'un organisme vivant à un signal donné, hormone, stress ou médicament, met en jeu des mécanismes complexes d'interaction et de régulation entre les gènes, les ARN messagers, les protéines et d'autres éléments tels que les micro-ARNs. On parle de réseau d'interaction pour décrire l'ensemble des interactions possibles entre protéines et de réseau de régulation génique pour représenter un ensemble de régulations entre gènes. Identifier ces interactions et ces régulations ouvre la porte à une meilleure compréhension du vivant et permet d'envisager de mieux soigner par le biais du ciblage thérapeutique. Puisque les techniques expérimentales de mesure à grande échelle, récemment développées, fournissent des données d'observation de ces réseaux, ce problème d'identification de réseau, généralement appelé inférence de réseau en biologie des systèmes, s'inscrit dans le cadre général de la fouille de données et plus particulièrement de l'apprentissage artificiel. Voilà maintenant quelques années que cette problématique a été posée à notre communauté et durant lesquelles les échanges entre biologistes et informaticiens ont non seulement permis aux biologistes d'étoffer leurs boîtes à outils mais aussi aux informaticiens de concevoir de nouvelles méthodes de fouille de données.En partant des deux problématiques distinctes que sont l'inférence de réseau d'interaction et l'inférence de réseau de régulation, je montrerai que ces deux tâches d'apprentissage posent, chacune de manière différente, la problématique de la prédiction de sorties structurées. L'inférence de réseau d'interaction entre protéines, vue comme un problème transductif de prédiction de liens, peut être résolue comme un problème d'apprentissage d'un noyau de sortie à partir d'un noyau d'entrée. L'inférence de réseau de régulation, impliquant la modélisation d'un système dynamique, peut être abordée par l'approximation parcimonieuse et structurée de fonctions à valeurs vectorielles. Je présenterai un ensemble de nouveaux outils de régression à sortie dans un espace de Hilbert, fondés sur des noyaux à valeur opérateur, qui fournissent d'excellents résultats en inférence de réseaux biologiques. Des expériences in silico sur des données artificielles, chez la levure du boulanger ou chez l'homme illustreront mes propos. En fin d'exposé, je tracerai quelques perspectives concernant les " nouveaux " défis dans le domaine de la bioinformatique et dans celui de la prédiction de sorties structurées.
Les réseaux sociaux tels que Twitter font partie du phénomène de Déluge des données, expression utilisée pour décrire l'apparition de données de plus en plus volumineuses et complexes. Pour représenter ces réseaux, des graphes orientés sont souvent utilisés. Dans cet article, nous nous focalisons sur deux aspects de l'analyse du réseau social de Twitter. En premier lieu, notre but est de trouver une méthode efficace et haut niveau pour stocker et manipuler le graphe du réseau social en utilisant des ressources informatiques raisonnables. Cet axe de recherche constitue un enjeu majeur puisqu'il est ainsi possible de traiter des graphes à échelle réelle sur des machines potentiellement accessibles par tous. Ensuite, nous étudions les capitalistes sociaux, un type particulier d'utilisateurs de Twitter observé par Ghosh et al. (2012). Nous proposons une méthode pour détecter et classifier efficacement ces utilisateurs.
L'émergence des réseaux sociaux a révolutionné leWeb en permettant notamment aux individus de prolonger leur connexion virtuelle en une relation plus réelle et de partager leurs connaissances. Ce nouveau contexte de diffusion de l'information sur le Web peut constituer un moyen efficace pour cerner les besoins en information des utilisateurs du Web, et permettre à la recherche d'information (RI) de mieux répondre à ces besoins en adaptant les modèles d'indexation et d'interrogation. L'exploitation des réseaux sociaux confronte la RI à plusieurs défis dont les plus importants concernent la représentation de l'information dans ce modèle social de RI et son évaluation, en l'absence de collections de test et de compétitions dédiées. Dans cet article, nous présentons un modèle de RI sociale dans lequel nous proposons de modéliser et d'exploiter le contexte social de l'utilisateur. Nous avons évalué notre modèle à l'aide d'une collection de test de RI sociale construite à partir des annotations du réseau social de bookmarking collaboratif Delicious.
This paper deals with two issues in text clustering which are the detection of non disjoint groups and the representation of textual data. In fact, a text document can discuss several themes and then, it must belong to several groups. The learning algorithm must be able to produce non disjoint clusters and assigns documents to several clusters. The second issue concerns the data representation. Textual data are often represented as a bag of features such as terms, phrases or concepts. This representation of text avoids correlation between terms and doesn't give importance to the order of words in the text. We propose a non supervised learning method able to detect overlapping groups in text document by considering text as a sequence of words and using the Word Sequence Kernel as similarity measure. The experiments show that the proposed method outperforms existing overlapping methods using the bag of word representation in terms of clustering accuracy and detect more relevant groups in textual documents.
Dans ce papier, nous proposons une nouvelle approche topologique de bi-partitionnement (bi-clustering) appelée BiTM en utilisant les cartes autoorganisatrices. L'idée principale de l'approche est d'utiliser une seule carte pour le partitionnement simultané des lignes (observations) et des colonnes (variables). Contrairement aux approches utilisant les cartes topologiques, notre modèle ne nécessite pas de pré-traitement de la base de données. Ainsi, une nouvelle fonction de coût est proposée. De plus, BiTM fournit une visualisation topologique des blocs ou bi-clusters facilement interprétable. Les résultats obtenus sont très encourageants et prometteurs pour continuer dans cette optique.
Le nombre croissant d'ontologies rend le processus d'alignement une composante essentielle du Web sémantique. Plusieurs outils ont été conçus dans le but de produire des alignements. La qualité des alignements fournis par ces outils est étroitement liée à certains paramètres qui régissent leurs traitements. Dans ce papier, nous proposons une nouvelle approche permettant l'adaptation automatique des paramètres d'alignement d'ontologies par l'utilisation de l'intégrale de Choquet, comme un opérateur d'agrégation. Les expérimentations montrent une nette amélioration des résultats par rapport à un paramétrage statique et figé.
Nous proposons dans cet article une nouvelle approche de classification non supervisée où les classes sont obtenues les unes après les autres suivant un processus itératif. L'approche utilise une méthode d'extraction de classes basée sur la détection de limite de classe, chaque classe étant définie par son centre. Nous avons également défini des critères d'évaluation adaptés à la méthode proposée. Plusieurs expérimentations ont montré l'intérêt de l'approche dans divers problèmes.
Nous décrivons la deuxième phase de réalisation d'un système d'intégration qui minimise l'intervention humaine habituellement nécessaire. Après la phase de construction semi-automatique du schéma (ontologie) global décrite dans de précédents articles, nous présentons ici le processus de ré-écriture de requêtes globales en des requêtes adressées aux sources.
La recherche de documents similaires est un processus qui consiste à trouver les documents présentant des similitudes, comme la copie ou la reformulation, sur des bases documentaires ou sur internet. Elle est utilisée notamment pour protéger la propriété intellectuelle de productions issues de l'enseignement, de la recherche ou de l'industrie. Dans cet article, nous définissons une approche automatique pour permettant d'extraire des mots-clés d'un document en effectuant un bouclage sur une succession de découpage de plus en plus petit. Cette approche permet d'obtenir des mots-clés impossibles à obtenir par une approche globale notamment quand la thématique, le style ou le contenu d'un document varient dans le document. L'objectif est de permettre la détection des documents présentant des similitudes en utilisant uniquement des mots-clés.
Notre travail porte sur l'aide à l'observation de l'activité dans les simulateurs pleine échelle de centrale nucléaire pour assister les formateurs pendant les simulations. Notre approche consiste à représenter l'activité sous la forme de trace modélisée et à les transformer afin d'extraire et de visualiser des informations de haut niveau permettant aux formateurs de mieux retracer et analyser les simulations. Afin de valider notre approche, nous avons conçu le prototype D3KODE que nous avons évalué avec des experts formateurs d'EDF.
La sélection des variables a un rôle très important dans la fouille de données lorsqu'un grand nombre de variables est disponible. Ainsi, certaines variables peuvent être peu significatives, corrélées ou non pertinentes. Une méthode de sélection a pour objectif de mesurer la pertinence d'un ensemble utilisant principalement un critère d'évaluation. Nous présentons dans cet article un critère non supervisé permettant de mesurer la pertinence d'un sous-ensemble de variables. Ce dernier repose sur l'utilisation du score Laplacien auquel nous avons ajouté des contraintes hiérarchiques. Travailler dans le cadre non supervisé est un vrai challenge dans ce domaine dû à l'absence des étiquettes de classes. Les résultats obtenus sur plusieurs bases de tests sont très encourageants et prometteurs.
Cet article propose un nouvel algorithme pour le problème de subspace clustering dénommé SNOW. Contrairement aux approches descendantes classiques, il ne repose pas sur l'hypothèse de localité et permet l'affectation d'une donnée à plusieurs clusters dans des sous-espaces différents. Les expérimentations préliminaires montrent que notre approche obtient de meilleurs résultats que l'algorithme COPAC sur une base de référence et a été appliquée sur une base de données réelles.
La factorisation de matrices offre une grande qualité de prédiction pour les systèmes de recommandation. Mais sa nature statique empêche de tenir compte des nouvelles notes que les utilisateurs produisent en continu. Ainsi, la qualité des prédictions décroît entre deux factorisations lorsque de nombreuses notes ne sont pas prises en compte. La quantité de notes écartées est d'autant plus grande que la période entre deux factorisation est longue, ce qui accentue la baisse de qualité.Nos travaux visent à améliorer la qualité des recommandations. Nous proposons une factorisation de matrices utilisant des groupes de produits et intégrant en ligne les nouvelles notes des utilisateurs. Nous attribuons à chaque utilisateur un biais pour chaque groupe de produits similaires que nous mettons à jour. Ainsi, nous améliorons significativement les prédictions entre deux factorisations. Nos expérimentations sur des jeux de données réels montrent l'efficacité de notre approche.
Dans cet article, nous nous intéressons aux méthodes d'extraction d'informations spatiales dans des documents textuels. Nous présentons la méthode hybride Text2Geo qui combine une approche d'extraction d'informations, fondée sur des patrons avec une approche de classification supervisée permettant d'explorer le contexte associé. Nous discutons des résultats expérimentaux obtenus sur le jeu de données de l'étang de Thau.
Alors que les réseaux sociaux s'attachaient à représenter des entités et les relations qui existaient entre elles, les réseaux d'information intègrent également des attributs décrivant ces entités ; ce qui conduit à revisiter les méthodes d'analyse et de fouille de ces réseaux. Dans cet article, nous proposons une méthode de classification des sommets d'un graphe qui exploite d'une part leurs relations et d'autre part les attributs les caractérisant. Cette méthode reprend le principe de la méthode de Louvain en l'étendant de façon à permettre la manipulation d'attributs continus d'une manière symétrique à ce qui existe pour les relations.
My work is concerned with pattern recognition, knowledge discovery, computer learning and statistics. I address how geometry and topology can uncover and empower the semantics of data. In addition to the semantics of data that can be explored using Correspondence Analysis and related multivariate data analyses, hierarchy is a fundamental concept in this work. I address not only low dimensional projection for display purposes, but carry out search and pattern recognition, whenever useful, in very high dimensional spaces. High dimensional spaces present very different characteristics from low dimensions, I have shown that in a particular sense very high dimensional space becomes, as dimensionality increases, hierarchical. I have also shown how in hierarchy, and hence in an ultrametric topological mapping of information space, we track change or anomaly or rupture.In this presentation, the first theme discussed is that of linear time hierarchical clustering with application to sky survey data in astronomy, and to chemo-informatics. The second theme discussed is computational text analysis. It is interesting to note that J.P. Benzécri's original motivation was in language and linguistics. In my text analysis work, I have taken the dictum of McKee (Story : Substance, Structure, Style and the Principles of Screenwriting, Methuen, 1999) that "text is the sensory surface of a work of art" and show just how this insight can be rendered in computational terms. This leads to demarcating, tracking, statistical modelling, visualizing, and pattern recognition of narrative. In an application to collaborative writing, I developed an interactive framework for critiquing, and assessing fit and appropriateness of content, on the basis of semantics, leading to books that were published as e-books, having been written by school children in a few days of collaborative class work. In many aspects of this work, hierarchy expresses both continuity and change in the textual narrative or in the narrative of chronological events.
Dans le contexte de la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement liés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. Dans cet article, nous proposons un Framework basé sur des itemsets pour la construction de variables à partir des tables secondaires. L'informativité de ces nouvelles variables est évaluée dans le cadre de la classification supervisée au moyen d'un critère régularisé qui vise à éviter le surapprentissage. Pour ce faire, nous introduisons un espace de modèles basés sur des itemsets dans la table secondaire ainsi qu'une estimation de la densité conditionnelle des variables construites correspondantes. Une distribution a priori est définie sur cet espace de modèles, pour obtenir ainsi un critère sans paramètres permettant d'évaluer la pertinence des variables construites. Des expérimentations préliminaires montrent la pertinence de l'approche.
La croissance des informations disponibles sur le web nécessite des outils de recherche de plus en plus performants permettant de répondre efficacement aux besoins des utilisateurs. Dans ce contexte, l'utilisation des ontologies présente des atouts importants. Cependant, la construction manuelle d'ontologies est très coûteuse, ceci a poussé à proposer des approches permettant d'automatiser cette construction. Cet article présente un système de recherche d'information hybride basée sur le Raisonnement à Partir de Cas (RàPC) et la composition d'ontologies. Ce système vise à combiner la construction automatique d'ontologies modulaires et le RàPC, qui a pour but d'améliorer les résultats de recherche d'information (RI). Des expérimentations ont été menées et les résultats obtenus montrent une amélioration de la précision dans le cas d'une recherche d'information sur le Web.
Dans cet article, nous abordons le problème de classification non supervisée sous contraintes fondé sur la programmation par contraintes (PPC). Nous considérons comme critère d'optimisation la minimisation du diamètre maximal des clusters. Nous proposons un modèle pour cette tâche en PPC et nous montrons aussi l'importance des stratégies de recherche pour améliorer son efficacité. Notre modèle basé sur la distance entre les objets permet de traiter des données qualitatives et quantitatives. Des contraintes supplémentaires sur les clusters et les instances peuvent directement être ajoutées. Des expériences sur des ensembles de données classiques montrent l'intérêt de notre approche.
Les méthodes dédiées à l'extraction automatique de thématiques sont issues de domaines variés : linguistique computationnelle, TAL, algèbre linéaire, statistique, etc. A ces méthodes spécifiques, peuvent s'ajouter des méthodes adaptées d'autres domaines, notamment de l'apprentissage automatique non supervisé. Les résultats produits par l'ensemble de ces méthodes prennent des formes hétérogènes : partitions de documents, distributions de probabilités sur les mots, matrices. Cela pose clairement un problème pour les comparer de manière uniforme. Dans cet article, nous proposons une nouvelle mesure de qualité, intitulée Vraisemblance Généralisée, pour permettre une évaluation et ainsi la comparaison de différentes méthodes d'extraction de thématiques. Les résultats, obtenus sur un corpus de documents Web autour des élections présidentielles françaises de 2012, ainsi que sur le corpus Associated Press, montrent la pertinence de la mesure proposée.
We present a new system for video auto tagging which aims at correcting and completing the tags provided by users for videos uploaded on the Internet. Unlike most existing systems, we do not learn any tag classifiers or use the questionable textual information to compare our videos. We propose to compare directly the visual content of the videos described by different sets of features such as Bag-of-visual-Words or frequent patterns built from them. Then, we propagate tags between visually similar videos according to the frequency of these tags in a given video neighborhood. We also propose a controlled experimental set up to evaluate such a system. Experiments show that with suitable features, we are able to correct a reasonable amount of tags in Web videos.
Les cartes cognitives sont un modèle graphique représentant des influences entre des concepts. Malgré le fait qu'une carte cognitive soit relativement simple à construire, certaines influences peuvent se contredire l'une l'autre. Cet article propose différents critères pour valider une carte cognitive, c'est-àdire indiquer si la carte contient ou non des contradictions. Nous distinguons deux types de critères : les critères de vérification qui valident une carte cognitive en déterminant sa cohérence interne et les critères de test qui valident une carte à partir d'un ensemble de contraintes choisies par le concepteur.
La classification non supervisée (clustering) évolutive surpasse généralement par celle statique en produisant des groupes de données (clusters) qui reflètent les tendances à long terme tout en étant robuste aux variations à court terme. Dans ce travail, nous présentons un cadre différent pour le clustering évolutif d'une manière incrémentale par un suivi précis des variables de proximité temporelles entre les objets suivis par un clustering statique ordinaire.
Dans cet article, nous nous intéressons à la gestion d'expériences générées au sein des processus de résolution mixte (individuelle et/ou collective) de problèmes afin d'assister la capitalisation et le partage des connaissances dans les environnements collaboratifs. Dans ce contexte, nous proposons un cadre ontologique générique par rapport au domaine dédié à la modélisation formelle et consensuelle de ces expériences en adoptant une architecture multicouche basée sur quatre strates. La première strate est basée sur la spécialisation d'ontologies fondationnelles. La deuxième strate est basée sur la conception de trois patrons conceptuels ontologiques (PCO) noyaux (le PCO organisationnel, le PCO téléologique et le PCO argumentatif modélisant respectivement les acteurs, le problème et les solutions proposées). La troisième strate est basée sur la spécialisation des PCO noyaux dans un domaine particulier et la dernière strate est basée sur l'instanciation du modèle ontologique de domaine pour la représentation d'une situation du monde réel.
Dans cet article, nous proposons un cadre visant à automatiser la construction de variables pour l'apprentissage supervisé, en particulier dans le cadre multi-tables. La connaissance du domaine est spécifiée d'une part en structurant les données en variables, tables et liens entre tables, d'autre part en choisissant des règles de construction de variables. L'espace de construction de variables ainsi défini est potentiellement infini, ce qui pose des problèmes d'exploration combinatoire et de sur-apprentissage. Nous introduisons une distribution de probabilité a priori sur l'espace des variables constructibles, ainsi qu'un algorithme performant de tirage d'échantillons dans cette distribution. Des expérimentations intensives montrent que l'approche est robuste et performante.
Le calcul de similarité entre les séquences est d'une extrême importance dans de nombreuses approches d'explorations de données. Il existe une multitude de mesures de similarités de séquences dans la littérature. Or, la plupart de ces mesures sont conçues pour des séquences simples, dites séquences d'items. Dans ce travail, nous étudions d'un point de vue purement combinatoire le problème de similarité entre des séquences complexes (i.e., des séquences d'ensembles ou itemsets). Nous présentons de nouveaux résultats afin de compter efficacement toutes les sous-séquences communes à deux séquences. Ces résultats théoriques sont la base d'une mesure de similarité calculée efficacement grâce à une approche de programmation dynamique.
Dans cet article, nous proposons une parallélisation sur CPU et GPU d'une méthode de visualisation radiale à base de points d'intérêt. Nous montrons que cette approche peut visualiser avec des temps très courts des millions de données sur des dizaines de dimensions, et nous étudions l'efficacité de la parallélisation dans différentes configurations.
Ontology antipatterns are structures that reflect ontology modelling problems because they lead to inconsistencies, bad reasoning performance or bad formalisation of domain knowledge. We propose four methods for the detection of antipatterns using SPARQL queries. We conduct some experiments to detect antipattern in a corpus of OWL ontologies.
Dans ce papier, nous proposons une approche de détection de nouveautéfondée sur les opérateurs de projection orthogonale et l'idée de doublebootstrap (bi- bootstrap). Notre approche appelée Random Subspace NoveltyDetection Filter (RS-NDF), combine une technique de rééchantillonnage etl'idée d'apprentissage d'ensemble. RS-NDF est un ensemble de filtres NDF(Novelty Detection Filter), induits à partir d'échantillons bootstrap des donnéesd'apprentissage, en utilisant une sélection aléatoire des variables pour l'apprentissagedes filtres. RS-NDF utilise donc un double bootstrap, c'est à dire unrééchantillonnage avec remise sur les observations et un rééchantillonnage sansremise sur les variables. La prédiction est faite par l'agrégation des prédictionsde l'ensemble des filtres. RS-NDF présente généralement une importante améliorationdes performances par rapport au modèle de base NDF unique. Grâce àson algorithme d'apprentissage en ligne, l'approche RS-NDF est également enmesure de suivre les changements dans les données au fil du temps. Plusieursmétriques de performance montrent que l'approche proposée est plus efficace,robuste et offre de meilleures performances pour la détection de nouveauté comparéeaux autres techniques existantes.
Avec le développement du numérique, des quantités très importantesde documents composés de texte et d'images sont échangés, ce qui nécessite ledéveloppement demodèles permettant d'exploiter efficacement ces informationsmultimédias. Dans le contexte de la recherche d'information, unmodèle possibleconsiste à représenter séparément les informations textuelles et visuelles et àcombiner linéairement les scores issus de chaque représentation. Cette approchenécessite le paramétrage de poids afin d'équilibrer la contribution de chaquemodalité. Le but de cet article est de présenter une nouvelle méthode permettantd'apprendre ces poids, basée sur l'analyse linéaire discriminante de Fisher(ALD). Des expérimentations réalisées sur la collection ImageCLEF montrentque l'apprentissage des poids grâce à l'ALD est pertinent et que la combinaisondes scores correspondante améliore significativement les résultats par rapport àl'utilisation d'une seule modalité.
With an overwhelming of experimental and computational results inmolecular biology, there is an increasing interest to provide tools that will automaticallyextract structured biological information recorded in freely availabletext. Extraction of named entities such as protein, gene or disease names andof simple relations of these entities, such as statements of protein-protein interactionshas gained certain success, and now the new focus research has beenmoving to higher level of information extraction such as co-reference resolutionand event extraction. It is precisely the last of these tasks which will be focusedin this paper. The biological event template allows detailed representations ofcomplex natural language statements, which is specified by a trigger and argumentslabeled by semantic roles.In this paper, we have developed a biological event extraction approach whichuses Support Vector Machines (SVM) and a suitable composite kernel functionto identify triggers and to assign the corresponding arguments. Also, we makeuse of a number of features based on both syntactic and contextual informationwhich where automatically learned from the training data.We implemented our event extraction system using the state-of-the-art of NLPtools. We achieved competitive results compared to the BioNLP'09 Shared taskbenchmark.
Le biclustering de données numériques est devenu depuis le début desannées 2000 une tâche importante d'analyse de données, particulièrement pourl'étude de données biologiques d'expression de gènes. Un bicluster représenteune association forte entre un ensemble d'objets et un ensemble d'attributs dansune table de données numériques. Les biclusters de valeurs similaires peuventêtre vus comme des sous-tables maximales de valeurs proches. Seules quelquesméthodes se sont penchées sur une extraction complète (i.e. non heuristique),exacte et non redondante de tels motifs, qui reste toujours un problème difficile,tandis qu'aucun cadre théorique fort ne permet leur caractérisation. Dans le présentarticle, nous introduisons des liens importants avec l'analyse formelle deconcepts. Plus particulièrement, nous montrons de manière originale que l'analysede concepts triadiques (TCA) propose un cadre mathématique intéressant etpuissant pour le biclustering de données numériques. De cette manière, les algorithmesexistants de la TCA, qui s'appliquent habituellement à des données binaires,peuvent être utilisés (directement ou après quelques modifications) aprèsun prétraitement des données pour l'extraction désirée.
Nous nous intéressons aux méthodes de classification hiérarchique oupyramidale, où chaque classe formée correspond à un concept, i.e. une paire (extension,intension), considérant des données décrites par des variables quantitativesà valeurs réelles ou intervalles, ordinales et/ou prenant la forme de distributionde probabilités/fréquences sur un ensemble de catégories. Les concepts sontobtenus par une correspondance de Galois avec généralisation par intervalles, cequi permet de traiter les données de différents types dans un cadre commun. Unemesure de la généralité d'un concept est alors calculée sous une forme communepour les différents types de variables. Un exemple illustre la méthode proposée.
L'objectif de ce travail est de prédire l'état de vigilance d'un individuà partir de l'étude de son activité cérébrale (signaux d'électro-encéphalographieEEG). La variable à prédire est binaire (état de vigilance "normal" ou "relaxé").Des EEG de 44 participants dans les deux états (88 enregistrements), ont étérecueillis via un casque à 58 électrodes. Après une étape de prétraitement et devalidation des données, un critère nommé "critère des pentes" a été choisi. Desméthodes de classification supervisée usuelles (k plus proches voisins, arbresbinaires de décision (CART), forêts aléatoires, PLS et sparse PLS discriminante)ont été appliquées afin de fournir des prédictions de l'état des participants. Lecritère utilisé a ensuite été raffiné grâce à un algorithme génétique, ce qui apermis de construire un modèle fiable (taux de bon classement moyen par CARTégal à 86.68 ± 1.87%) et de sélectionner une électrode parmi les 58 initiales.
Ce papier présente un algorithme spectrale pour maximiser le critèrede la modularité étendu à la classification des données catégorielles. Il met enevidence la connexion formelle entre la maximisation de la modularité et la classificationspectrale, il présente en particulier le problème de maximisation de lamodularité sous forme d'un problème algèbrique de maximisation de la trace.Nous développons ensuite un algorithme efficace pour trouver la partition optimalemaximisant le critère de modularité. Les résultats expérimentaux montrentl'efficacité de notre approche
Nous proposons dans ce papier un nouvel algorithme de classificationnon supervisée à base de modèle de mélange topologique pour des donnéesnon i.i.d (non independently and identically distributed). Ce nouveau paradigmeprobabiliste, plonge les cartes topologiques probabilistes dans une formulationsous forme de chaînes de Markov cachées. Dans cette formulation, la générationd'une observation à un instant donné du temps est conditionnée par les étatsvoisins au même instant du temps. Ainsi, une grande proximité impliquera unegrande probabilité pour la contribution à la génération. L'approche proposée estévaluée en utilisant des données séquentielles réelles issues des bases de donnéesde l'Institut Nationale de l'Audiovisuel (INA). Les résultats obtenus sonttrès encourageants et prometteurs.
Cet article présente une carte auto-organisatrice probabiliste pour l'analyseet la classification topologique des données catégorielles. En considérant unmodèle de mélanges parcimonieux nous introduisons une nouvelle carte autoorganisatrice(SOM) probabiliste. L'estimation des paramètres de notre modèleest réalisée à l'aide de l'algorithme EM classique. Contrairement à SOM, l'algorithmed'apprentissage proposé optimise une fonction objective. Ces performancesont été évaluées sur des données réelles et les résultats obtenus sontencourageants et prometteurs à la fois pour la classification et pour la modélisation.
L'utilisation de modèles de procédure chirurgicale (Surgical ProcessModel, SPM) a récemment émergé dans le domaine de la conception d'outilsd'intervention chirurgicale assistée par ordinateur. Ces modèles, qui sont utiliséspour analyser et évaluer les interventions, représentent des procédures chirurgicales(Surgical Process, SP) qui sont formalisées comme des structures symboliquesdécrivant une chirurgie à un niveau de granularité donné. Un enjeu importantréside dans la définition de métriques permettant la comparaison et l'évaluationde ces procédures. Ainsi, les relations entre ces métriques et des donnéespré-opératoires permettent de classer les chirurgies pour mettre en lumière desinformations sur la procédure elle-même, mais également sur le comportementdu chirurgien. Dans ce papier, nous étudions la classification automatique d'unensemble de procédures chirurgicales en utilisant l'algorithme Dynamic TimeWarping (DTW) pour calculer une mesure de similarité entre procédures chirurgicales.L'utilisation de DTW permet de se concentrer sur les différents typesd'activité effectués pendant la procédure, ainsi que sur leur séquencement touten réduisant les différences temporelles. Des expériences ont été menées sur 24procédures chirurgicales d'hernie discale lombaire dans le but de discriminer leniveau d'expertise des chirurgiens à partir d'une classification connue. A l'aided'un algorithme de clustering hiérarchique utilisant DTW nous avons retrouvédeux groupes de chirurgiens présentant des niveaux d'expertise différents (junioret senior).
Dans cet article, il est question de clustering de courbes. Nous proposonsune méthode non paramétrique qui segmente les courbes en clusters etdiscrétise en intervalles les variables continues décrivant les points de la courbe.Le produit cartésien de ces partitions forme une grille de données qui est inféréeen utilisant une approche Bayésienne de sélection de modèle ne faisant aucunehypothèse concernant les courbes. Enfin, une technique de post-traitement, visantà réduire le nombre de clusters dans le but d'améliorer l'interprétabilitédes clusters, est proposée. Elle consiste à fusionner successivement et de façonoptimale les clusters, ce qui revient à réaliser une classification hiérarchique ascendantedont la mesure de dissimilarité correspond à la variation du critère.De manière intéressante, cette mesure est en fait une somme pondérée de divergencesde Kullback-Leibler entre les distributions des clusters avant et aprèsfusions. L'intérêt de l'approche dans le cadre de l'analyse exploratoire de donnéesfonctionnelles est illustré par un jeu de données artificiel et réel.
La sélection de caractéristiques est une technique permettant de choisirles caractéristiques les plus pertinentes, celles adaptées à la résolution d'unproblème particulier. Les méthodes classiques présentent certains inconvénients.Par exemple, elles peuvent être trop complexes, elles peuvent faire dépendreles caractéristiques sélectionnées du classificateur utilisé, elles risquent de sélectionnerdes caractéristiques redondantes. Dans le but de limiter ces inconvénients,nous proposons dans cet article une nouvelle méthode rapide de sélectionde caractéristiques basée sur la construction et la sélection de classificateurssimples associés à chacune des caractéristiques. Une optimisation par unalgorithme génétique est proposée afin de trouver la meilleure combinaison desclassificateurs. Différentes méthodes de combinaison sont considérées et adaptéesà notre problème. Cette méthode a été appliquée sur différents ensemblesde caractéristiques de tailles variées et construite à partir de la base de chiffresmanuscrits MNIST. Les résultats obtenus montrent la robustesse de l'approcheainsi que l'efficacité de la méthode. En moyenne, le nombre de caractéristiquessélectionnées a diminué de 69,9% tout en conservant le taux de reconnaissance.
Nous proposons dans cet article une nouvelle approche de classificationfondée sur la théorie des fonctions de croyance. Cette méthode repose surla fusion entre la classification supervisée et la classification non supervisée. Eneffet, nous sommes face à un problème de manque de données d'apprentissagepour des applications dont les résultats de classification supervisée et non superviséesont très variables selon les classificateurs employés. Les résultats ainsiobtenus sont par conséquent considérés comme incertains.Notre approche se propose de combiner les résultats des deux types de classificationen exploitant leur complémentarité via la théorie des fonctions de croyance.Celle-ci permet de tenir compte de l'aspect d'incertitude et d'imprécision. Aprèsavoir dresser les différentes étapes de notre nouveau schéma de classification,nous détaillons la fusion de classificateurs. Cette nouvelle approche est appliquéesur des données génériques, issues d'une vingtaine de bases de données.Les résultats obtenus ont montré l'efficacité de l'approche proposée.
Les systèmes de surveillance maritime permettent la récupération et lafusion des informations sur les navires (position, vitesse, etc.) à des fins de suividu trafic maritime sur un dispositif d'affichage. Aujourd'hui, l'identification desrisques à partir de ces systèmes est difficilement automatisable compte-tenu del'expertise à formaliser, du nombre important de navires et de la multiplicité desrisques (collision, échouement, etc). De plus, le remplacement périodique desopérateurs de surveillance complique la reconnaissance d'événements anormauxqui sont éparses et parcellaires dans le temps et l'espace. Dans l'objectif de faireévoluer ces systèmes de surveillance maritime, nous proposons dans cet article,une approche originale fondée sur le data mining pour l'extraction de motifsfréquents. Cette approche se focalise sur des règles de prévision et de ciblagepour l'identification automatique des situations induisant ou constituant le cadredes accidents maritimes.
Nous proposons dans ce papier une nouvelle méthode de détection degroupes outliers. Notre mesure nommée GOF (Group Outlier Factor) est estiméepar l'apprentissage non-supervisé. Nous l'avons intégré dans l'apprentissage descartes topologiques. Notre approche est basée sur la densité relative de chaquegroupe de données, et fournit simultanément un partitionnement des donnéeset un indicateur quantitatif (GOF) sur "la particularité" de chaque cluster ougroupe. Les résultats obtenus sont très encourageants et prometteurs pour continuerdans cette optique.
L'apprentissage non supervisé a classiquement pour objectif la détectionde sous-populations homogènes (classes) considérées de manière équivalentesans information a priori sur celles-ci. Le problème étudié dans cet articleest quelque peu distinct. On se focalise ici uniquement sur une sous-populationd'intérêt que l'on cherche à identifier avec un rappel et une précision optimales.Nous proposons, pour cela, une méthode s'appuyant sur les principes suivants :(1) travailler dans l'espace de représentation fourni par des experts faibles pourcette tâche, (2) confronter ces experts pour détecter des seuils de sélection pluspertinents, et (3) les combiner itérativement afin de converger vers l'expert idéal.Cette méthode est éprouvée et comparée sur des données synthétiques.
Producing high quality recommendations has become a challenge inthe recent years. Indeed, the growth in the quantity of data involved in the recommendationprocess pose some scalability and effectiveness problems. Theseissues have encouraged the research of new technologies. Instead of developinga new recommender system we improve an already existing method. A distributedframework was considered based on the known quality and simplicity ofthe MapReduce project. The Hadoop Open Source project played a fundamentalrole in this research. It undoubtedly encouraged and facilitated the constructionof our application, supplying all tools needed. Our main goal in this research wasto prove that building a distributed recommender system was not only possible,but simple and productive.
The most common fitness evaluation for Bayesian networks in the presence of data is the Cooper-Herskovitz criterion. This technique involves massive amounts of data and, therefore, expansive computations. We propose a cheaper alternative evaluation method using simplified ssumptions which produces evaluations that are strongly correlated with the Cooper-Herskovitz criterion.
Lors de l'analyse de graphes, il est important de connaître leurs propriétésafin de pouvoir par exemple identifier leur structure et les comparer.Une des caractérisations importante de ces graphes repose sur le fait de déterminers'il s'agit ou non d'un "petit monde". Pour ce faire, la valeur du diamètredu graphe est essentielle. Or la mesure du diamètre est pour un très grandgraphe, une opération extrêmement longue. Nous proposons un algorithme endeux phases qui permet d'obtenir rapidement une estimation du diamètre d'ungraphe avec une proportion d'erreur faible. En réduisant cet algorithme à uneseule phase et en acceptant une marge d'erreur plus élevée, nous obtenons uneestimation très rapide du diamètre. Nous testons cet algorithme sur deux grandsgraphes de terrain (plus d'un million de noeuds) et comparons ses performancesavec celles d'un algorithme de référence BFS (Breadth-First Search). Les résultatsobtenus sont décrits et commentés.
Nous présentons dans cet article une nouvelle approche pour la générationautomatique de structures lexicales (ou taxonomies) à partir de textes.Cette tâche est fondée sur l'hypothèse forte selon laquelle l'accumulation defaits statistiques simples sur les usages en corpus permet d'approximer des informationsde niveau sémantique sur le lexique. Nous utilisons la prétopologiecomme cadre de travail afin de formaliser et de combiner plusieurs hypothèsessur les usages terminologiques et enfin de structurer le lexique sous la formed'une taxonomie. Nous considérons également le problème de l'évaluation destaxonomies résultantes et proposons un nouvel indice afin de les comparer et depositionner notre approche par rapport à la littérature.
Les technologies de l'information et le succès des services associés(e.g., blogs, forums,...) ont ouvert la voie à un mode d'expression massive d'opinionssur les sujets les plus variés. Récemment, de nouvelles techniques de détectionautomatique d'opinions (opinion mining) ont fait leur apparition et viades analyses statistiques des avis exprimés, tendent à dégager une tendance globaledes opinions exprimées par les internautes. Néanmoins une analyse plusfine de celle-ci montre que les arguments avancés par les internautes relèvent decritères de jugement distincts. Ici, un film sera décrié pour un scénario décousu,là il sera encensé pour une bande son époustouflante. Dans cet article, nous proposons,après avoir caractérisé automatiquement des critères dans un document,d'en extraire l'opinion relative. A partir d'un ensemble restreint de mots clésd'opinions, notre approche construit automatiquement une base d'apprentissagede documents issus du web et en déduit un lexique de mots ou d'expressionsd'opinions spécifiques au domaine d'application. Des expériences menées surdes jeux de données réelles illustrent l'efficacité de l'approche.
L'analyse de grands réseaux est très étudiée en fouille de données.Toutefois, les approches existantes proposent une analyse soit à un niveau macroscopique(étude des propriétés globales comme la distribution des degrés),soit à un niveau microscopique (extraction de sous-graphes fréquents ou denses).Nous proposons une nouvelle méthode qui effectue une analyse intermédiairepermettant de découvrir des motifs regroupant des propriétés microscopiques etmacroscopiques du réseau. Ces motifs capturent des co-variations entre des propriétésnumériques relatives aux sommets. Par exemple, un motif mésoscopiquedans un réseau de co-auteurs peut être plus le nombre de publications à EGC estimportant, plus la centralité des sommets correspondants dans le réseau l'estégalement. Notre contribution est multiple. D'abord, ce travail est le premierà exploiter conjointement des propriétés locales et des propriétés topologiques.De plus, nous produisons de nouvelles avancées dans le domaine de l'extractionde co-variations en revisitant les motifs émergents dans ce contexte. Enfin, nousrapportons une analyse d'un réseau bibliographique réel issu de DBLP.
La découverte de dépendances fonctionnelles (DF) à partir d'une relationexistante est une technique importante pour l'analyse de Bases de Données.L'ensemble des DF exactes ou approximatives extraites par les algorithmes existantsest valide tant que la relation n'est pas modifiée. Ceci est insuffisant pourdes situations réelles où les relations sont constamment mises à jour.Nous proposons une approche incrémentale qui maintiens à jour l'ensemble desDF valides, exactes ou approximatives selon une erreur donnée, quand des tuplessont insérés et supprimés. Les résultats expérimentaux indiquent que lors de l'extractionde DF à partir d'une relation continuellement modifiée, les algorithmesexistants sont sensiblement dépassés par notre stratégie incrémentale.
Cet article présente FLMin, une nouvelle méthode d'extraction de motifsfréquents dans les réseaux sociaux. Contrairement aux méthodes traditionnellesqui s'intéressent uniquement aux régularités structurelles, l'originalité denotre approche réside dans sa capacité à exploiter la structure et les attributs desnoeuds pour extraire des régularités, que nous appelons “liens fréquents”, dansles liens entre des noeuds partageant des caractéristiques communes.
Lors de l'extraction des séquences, la granularité temporelle est plusou moins importante selon les besoins des utilisateurs et les contraintes du domained'application. Nous proposons un algorithme d'extraction de séquencesfréquentes par intervalles à partir de séquences à estampilles temporelles discrètes.Nous intégrons une relaxation des contraintes temporelles en introduisantla définition de "séquences temporelles par intervalles" (STI). Ces intervalles reflètentune incertitude sur les occurrences précises des évènements. Nous formalisonsce nouveau concept en exhibant certaines de ses propriétés et nous menonsquelques expériences afin de comparer (qualitativement) nos résultats avec uneautre proposition assez proche de la nôtre
Différentes ressources ontologiques généralistes de très grande tailleont été développées de façon collective et sont aujourd'hui disponibles sur leweb. Ainsi l'ontologie YAGO est une énorme base de connaissances décrivantplus de 2 millions d'entités. Afin de tirer parti de ce gigantesque travail collectif,nous montrons comment en extraire des sous-parties thématiquement focaliséespour enrichir une autre ontologie, dite cible, de taille plus limitée mais de domainecentré sur une application particulière 1.
Indexer une vidéo consiste à rattacher un ou plusieurs concepts à dessegments de cette vidéo, un concept étant défini comme une représentation intellectuelled'une idée abstraite. L'indexation automatique se base sur l'extractionautomatique de caractéristiques fournies par un système de traitement d'images.Cependant, il est nécessaire de définir les index ou concepts. Pour cela il fautdéfinir le lien qui existe entre ces caractéristiques et ces concepts. Ce qui sépareles caractéristiques extraites sur lesquelles se base l'indexation automatique etles concepts est appelé fossé sémantique qui est le manque de concordance entreles informations que les machines peuvent extraire depuis les documents numériqueset les interprétations que les humaines en font. La définition d'un conceptpeut être faite automatiquement si l'on dispose d'une base d'apprentissage liéeau concept. Dans ce cas, il est possible "d'apprendre" le concept de manièrestatistique. Mais la construction de cette base d'apprentissage nécessite de faireintervenir un utilisateur ou un expert applicatif. En fait, il s'agit de s'appuyer surses connaissances pour extraire des segments vidéo représentatifs du conceptque l'on souhaite définir. On peut lui demander d'indexer manuellement la based'apprentissage, mais cette opération est longue et fastidieuse. Dans cet article,nous proposons une méthode qui permet d'extraire l'expertise pour que l'implicationde l'expert soit la plus simple et la plus limitée possible.
Nous proposons une méthode utilisant les histogrammes de gradientorienté (HOG) et les séparateurs à vaste marge (SVM) pour la détection de personnesà partir d'images prises depuis un petit robot mobile autonome. Les travauxantérieurs réalisés dans le domaine de la détection d'êtres humains à partird'images ne peuvent pas être employés pour ce type d'application car ils supposentque les images sont prises à partir d'une position élevée (au moins lahauteur d'un petit enfant) alors que la taille de notre robot n'est que de 15cm.Nous employons à la fois les HOG et les SVM car cette combinaison de méthodesest reconnue comme étant celle ayant le plus de succès pour la détectionde personnes. Pour traiter une grande variété de formes humaines, principalementen raison de la distance existant entre les personnes et le robot, nous avonsdéveloppé une nouvelleméthode de prédiction à deux étapes utilisant deux typesde classificateurs SVM qui reposent sur une estimation de la distance. L'estimationest basée sur une proportion de pixels de couleur de peau dans l'image, cequi nous permet de clairement séparer notre problème de la détection de corpsentier et de celle de corps partiel. Les essais réalisés dans un bureau ont montrédes résultats prometteurs de notre méthode avec une valeur de F de 0,93.
Lorsqu'on désire contacter un client pour lui proposer un produit oncalcule au préalable la probabilité qu'il achètera ce produit. Cette probabilitéest calculée à l'aide d'un modèle prédictif pour un ensemble de clients. Le servicemarketing contacte ensuite ceux ayant la plus forte probabilité d'acheter leproduit. En parallèle, et avant le contact commercial, il peut être intéressant deréaliser une typologie des clients qui seront contactés. L'idée étant de proposerdes campagnes différenciées par groupe de clients. Cet article montre commentil est possible de contraindre la typologie, réalisée à l'aide des k-moyennes, àrespecter la proximité des clients vis-à-vis de leur score d'appétence.
Cet article étudie la faisabilité et l'intérêt de l'extraction de règles dedépendance entre ensembles de variables multivaluées en comparaison du problèmebien connu de l'extraction des règles d'association fréquentes. Une règlede dépendance correspond à une dépendance fonctionnelle approximative caractériséeprincipalement par l'entropie conditionnelle associée. L'article montrecomment établir une analogie formelle entre les deux familles de règles et commentadapter à l'aide de cette analogie l'algorithme « Eclat » afin d'extraire d'unjeu de données les règles de dépendance dites bien définies. Une étude expérimentaleconclut sur les forces et inconvénients des règles de dépendance biendéfinies vis-à-vis des règles d'association fréquentes
La littérature s'est beaucoup intéressée à l'extraction de règles classiques(ou positives) et peu à l'extraction des règles négatives en raison essentiellementd'une part, du coût de calculs et d'autre part, du nombre prohibitif derègles redondantes et inintéressantes extraites. La démarche que nous avons retenueest de dégager les règles négatives lors de l'extraction des règles positives,et pour cela, nous recherchons les règles négatives que l'on peut inférer ou pas àpartir de la pertinence d'une règle positive. Ces différentes inférences vont êtreformalisées par un ensemble de méta-règles.
Advanced biotechnologies have rendered feasible high-throughput data collecting in human and other model organisms. The availability of such data holds promise for dissecting complex biological processes. Making sense of the flood of biological data poses great statistical and computational challenges. I will discuss the problem of mining gene-gene interactions in high-throughput genetic data. Finding genetic interactions is an important biological problem since many common diseases are caused by joint effects of genes. Previously, it was considered intractable to find genetic interactions in the whole-genome scale due to the enormous search space. The problem was commonly addressed using heuristics which do not guarantee the optimality of the solution. I will show that by utilizing the upper bound of the test statistic and effectively indexing the data, we can dramatically prune the search space and reduce computational burden. Moreover, our algorithms guarantee to find the optimal solution. In addition to handling specific statistical tests, our algorithms can be applied to a wide range of study types by utilizing convexity, a common property of many commonly used statistics.
L'automatisation et la supervision des systèmes pervasifs est à l'heureactuelle principalement basée sur l'utilisation massive de capteurs distribuésdans l'environnement. Dans cet article, nous proposons un modèle de supervisiond'interactions basé sur l'analyse sémantique des logs domotiques (commandesémises par l'utilisateur), visant à limiter l'utilisation de ces capteurs :le principe est d'utiliser des outils d'inférences avancés, afin de déduire les informationshabituellement captées. Pour cela, une ontologie, automatiquementdérivée d'un processus dirigé par les modèles, définit les interactions utilisateursystème.L'utilisation d'un système de règles permet ensuite d'inférer des informationssur la localisation et l'intention de l'utilisateur, dans le but de réaliserdu monitoring et de proposer des services domotiques adaptés.
Regularized generalized canonical correlation analysis (RGCCA) is a generalization of regularizedcanonical correlation analysis to three or more sets of variables. It constitutes a generalframework for many multi-block data analysis methods. It combines the power of multi-blockdata analysis methods (maximization of well identified criteria) and the flexibility of PLS pathmodeling (the researcher decides which blocks are connected and which are not). Searchingfor a fixed point of the stationary equations related to RGCCA, a new monotone convergentalgorithm, very similar to the PLS algorithm proposed by Herman Wold, is obtained. Finally,a practical example is discussed.
Le prétraitement des variables numériques dans le contexte de lafouille de données multi-tables diffère de celui des données classiques individuvariable.La difficulté vient principalement des relations un-à-plusieurs où lesindividus de la table cible sont potentiellement associés à plusieurs enregistrementsdans des tables secondaires. Dans cet article, nous décrivons une méthodede discrétisation des variables numériques situées dans des tables secondaires.Nous proposons un critère qui évalue les discrétisations candidates pour ce typede variables. Nous décrivons un algorithme d'optimisation simple qui permetd'obtenir la meilleure discrétisation en intervalles de fréquence égale pour lecritère proposé. L'idée est de projeter dans la table cible l'information contenuedans chaque variable secondaire à l'aide d'un vecteur d'attributs (un attributpar intervalle de discrétisation). Chaque attribut représente le nombre de valeursde la variable secondaire appartenant à l'intervalle correspondant. Ces attributsd'effectifs sont conjointement partitionnés à l'aide de modèles en grille de donnéesafin d'obtenir une meilleure séparation des valeurs de la classe. Des expérimentationssur des jeux de données réelles et artificielles révèlent que l'approchede discrétisation permet de découvrir des variables secondaires pertinentes.
Concevoir une carte géographique, plus particulièrement sa légende,exige des compétences spécifiques. L'objectif de ce papier est de présenter unebase de connaissances destinée à aider tout utilisateur à concevoir une ou plusieurslégendes adaptées à son besoin et conformes aux règles de cartographie.La base de connaissances est formée d'une ontologie de la cartographie nomméeOntoCarto, d'un corpus de règles : OntoCartoRules et d'un moteur de raisonnement: Corese. Dans ce papier, chaque demande de conception de légende estvue comme une instanciation particulière de l'ontologie, associée à une sélectionde règles pertinentes dans le corpus de règles, sur laquelle Corese va raisonnerpour construire des légendes adaptées à la configuration spécifique traitée. Laconception de la légende s'appuie sur la définition de deux hiérarchies d'objetsgéographiques et cartographiques. Les principes de fonctionnement de Coresesont présentés. Un prototype a été implémenté et des extraits des résultats sontmontrés.
Dans cet article, nous nous intéressons à la recherche agrégée dansdes documents XML. Pour cela, nous proposons un modèle basé sur les réseauxbayésiens. Les relations de dépendances entre requête-termes d'indexation ettermes d'indexation-éléments sont quantifiées par des mesures de probabilité.Dans ce modèle, la requête de l'utilisateur déclenche un processus de propagationpour trouver des éléments. Ainsi, au lieu de récupérer une liste des élémentsqui sont susceptibles de répondre à la requête, notre objectif est d'agréger dansun agrégat des éléments pertinents, non-redondants et complémentaires. Nousavons évalué notre approche dans le cadre de la compagne d'évaluation INEX2009 et avons présenté quelques résultats expérimentaux mettant en évidencel'impact de l'agrégation de tels éléments.
Learning from spatial data is characterized by two main features. First, spatial objects have a locational property which implicitly defines several spatial relationships (topological, directional, distancebased) between objects. Second, attributes of spatially related units tend to be statistically correlated. These two features argue against the assumption of the independent generation of data samples (i.i.d. assumption) underlying classic machine learning algorithms, and motivate the application of relational learning algorithms, whose inferences are based on both instance properties and relations between data. This relational learning approach to spatial domains has already been investigated in the last decade, and important accomplishments in this direction have already been performed. In this talk, we retrospectively survey major achievements on relational learning from spatial data and we report open problems which still challenges researchers and prospectively suggest important topics for incorporation into a research agenda.
Dans cet article nous proposons un nouvel algorithme pour la réorganisationhiérarchique des cubes OLAP (On-Line Analytical Processing) ayantpour objectif d'améliorer leur visualisation. Cet algorithme se caractérise par lefait qu'il peut traiter des dimensions organisées hiérarchiquement et optimiserconjointement les dimensions du cube, contrairement aux autres approches. Ilutilise un algorithme génétique qui réorganise des arbres n-aires quelconques. Ila été intégré dans une interface OLAP puis testé en comparaison avec d'autresapproches de réorganisation, et fournit des résultats très positifs. A ce titre,nous avons également généralisé l'algorithme heuristique classique BEA ("bondenergy algorithm") au cas de hiérarchies OLAP. Enfin, notre approche a été évaluéepar des utilisateurs et les résultats soulignent l'intérêt de la réorganisationdans des exemples de tâches à résoudre pour OLAP.
Le but principal des systèmes de recherche d'informations (SRI) classiquesest de retrouver dans un corpus de documents l'information considéréecomme pertinente pour une requête utilisateur. Cette pertinence est souvent liéeà la fréquence d'apparition des termes dans le texte par rapport au corpus sanstenir compte du contexte de la recherche. Partant de ce constat, nous proposonsdans cet article une approche pour la recherche d'information contextuelle parsegmentation thématique de documents (RICSH). Cette approche s'appuie surla méthode de pondération tf-idf que nous avons adaptée dans notre cas pourindexer le corpus. Cette adaptation se situe au niveau de l'importance du termeet de son pouvoir de discrimination par rapport aux fragments de textes et nonau corpus. Ces fragments sont obtenus grâce à un processus d'identification desunités thématiques les plus pertinentes pour chaque document.
Cet article analyse la consistance asymptotique des modèles en grilleappliqués à l'estimation de densité jointe de deux variables catégorielles. Lesmodèles en grille considèrent un partitionnement des valeurs de chacune des variables,le produit Cartésien des partitions formant une grille dont les cellulespermettent de résumer la table de contingence des deux variables. Le meilleurmodèle de co-partitionnement est recherché au moyen d'une approche MAP(maximum a posteriori), présentant la particularité peu orthodoxe d'exploiterune famille de modèles et une distribution a priori de ces modèles qui dépendentdes données. Ces modèles sont par nature des modèles de l'échantillon d'apprentissage,et non de la distribution sous-jacente. Nous démontrons la consistancede l'approche, qui se comporte comme un estimateur universel de densité jointeconvergeant asymptotiquement vers la vraie distribution jointe.
Never before in history data is generated and collected at such high volumes as it is today. As the volumes of data available to business people, scientists, and the public increase,their effective use becomes more challenging. Keeping up to date with the flood of data,using standard tools for data analysis and exploration, is fraught with difficulty. The field ofvisual analytics seeks to provide people with better and more effective ways to understandand analyze large datasets, while also enabling them to act upon their findings immediately. Visual analytics integrates the analytic capabilities of the computer and the abilities of the human analyst, allowing novel discoveries and empowering individuals to take control of the analytical process. Visual analytics enables unexpected and hidden insights, which may lead to beneficial and profitable innovation. The talk presents the challenges of visual analytics and exemplifies them with application examples, illustrating the exiting potential of current visual analysis techniques.
L'informatique juridique, est un domaine en évolution constante. Lecontexte général de notre travail est l'élaboration d'un système de recherchede jurisprudence tunisienne en langue arabe. L'objectif opérationnel de ce systèmeest de fournir une aide aux juristes pour résoudre une situation juridiquedonnée en mettant à leur disposition une collection de situations similaires cequi améliorera leur raisonnement futur. Une ontologie du domaine juridiqueconstruite à partir des documents des décisions juridiques est nécessaire dansnotre contexte.Cette ontologie a pour but : (i) la structuration des décisions, (ii)la formulation des requêtes d'interrogation de la base des décisions, et (iii) larecherche des décisions. Dans cet article, nous présentons l'architecture de notresystème de recherche de jurisprudence. Nous nous focalisons sur l'ontologie dudomaine de jurisprudence que nous avons élaborée, aisni que sur le module destructuration des décisions.
Le projet ANR ISICIL 1 mixe les nouvelles applications virales duweb avec des représentations formelles et des processus d'entreprise pour les intégrerdans les pratiques de veille en entreprise. Les outils développés s'appuientsur les interfaces avancées des applications du web 2.0 (blog, wiki, social bookmarking,extensions de navigateurs) pour les interactions et sur les technologiesdu web sémantique pour l'interopérabilité et le traitement de l'information. Leprésent article décrit plus précisément le wiki sémantique développé dans lecadre de ce projet et son intégration au coeur du framework ISICIL
Plusieurs méthodes ont été développées ces dernières années pour détecter,dans un réseau social, les membres qualifiés, selon les auteurs, d'influenceurs,de médiateurs, d'ambassadeurs ou encore d'experts. Dans cet article, nousproposons un nouveau cadre méthodologique permettant d'identifier des diffuseursdans le contexte où seule l'information sur l'appartenance des membres duréseau à des communautés est disponible. Ce cadre, basé sur une représentationdu réseau sous forme d'hypergraphe, nous a permis de formaliser la notion dediffuseur et d'introduire l'algorithme TMD-MINER, dédié à la détection des diffuseurset basé sur les itemsets essentiels.
With the exponential growth in the size of data and networks, developmentof new and fast techniques to analyze and explore these networks isbecoming a necessity. Moreover the emergence of scale free and small worldproperties in real world networks has stimulated lots of activity in the field ofnetwork analysis and data mining. Clustering remains a fundamental techniqueto explore and organize these networks. A challenging problem is to find a clusteringalgorithm that works well in terms of clustering quality and is efficient interms of time complexity.In this paper, we propose a fast clustering algorithm which combines someheuristics with a Topological Decomposition to obtain a clustering. The algorithmwhich we call Topological Decomposition and Heuristics for Clustering(TDHC) is highly efficient in terms of asymptotic time complexity as comparedto other existing algorithms in the literature. We also introduce a number ofHeuristics to complement the clustering algorithm which increases the speed ofthe clustering process maintaining the high quality of clustering. We show theeffectiveness of the proposed clustering method on different real world data setsand compare its results with well known clustering algorithms.
Dans ce papier, nous proposons une étude sur l'utilisation de l'apprentissagetopologique pondéré et les méthodes de factorisation matricielle pourtransformer l'espace de représentation d'un jeu de données "sparse" afin d'augmenterla qualité de l'apprentissage, et de l'adapter au cas de l'apprentissagepar transfert. La factorisation matricielle nous permet de trouver des variableslatentes et l'apprentissage topologique pondéré est utilisé pour détecter les pluspertinentes parmi celles-ci. La représentation de nouvelles données est basée surleurs projections sur le modèle topologique pondéré.Pour l'apprentissage par transfert, nous proposons une nouvelle méthode où lareprésentation des données est faite de la même manière que dans la premièrephase, mais en utilisant un modèle topologique élagué.Les expérimentations sont présentées dans le cadre d'un Challenge Internationaloù nous avons obtenu des résultats prometteurs (5ieme rang de la compétitioninternationale).1 Introduction
classification automatique (De Carvalho et al., 2012) capable de partitionnerdes objets en prenant en compte de manière simultanée plusieurs matricesde dissimilarité qui les décrivent. Ces matrices peuvent avoir été généréesen utilisant différents ensembles de variables et de fonctions de dissimilarité.Cette méthode, basée sur l'algorithme de nuées dynamiques est conçu pour fournirune partition et un prototype pour chaque classe tout en découvrant une pondérationpertinante pour chaque matrice de dissimilarité en optimisant un critèred'adéquation entre les classes et leurs représentants. Ces pondérations changentà chaque itération de l'algorithme et sont différentes pour chacune des classes.Nous présentons aussi plusieurs outils d'aide à l'interprétation des groupes et dela partition fournie par cette nouvelle méthode. Deux exemples illustrent l'interêtde la méthode. Le premier utilise des données concernant des chiffres manuscrits(0 à 9) numérisés en images binaires provenant de l'UCI. Le second utilise unensemble de rapports dont nous connaissons une classification experte donnée àpriori.
Nous nous intéressons dans cet article au problème de l'automatisation du processus de choix et de paramétrage des visualisations en fouille visuelle de données. Pour résoudre ce problème, nous avons développé un assistant utilisateur qui effectue deux étapes : à partir des objectifs annoncés par l'utilisateur et des caractéristiques de ses données, le système commence par proposer à l'utilisateur différents appariements entre la base de données à visualiser et les visualisations qu'il gère. Ces appariements sont générés par une heuristique utilisant une base de connaissances sur les visualisations et la perception visuelle. Ensuite, afin d'affiner les différents paramétrages suggérés par le système, nous utilisons un algorithme génétique interactif qui permet aux utilisateurs d'évaluer et d'ajuster visuellement ces paramétrages. Nous présentons une évaluation utilisateur qui montre l'intérêt de notre système pour deux tâches.
La plupart des processus de classification d'images comportent troisprincipales étapes : l'extraction de descripteurs de bas niveaux, la création d'unvocabulaire visuel par quantification et l'apprentissage à l'aide d'un algorithmede classification (eg.SVM). De nombreux problèmes se posent pour le passageà l'échelle comme avec l'ensemble de données ImageNet contenant 14 millionsd'images et 21,841 classes. La complexité concerne le temps d'exécution dechaque tâche et les besoins en mémoire et disque (eg. le stockage des SIFTs nécessite11To). Nous présentons une version parallèle de LibSVM pour traiter degrands ensembles de données dans un temps raisonnable. De plus, il y a beaucoupde perte d'information lors de la phase de quantification et les mots visuelsobtenus ne sont pas assez discriminants pour de grands ensembles d'images.Nous proposons d'utiliser plusieurs descripteurs simultanément pour améliorerla précision de la classification sur de grands ensembles d'images. Nous présentonsnos premiers résultats sur les 10 plus grandes classes (24,817 images)d'ImageNet.
Aujourd'hui, les réseaux sociaux en ligne sont devenus des outils trèspuissants de propagation de l'information. Ils favorisent la diffusion rapide àgrande échelle de contenu et les conséquences d'une information inexacte voirefausse peuvent alors prendre une ampleur considérable. Par conséquent il devientindispensable de proposer des moyens d'analyser le phénomène de diffusionde l'information dans ces réseaux. De nombreuses études récentes ont traitéde la modélisation du processus de diffusion de l'information, essentiellementd'un point de vue topologique et dans une perspective théorique, mais les facteursimpliqués sont encore méconnus. Nous proposons ici une solution pratiquedont l'objectif est de prédire la dynamique temporelle de la diffusion au sein deTwitter, basée sur des techniques d'apprentissage automatique. Notre approcherepose sur l'inférence de probabilités de diffusion tirées d'une analyse multidimensionnelledes comportements individuels. Les expérimentations menéesmontrent l'intérêt de la modélisation proposée.
La plupart des distances entre histogrammes sont définies pour comparerdes histogrammes ordonnés (dont les entités représentées sont totalementordonnées) ou des histogrammes nominaux (dont les entités représentées nepeuvent pas être comparées). Cependant, il n'existe aucune distance qui permettede comparer des histogrammes nominaux dans lesquels il est possible dequantifier des valeurs de proximité sémantique entre les entités considérées. Cetarticle propose une nouvelle distance permettant de pallier ce problème. Dans unpremier temps, une hiérarchie d'histogrammes, obtenue par le biais d'une fusionprogressive des entités considérées (prenant en compte leurs proximités sémantiques),est construite. Pour chaque étage de cette hiérarchie, une distance standardde comparaison d'histogrammes nominaux est calculée. Finalement, pourobtenir la distance proposée, ces différentes distances sont fusionnées en prenanten compte la cohérence sémantique associée aux niveaux de chaque étage de lahiérarchie. Cette distance a été validée dans le cadre de la classification de donnéesgéographiques. Les résultats obtenus sont encourageants et montrent ainsil'intérêt et l'utilité de cette dernière pour des processus de fouille de données.
Research in information visualisation has changed significantly in the past two decades.Once it was sufficient to simply design and implement an impressive visualisation system.Today editors and reviewers expect papers to present not only a novel system, but empiricalevidence of its worth. Why has this change come about, and what impact has it had on thoseworking in this area? This talk will discuss how a field dominated by algorithms and toolsbecame infected by human participants, and why this is a positive development in a maturingresearch discipline.
Les services de personnalisation du Web 2.0 reposent sur l'exploitationde modèles utilisateurs. Schématiquement, plus la quantité d'informationssur les utilisateurs est grande, meilleures sont la modélisation et la qualité du service.En pratique, nombre de services rencontrent un problème de manque d'informationssur les utilisateurs. Dans cet article, nous y répondons par médiationinter-domaines de modèles utilisateurs, c'est-à-dire la complétion de modèles enexploitant des données d'un autre domaine. La médiation que nous proposonsrepose sur un transfert d'informations inter-domaines. Ce transfert consiste enl'utilisation de couples invariants ou très corrélés pouvant être des couples deressources ou de descripteurs sémantiques, identifiés après enrichissement sémantiquedes modèles. Nous montrons que le transfert sous forme de couple deressources permet une complétion de qualité et que l'exploitation de descripteurssémantiques augmente la couverture à qualité égale. Enrichir sémantiquementest donc bénéfique pour le transfert inter-domaines.
De nombreux algorithmes de fragmentation de graphes fonctionnentpar agrégations ou divisions successives de sous-graphes menant à une décompositionhiérarchique du réseau étudié. Une question importante dans ce domaineest de savoir si cette hiérarchie reflète la structure du réseau ou si elle n'estqu'un artifice lié au déroulement de la procédure. Nous proposons un moyen devalider et, au besoin, d'optimiser la décomposition multi-échelle produite parce type de méthode. On applique notre approche sur l'algorithme proposé parBlondel et al. (2008) basé sur la maximisation de la modularité. Dans ce cadre,une généralisation de cette mesure de qualité au cas multi-niveaux est introduite.Nous testons notre méthode sur des graphes aléatoires ainsi que sur des exemplesréels issus de divers domaines.
L'un des objectifs d'Observox est de traiter et gérer l'imprécisiondes données agronomiques tant spatialement (parcelles agricoles) et quantitativement(quantités de produits disséminées) et de toujours associer une évaluationde la qualité aux données. Aussi, nous avons choisi le cadre théorique desensembles flous. A partir d'un modèle conceptuel gérant l'imperfection, nousconstruisons une base de données gérant des entités spatiotemporelles imprécisesappelées « entités agronomiques floues ». Cependant, ce choix de représentationrend possible le chevauchement des composantes spatiales entre entités.Dans ce cas, nous propageons l'imprécision du spatial vers le quantitatif àl'aide d'un opérateur de caractère additif qui prend en compte à la fois l'informationspatiale et quantitative, et qui fournit une information quantitative localeet floue. Le système ainsi construit nous permet d'obtenir une représentationfloue des quantités de produits phytosanitaires disséminés à chaque endroit duterritoire étudié.
Ces dernières années, l'augmentation de la quantité d'informationsspatio-temporelles stockées dans les bases de données a fait naître de nouveauxbesoins, notamment en matière de gestion des risques naturels, sanitaires ou anthropiques(p. ex. compréhension de la dynamique d'une épidémie de Dengue).Dans cet article, nous définissons un cadre théorique pour l'extraction de motifsspatio-séquentiels, séquences de motifs spatiaux représentant l'évolution dansle temps d'une localisation et de son voisinage. Nous proposons un algorithmed'extraction efficace qui effectue un parcours en profondeur en s'appuyant surdes projections successives de la base de données. Nous introduisons égalementune mesure d'intérêt adaptée aux aspects spatio-temporels de ces motifs. Les expérimentationsréalisées sur des jeux de données réels soulignent la pertinencede l'approche proposée par rapport aux méthodes de la littérature.
Dans de nombreux domaines (e.g., fouille de données, entrepôts dedonnées), l'existence de hiérarchies sur certains attributs peut être extrêmementutile dans le processus analytique. Toutefois, cette connaissance n'est pas toujoursdisponible ou adaptée. Il est alors nécessaire de disposer d'un processusde découverte automatique pour palier ce problème. Dans cet article, nous combinonset adaptons des techniques issues de la théorie de l'information et duclustering pour proposer une technique orientée données de construction automatiquede taxonomies. Les deux principaux avantages d'une telle approchesont son caractère totalement non-supervisé et l'absence de paramètre utilisateurà spécifier. Afin de valider notre approche, nous l'avons appliquée sur desdonnées réelles et avons conduit plusieurs types d'expérimentation. D'abord,les hiérarchies obtenues ont été expertisées pour en examiner le pouvoir informatif.Ensuite, nous avons évalué l'apport de ces taxonomies comme support àdes tâches de fouille de données nécessitant une définition hiérarchique des valeursd'attributs : l'extraction de séquences fréquentes multidimensionnelles etmulti-niveaux ainsi que la construction de résumés de tables relationnelles. Lesrésultats obtenus permettent de conclure quant à l'intérêt de notre approche
Depuis son apparition au sein du W3C, la définition de la ressourceWeb n'a cessé d'évoluer au delà du simple document. Lieu, service, conceptd'ontologie, représentation d'un objet réel ou non, la ressource web est complexeet il nous a semblé que les outils à disposition des internautes pour sa manipulation,comme les bookmarks par exemple, n'exploitaient pas pleinementces nouvelles dimensions. Dans cet article, nous présenterons le modèle Webmarksqui permet de préciser l'objet du marquage, la ressource, mais égalementl'intérêt de l'auteur de la marque. L'implémentation de ce modèle au sein duprojet ISICIL sera également présentée et nous discuterons de son apport encomparaison des technologies existantes
Dans les industries à risque, comme le nucléaire, les connaissances liées au savoir et à l'expérience participent à la maîtrise des activités. Elles sont explicites, formalisables dans des documents, ou tacites, expression du savoir faire moins souvent prise en compte. AREVA développe la méthode @KRex pour valoriser le retour d'expérience existant, créer une dynamique d'extraction et de capitalisation des connaissances, faciliter leur partage et leur enrichissement. Cette communication décrit le protocole expérimental de construction des connaissances explicites et tacites du métier sécurité nucléaire.
Les structures lexico-sémantiques jouent un rôle essentiel dans les processus de fouille de textes. En codant les relations sémantiques entre concepts du discours elles apportent une connaissance stratégiques pour enrichir les capacités de raisonnement. Le développement de telles structures étant fortement limité du fait des efforts nécessaires à leur construction, nous proposons un nouveau formalisme d'acquisition automatique d'ontologies terminologiques à partir de textes. Nous utilisons pour cela une formalisation prétopologique de l'espace des termes sur laquelle s'appuie un modèle générique de structuration. Nous présentons une étude empirique préliminaire rendant compte du potentiel de ce modèle en terme d'extraction de connaissances.
Les développements récents en tarification de l'assurance non-vie se concentrent majoritairement sur la maîtrise et l'amélioration des Modèles Linéaires Généralisés. Performants, ces modèles imposent cependant à la fois des contraintes sur la structure du risque modélisé et sur les interactions entre variables explicatives du risque. Ces restrictions peuvent conduire, dans certaines sous-populations d'assurés, à une estimation biaisée de la prime d'assurance. Les arbres de régression permettent de s'affranchir de ces contraintes et, de plus, augmentent la lisibilité des résultats de la tarification. Nous présentons une modification de l'algorithme CART pour prendre en compte les spécificités des données d'assurance non-vie. Nous comparons alors notre proposition aux modèles linéaires généralisés sur un portefeuille réel de véhicules. Notre proposition réduit les mesures d'erreur entre le risque mesuré et le risque modélisé, et permet ainsi une meilleure tarification.
Dans les années à venir, plusieurs millions de compteurs électriques communicants seront déployés sur l'ensemble du territoire français. Afin d'assurer la fiabilité d'un réseau de cette envergure nous proposons une topologie de communication multi-chemins qui repose sur la duplication des données transmises. Toute exploitation des données collectées doit alors tenir compte de la présence d'éléments dupliqués. Dans cet article, nous proposons une nouvelle méthode permettant de calculer en ligne des consommations électriques agrégées (agrégation spatiale). L'idée est d'adapter l'algorithme probabiliste Summation sketch de Considine et al. au contexte des compteurs communicants. Cette approche a l'avantage d'être insensible à la duplication et permet de profiter de la structure massivement distribuée du réseau de communication des futurs compteurs électriques. L'expérimentation de cette méthode sur des données réelles montre qu'elle donne une bonne précision sur l'estimation des consommations agrégées. Cette approche est aussi complétée par une méthode basée sur la théorie des sondages : On obtient une meilleure réactivité de l'estimateur avec rapidement et donc sur des données significativement partielles une erreur inférieure à 2.5%
Cet article traite de l'analyse visuelle de réseaux sociaux pour la détection de comportements suspects à partir de données de communications fournies à des enquêteurs suivant deux procédures : l'interception légale et la rétention de données. Nous proposons les contributions suivantes : (i) un modèle de données et un ensemble d'opérateurs pour interroger ces données dans le but d'extraire des comportements suspects et (ii) une représentation visuelle conviviale pour une navigation simplifiée dans les données de communication accompagnée avec une implémentation.
Plusieurs méthodologies et outils de construction automatique des ontologies à partir de ressources textuelles ont été proposés ces dernières années. Dans cet article nous analysons quatre approches en les comparant à une approche de référence – Methontology. Dans leur sélection nous avons privilégié celles qui couvrent l'ensemble des étapes du processus de construction d'ontologies. Puis nous analysons et comparons la portée, les limites et les performances des implémentations logicielles associées aux approches analysées. Ces outils ont été testés sur un corpus de ressources textuelles, et nous avons comparé leurs résultats à ceux obtenus manuellement.
Nous étudions ici le comportement de deux types d'indices probabilistes discriminants en présence de données dont le volume va en croissant. A cet égard, un modèle spécifique de croissance de la taille des données et de liaison entre variables est mis en œuvre et celui-ci va permettre de déterminer le comportement limite des différents indices quel que soit le niveau de liaison entre la prémisse et la conclusion de la règle donnée. La clarté des résultats obtenus nous conduit à en chercher l'explication formelle. L'expérimentation a été effectuée avec la base de données UCI Wages.
Nous proposons un outil graphique interactif qui permet de visualiser et d'extraire des connaissances à partir des résultats de l'Analyse Factorielle des Correspondances (AFC) sur les images. L'AFC est une technique descriptive développée pour analyser des tableaux de contingence. L'AFC est originellement utilisée dans l'Analyse des Données Textuelles (ADT) où le corpus est représenté par un tableau de contingence croisant des documents et des mots. Dans la fouille d'images, nous définissons d'abord les « mots visuels » dans les images (analogues aux mots textuels). Ces mots visuels sont construits à partir des descripteurs locaux SIFT (Scale Invariant Feature Transform) dans l'image. Ensuite, nous appliquons l'AFC sur le tableau de contingence obtenu. Notre outil (appelé HCAViz) analyse ce tableau de contingence de façon récursive et aide l'utilisateur à interpréter et interagir avec les résultats de l'AFC. D'abord, les résultats de la première AFC sur les images sont visualisés. L'utilisateur sélectionne ensuite un groupe d'images et fait une deuxième AFC sur le nouveau tableau de contingence. Ce processus peut continuer jusqu'à ce qu'un thème « pur » se dévoile. Ceci permet de découvrir une arborescence des thèmes dans une collection d'images. Une application sur la base Caltech-4 illustre l'intérêt de HCAViz dans la fouille d'images.
Cet article présente une nouvelle approche qui permet de compter le nombre d'individus franchissant une ligne de comptage. L'approche proposée accumule dans le temps les vecteurs de mouvement pour chaque point de la ligne de comptage formant une carte spatiotemporelle. Une procédure de détection en ligne des blobs est ensuite utilisée afin de déterminer les régions de la carte spatiotemporelle qui correspondent à des personnes franchissant cette ligne. Le nombre d'individus associé à chaque blob est estimé grâce à un modèle de régression linéaire appliqué aux caractéristiques du blob. L'approche proposée est validée sur la base de plusieurs ensembles de données enregistrées à l'aide d'une caméra verticale ou d'une caméra oblique.
La reconnaissance d'entités nommées est une problématique majoritairement traitée par des modèles spécifiés à l'aide de règles ou par apprentissage numérique. Les premiers ont le désavantage d'être coûteux à développer pour obtenir une couverture satisfaisante, les seconds sont souvent difficiles à interpréter par des experts (linguistes). Dans cet article, nous présentons une approche, dont l'objectif est d'extraire des règles symboliques discriminantes qu'un humain puisse consulter. A partir d'un corpus de référence, nous extrayons des règles de transduction, dont seules les plus informatives sont retenues. Elles sont ensuite appliquées pour effectuer une annotation : à cet effet, un algorithme recherche parmi les annotations possibles celles de meilleure qualité en termes de couverture et de probabilité. Nous présentons les résultats expérimentaux et discutons de l'intérêt et des perspectives de notre approche.
Des travaux récents (Pilaszy et al., 2009) suggèrent que les métadonnées sont quasiment inutiles pour les systèmes de recommandation, y compris en situation de cold-start : les données de logs de notation sont beaucoup plus informatives. Nous étudions, sur une base de référence de logs d'usages pour la recommandation automatique de DVD (Netflix), les performances de systèmes de recommandation basés sur des sources de données collaboratives, thématiques et hybrides en situation de démarrage à froid (cold-start). Nous exhibons des cas expérimentaux où les métadonnées apportent plus que les données de logs d'usage (collaboratives) pour la performance prédictive. Pour gérer le cold-start d'un système de recommandation, nous montrons que des approches "en cascade", thématiques puis hybrides, puis collaboratives, seraient plus appropriées.
La Carte Auto-Organisatrice (SOM : Self-Organizing Map) est une méthode populaire pour l'analyse de la structure d'un ensemble de données. Cependant, certaines contraintes topologiques de la SOM sont fixées avant l'apprentissage et peuvent ne pas être pertinentes pour la représentation de la structure des données. Dans cet article nous nous proposons d'améliorer les performances des SOM avec un nouvel algorithme qui apprend les contraintes topologiques de la carte à partir des données. Des expériences sur des bases de données artificielles et réelles montrent que l'algorithme proposé produit de meilleurs résultats que SOM classique. Ce n'est pas le cas avec une relaxation triviale des contraintes topologiques, qui résulte en une forte augmentation de l'erreur topologique de la carte.
Les Réseaux Logiques de Markov (MLNs) combinent l'apport statistique des Réseaux de Markov à la logique du premier ordre. Dans cette approche, chaque clause logique se voit affectée d'un poids, l'instanciation des clauses permettant alors de produire un Réseau deMarkov. L'apprentissage d'un MLN consiste à apprendre d'une part sa structure (la liste de clauses logiques) et d'autre part les poids de celles-ci. Nous proposons ici une méthode d'apprentissage génératif de Réseau Logique de Markov. Cette méthode repose sur l'utilisation d'un graphe des prédicats, produit à partir d'un ensemble de prédicats et d'une base d'apprentissage. Une méthode heuristique de variabilisation est mise en oeuvre afin de produire le jeu de clauses candidates. Les résultats présentés montrent l'intérêt de notre approche au regard de l'état de l'art.
Une carte cognitive est un réseau d'influences entre différents concepts. Le modèle des cartes cognitives permet à un utilisateur de calculer l'influence entre deux concepts. Les cartes cognitives contenant un grand nombre de concepts et d'influences sont difficiles à comprendre. Cet article introduit la notion de carte cognitive ontologique qui associe une ontologie à une carte cognitive classique pour en organiser les concepts. Afin de faciliter la compréhension d'une carte, l'utilisateur peut obtenir une vue de cette carte la simplifiant selon une échelle qu'il aura choisie. Un profil peut être créé pour construire des vues correspondant aux objectifs d'un type d'utilisateur. Si une carte est manipulée par différents utilisateurs, leurs profils combinés permettent de construire une vue partagée.
La recherche de règles d'association intéressantes est un domaine de recherche important et actif en fouille de données. Les algorithmes de la famille Apriori reposent sur deux mesures pour extraire les règles, le support et la confiance. Bien que ces deux mesures possèdent des vertus algorithmiques accélératrices, elles génèrent un nombre prohibitif de règles dont la plupart sont redondantes et sans intérêt. Il est donc nécessaire de disposer d'autres mesures filtrant les règles inintéressantes. Des travaux ont été réalisés pour dégager les "bonnes" propriétés des mesures d'extraction des règles et ces propriétés ont été évaluées sur 61 mesures. L'objectif de cet article est de dégager des catégories de mesures afin de répondre à une préoccupation des utilisateurs : le choix d'une ou plusieurs mesures lors d'un processus d'extraction des connaissances dans le but d'éliminer les règles valides non pertinentes extraites par le couple (support, confiance). L'évaluation des propriétés sur les 61 mesures a permis de dégager 9 classes de mesures, classes obtenues grâce à deux techniques : une méthode de la classification ascendante hiérarchique et une version de la méthode de classification non-hiérarchique des k-moyennes.
En apprentissage supervisé, les Méthodes Ensemble (ME) ont montré leurs qualités. L'une des méthodes de référence dans ce domaine est les Forêts Aléatoires (FA). Cette dernière repose sur des partitionnements de l'espace de représentation selon des frontières parallèles aux axes ou obliques. Les conséquences de cette façon de partitionner l'espace de représentation peuvent affecter la qualité de chaque prédicteur. Il nous a semblé que cette approche pouvait être améliorée si on se libérait de cette contrainte de manière à mieux coller à la structure topologique de l'ensemble d'apprentissage. Dans cet article, nous proposons une nouvelle ME basée sur des graphes de voisinage dont les performances, sur nos premières expérimentations, sont aussi bonnes que celles des FA.
Dans le présent travail, nous proposons un outil d'aide à la reconnaissance de cibles radar basé sur la signature de forme et de la pose de la cible. La tâche principale dans le cadre de cet article consiste à établir la fonction de recherche d'images ISAR par l'exemple en exploitant l'information de pose estimée depuis les images ISAR. L'objectif est d'introduire l'information de pose dans l'indexation des images, notamment dans la phase de sélection des images candidates. Nous proposons une nouvelle méthode d'estimation de la pose basée sur l'axe le plus symétrique de la cible. La méthode proposée est ensuite comparée avec d'autres techniques connues telles que la transformée de Hough et la transformée en ondelette. Enfin, la tâche de classification est réalisée en utilisant les k-plus proches voisins incluant l'information de la pose.
The output of an association rule miner is often huge in practice. This is why several concise lossless representations have been proposed, such as the “essential” or “representative” rules. We revisit the algorithm given by Kryszkiewicz (Int. Symp. Intelligent Data Analysis 2001, Springer-Verlag LNCS 2189, 350–359) for mining representative rules. We show that its output is sometimes incomplete, due to an oversight in its mathematical validation, and we propose an alternative complete generator that works within only slightly larger running times.
L'élaboration d'une échelle de probabilité discriminante pour la comparaison mutuelle entre plusieurs attributs observés sur un échantillon d'objets de "grosse" taille, nécessite une normalisation préalable. L'objet de cet article est l'analyse comparée entre deux approches. La première dérive de l' "Analyse de la Vraisemblance des Liens Relationnels Normalisée". La seconde est fondée sur la notion de "Valeur Test" sur un échantillon virtuel de taille 100, synthétisant l'échantillon initial.
It is commonplace nowadays to claim that information is everywhere and that, as a result, finding the right information (mathematically : according to a set of criteria optimizing a specific goal) is very difficult. Defence applications have to cope with similar problems : communication networks, surveillance and information systems transmit and generate significant amounts of complex information which cannot be processed with low level algorithms. The challenge is to build high-level processing units (which demand a lot of computing power) so as process video streams and communication packets with little possibility of a false alarm as automatically as possible. Methods for processing, aligning, merging low-level and high-level information (from syntactic to semantic information) extracted from still images, videos, speech, text and the Internet are being considered. The framework includes theoretical approaches, algorithms as well as evaluation methods. Topics of interest are data fusion, learning techniques, data mining, HCI, even Artificial Intelligence. Defence applications are numerous, from scene understanding to weak signal detection.
Les séries temporelles d'images satellites (ou Satellite Image Time Series – SITS) sont d'importantes sources d'informations sur l'évolution du territoire. Étudier ces images permet de comprendre les changements sur des zones précises mais aussi de découvrir des schémas d'évolution à grande échelle. Toutefois, découvrir ces phénomènes impose de répondre à plusieurs défis qui sont liés aux caractéristiques des SITS et à leurs contraintes. Premièrement, chaque pixel d'une image satellite est décrit par plusieurs valeurs (les niveaux radiométriques sur différentes longueurs d'ondes). Deuxièmement, ces motifs d'évolution portent sur des périodes très longues et ne sont pas forcément synchrones selon les régions. Troisièmement, les régions qui ne sont pas concernées par des évolutions significatives sont majoritaires et leur domination rend difficile l'extraction des motifs d'évolution. Dans cet article, nous proposons une méthode qui répond à ces difficultés et nous la validons sur une série d'images satellites acquises sur une période de 20 ans.
L'analyse de flux de données traite des données massives grâce à des algorithmes en ligne qui évitent le stockage exhaustif des données. La détection de changements dans la distribution d'un flux est une question importante dont les applications potentielles sont nombreuses. Dans cet article, la détection de changement est transposée en un problème d'apprentissage supervisé. Nous avons choisi d'utiliser la méthode de discrétisation supervisée MODL car celle-ci présente des propriétés intéressantes. Notre approche est comparée favorablement à une méthode de l'état-de-l'art sur des flux de données artificiels.
Nous nous intéressons dans cet article à la réconciliation d'annotations floues associées à des tableaux de données par une méthode d'annotation sémantique, qui est guidée par une ontologie de domaine. Etant donnés deux tableaux, la méthode consiste à détecter leurs instances de relation redondantes. Elle s'appuie sur les connaissances déclarées dans l'ontologie, ainsi que sur des scores de similarité entre les annotations floues représentées par des sous-ensembles flous numériques ou par des sous-ensembles flous symboliques
La conception des profils et contextes utilisateurs se situe au coeur de l'étude et de la mise en oeuvre des mécanismes de personnalisation ou d'adaptation de contenus (recherche d'information, systèmes de recommandation, etc.). Plusieurs modèles et dimensions de profils et contextes sont décrits dans la littérature. Dans la vie réelle tout comme dans les systèmes d'information, le comportement de l'utilisateur est très souvent influencé par son environnement social. Cependant, la dimension sociale des profils et contextes utilisateurs reste très peu étudiée et évaluée. Dans cet article, nous présentons une méthode de visualisation des profils utilisateurs permettant d'évaluer la pertinence du réseau social de l'utilisateur dans l'évolution de son profil. L'expérimentation de la méthode à partir de Facebook permet d'identifier d'une part, les centres d'intérêts à court-terme et à long-terme des profils utilisateurs, et d'autre part, l'influence réelle à court-terme et à long-terme du réseau social de chaque utilisateur. Ces résultats démontrent l'intérêt de modéliser et d'intégrer une dimension sociale dans les profils et contextes utilisateurs, afin de tenter d'améliorer les mécanismes de personnalisation ou d'adaptation de contenus.
Early classification of temporal sequences has applications in, for example, health informatics, intrusion detection, anomaly detection, and scientific and engineering sequence data monitoring. In early classification, instead of optimizing accuracy, our goal is to produce classification as early as possible provided that the accuracy meets some expectation. In this talk, I will advocate early classification as an exciting and challenging research problem, which has not been systematically studied in the literature. I will discuss several interesting formulations of the problem, which provide complimentary features possibly desirable in different application scenarios. I will also review some of our recent progress on this aspect.
This paper addresses the clustering problem given the similarity matrix of a dataset. We define two distinct criteria with the aim of simultaneously minimizing the cut size and obtaining balanced clusters. The first criterion minimizes the similarity between objects belonging to different clusters and is an objective generally met in clustering. The second criterion is formulated with the aid of generalized entropy. The trade-off between these two objectives is explored using a multi-objective genetic algorithm with enhanced operators
Cet article propose une méthode originale d'évaluation de la qualité des motifs en anticipant la manière qui sera utilisée pour les analyser. Nous commençons par introduire le modèle de l'analyse aléatoire d'un ensemble de motifs selon une mesure d'intérêt. Avec ce modèle, nous constatons que l'étude des motifs fréquents avec le support conduit à une analyse déséquilibrée du jeu de données. Afin que chaque transaction reçoive la même attention, nous définissons le support équilibré qui corrige le support classique en pondérant les transactions. Nous proposons alors un algorithme qui calcule ces poids et nous validons expérimentalement son efficacité.
Le choix d'une mesure de proximité entre objets a un impact direct sur les résultats de toute opération de classification, de comparaison, d'évaluation ou de structuration d'un ensemble d'objets. Pour un problème donné, l'utilisateur est amené à choisir une parmi les nombreuses mesures de proximité existantes. Or, selon la notion d'équivalence choisie, comme celle basée sur les préordonnances, certaines sont plus ou moins équivalentes. Dans cet article, nous proposons une nouvelle approche pour comparer les mesures de proximité. Celle-ci est basée sur l'équivalence topologique. A cet effet, nous introduisons un nouveau concept baptisé équivalence topologique. Ce dernier fait appel à la structure de voisinage local. Nous proposons alors de définir l'équivalence topologique entre deux mesures de proximité à travers la structure topologique induite par chaque mesure. Nous établissons ensuite des liens formels avec l'équivalence en préordonnance. Les deux approches sont comparées sur le plan théorique et sur le plan empirique. Nous illustrons le principe de cette comparaison sur un exemple simple pour une quinzaine de mesures de proximités de la littérature.
La recherche de structures dans les graphes est un sujet étudié depuis longtemps, qui a bénéficié d'un regain d'intérêt avec la mise à disposition de graphes de grande taille sur le web, tels les réseaux sociaux. De nombreuses méthodes de recherche de clusters “naturels” dans les graphes ont été proposées, fondées notamment sur la modularité de Newman. On introduit dans cet article une nouvelle façon de résumer la structure des graphes de grande taille, en utilisant des estimateurs de densité des arcs exploitant des modèles en grille, basés sur un co-partitionnent des noeuds source et cible des arcs. Les structures identifiées par cette méthode vont au delà de la “classique” détection de clusters dans les graphes, et permettent d'estimer asymptotiquement la densité des arcs. Les expérimentations confirment le potentiel de l'approche, qui permet d'identifier des structures fortement informatives dans les graphes, sans faire l'hypothèse d'une décomposition en clusters denses.
L'article décrit l'évaluation de deux outils d'extraction terminologique Acabit et Quezao. Si acabit est plus connu car librement disponible, Quezao est issu des travaux d'Orange Labs sur la recherche d'informations. Après une comparaison sur les approches théoriques des deux systèmes, une évaluation concrète va porter sur un corpus d'actualité (2424Actu) pour l'aspect qualitatif et sur un corpus de presse pour l'aspect quantitatif
Les motifs séquentiels traditionnels ne tiennent généralement pas compte des informations contextuelles fréquemment associées aux données séquentielles. Dans le cas des séquences d'achats de clients dans un magasin, l'extraction classique de motifs se focalise sur les achats des clients sans considérer leur catégorie socio-professionnelle, leur sexe, leur âge. Or, en considérant le fait qu'un motif séquentiel est spécifique à un contexte donné, un expert pourra adapter sa stratégie au type du client et prendre les décisions adéquates. Dans cet article, nous proposons d'extraire des motifs de la forme «l'achat des produits A et B suivi de l'achat du produit C est spécifique aux jeunes clients». En mettant en valeur les propriétés formelles de tels contextes, nous développons un algorithme efficace d'extraction de motifs séquentiels contextuels. Les expérimentations effectuées sur un jeu de données réelles montrent les apports et l'efficacité de l'approche proposée.
La fouille de base de données séquentielles a pour objet l'extraction de motifs séquentiels représentatifs. La plupart des méthodes concernent des motifs composés d'événements liés par des relations temporelles basées sur la précédence des instants. Pourtant, dans de nombreuses situations réelles une information quantitative sur la durée des événements ou le délai inter-événements est nécessaire pour discriminer les phénomènes. Nous proposons deux algorithmes, QTIAPriori et QTIPrefixSpan, pour extraire des motifs temporels composés d'événements associés à des intervalles décrivant leur position dans le temps et leur durée. Chacun d'eux ajoute aux algorithmes GSP et PrefixSpan une étape de catégorisation d'intervalles multi-dimensionnels pour extraire les intervalles temporelles représentatifs. Les expérimentations sur des données simulées montrent la capacité des algorithmes à extraire des motifs précis en présence de bruit et montrent l'amélioration des performances en temps de calcul.
Dans un contexte d'entreprise, beaucoup d'informations importantes restent stockées dans des bases de données relationnelles, constituant une source riche pour construire des réseaux sociaux. Le réseau, ainsi extrait, a souvent une taille importante ce qui rend son analyse et sa visualisation difficiles. Dans ce travail, nous proposons une étape d'extraction suivie d'une étape d'agrégation des réseaux sociaux à partir des bases de données relationnelles. L'étape d'extraction ou de construction transforme une base de données relationnelle en base de données graphe, puis le réseau social est extrait. L'étape d'agrégation, qui est basée sur l'algorithme k-SNAP, produit un graphe résumé.
Nous proposons une méthode de fouille de données sur des graphes ayant un ensemble d'étiquettes associé à chaque sommet. Une application est, par exemple, d'analyser un réseau social de chercheurs co-auteurs lorsque des étiquettes précisent les conférences dans lesquelles ils publient.Nous définissons l'extraction sous contraintes d'ensembles de cliques tel que chaque sommet des cliques impliquées partage suffisamment d'étiquettes. Nous proposons une méthode pour calculer tous les Ensembles Maximaux de Cliques dits Homogènes qui satisfont une conjonction de contraintes fixée par l'analyste et concernant le nombre de cliques séparées, la taille des cliques ainsi que le nombre d'étiquettes partagées. Les expérimentations montrent que l'approche fonctionne sur de grands graphes construits à partir de données réelles et permet la mise en évidence de structures intéressantes
La recherche de motifs ensemblistes dans des matrices de données booléennes est une problématique importante dans un processus d'extraction de connaissances. Elle consiste à rechercher tous les rectangles de 1 dans une matrice de données à valeurs dans {0,1} dans lesquelles l'ordre des lignes et colonnes n'est pas important. Plusieurs algorithmes ont été développés pour répondre à ce problème, mais s'adaptent difficilement à des données réelles susceptibles de contenir du bruit. Un des effets du bruit est de pulvériser un motif pertinent en un ensemble de sous-motifs recouvrants et peu pertinents, entraînant une explosion du nombre de motifs résultats. Dans le cadre de ce travail, nous proposons une nouvelle approche heuristique basée sur les algorithmes de graphes pour la recherche de motifs ensemblistes dans des contextes binaires bruités. Pour évaluer notre approche, différents tests ont été réalisés sur des données synthétiques et des données réelles issues d'applications bioinformatiques.
La première étape du processus de visualisation d'information consiste à transformer les données d'un format brut vers une structure de données utilisable par les différents composants de visualisation. Dans les applications réelles, cette première étape représente une barrière empêchant l'accès des utilisateurs novices à une riche variété de techniques de visualisation. Par exemple, il peut être techniquement impossible pour un utilisateur lambda de transformer des données arborescentes en un modèle de graphe pouvant utiliser une représentation à base de TreeMap. Une autre barrière est aussi la multitude de transformations possible des données brutes. Il faut pouvoir explorer cet ensemble de combinaisons. Basé sur nos retours d'expériences avec des utilisateurs finaux, dans cet article, nous considérons que le format brut est sous forme tabulaire. Ce format est le plus couramment utilisé et est facilement accessible par nos utilisateurs. Nous proposons une méthode novatrice permettant de générer automatiquement des graphes valués à partir de n'importe quelle table. En analysant le contenu de chaque dimension nous identifions les interconnexions entre celles-ci. Puis nous caractérisons les entités, les attributs et les relations possibles au sein des tables. Finalement, nous intégrons l'utilisateur dans le processus de transformation en lui proposant un ensemble de transformations valides.
Cet article a pour cadre un environnement informatique pour l'apprentissage humain (EIAH) dédié à la chirurgie orthopédique, et plus précisément sur le diagnostic des connaissances des apprenants. Pour ce faire, un réseau bayésien infère à partir d'exercices que les étudiants réalisent sur un simulateur avec bras articulé. Ce réseau résulte d'une approche centrée expert du domaine, comme très souvent dans les EIAH. Pourtant, dans un domaine comme la chirurgie où les connaissances sont tacites, le geste de l'apprenant semble intéressant à considérer. Le but de nos travaux est donc d'adopter une démarche plus centrée sur les données en incorporant au réseau bayésien les données haptiques continues issues du simulateur. Divers problèmes se posent néanmoins, d'une part sur le besoin d'étudier la nature des données pour conserver la généricité du système, et d'autre part pour trouver des méthodes de validation pertinentes concernant leur traitement
Ce papier présente une vue spectrale sur l'approche de l'analyse relationnelle pour la classification des données catégorielles. Il établit d'abord le lien théorique entre l'approche de l'analyse relationnelle et le problème de classification spectrale. En particulier, le problème de classification relationnelle est présenté comme un problème de maximisation de trace, ce problème est donc transformé par la relaxation spectrale en un problème d'optimisation sous contraintes qui peut être résolu par des multiplicateurs de Lagrange, la solution est donnée par un problème de valeurs propres.
Cet article est un état de l'art sur les moteurs de wiki sémantique, en particulier sur leur utilisation des technologies du Web sémantique. Les principales notions liées aux wikis sémantiques sont d'abord présentées. Ensuite, plusieurs projets actifs de moteurs de wiki sont comparés selon différents points de vue. Finalement, des recommandations sont données pour le choix d'un moteur de wiki. En conclusion, les auteurs s'interrogent sur les perspectives des wikis sémantiques telles que la faible interopérabilité de certains moteurs.
Dans cet article, nous proposons une mesure de concordance d'une source avec les autres sources. Cette mesure pourra servir à réduire l'importance de ses fonctions de masse avant de les combiner afin de trouver un compromis et donc réduire le conflit. Cette mesure sera illustrée par des données réelles.
L'autonomie des participants dans les systèmes P2P pour le partage de données peut conduire à une situation d'hétérogénéité sémantique dans le cas où les participants utilisent leurs propres ontologies pour représenter leurs données. Dans cet article nous commençons par définir des mesures de disparité entre participants en considérant leurs contextes sémantiques. En considérant la topologie du système et les disparités entre participants, nous proposons des mesures d'hétérogénéité sémantique d'un système P2P non-structuré.
Nous proposons d'extraire des connaissances lexicales en exploitant les « gloses » de mot, ces descriptions spontanées de sens, repérables par des marqueurs lexicaux et des configurations morpho-syntaxiques spécifiques. Ainsi dans l'extrait suivant, le mot testing est suivi d'une glose en c'est-à dire : « 10 % de ces embauches vont porter sur un métier qui monte : le «testing», c'est-à-dire la maîtrise des méthodologies rigoureuses de test des logiciels». Cette approche ouvre des perspectives pour l'acquisition lexicale et terminologique, fondamentale pour de nombreuses tâches. Dans cet article, nous comparons deux façons d'extraire les unités en relation de glose : patrons et statistiques d'associations d'unités sur le web, en les évaluant sur des données réelles.
The technologies of mobile communications and ubiquitous computing pervade our society, and wireless networks sense the movement of people and vehicles, generating large volumes of mobility data, such as mobile phone call records and GPS tracks. This is a scenario of great opportunities and risks : on one side, mining this data can produce useful knowledge, supporting sustainable mobility and intelligent transportation systems ; on the other side, individual privacy is at risk, as the mobility data contain sensitive personal information. A new multidisciplinary research area is emerging at this crossroads of mobility, data mining, and privacy. The talk assesses this research frontier from a data mining perspective, and illustrates the results of a European-wide research project called GeoPKDD, Geographic Privacy-Aware Knowledge Discovery and Delivery. GeoPKDD has created an integrated platform named MATLAS for complex analysis of mobility data, which combines spatio-temporal querying capabilities with data mining, visual analytics and semantic technologies, thus providing a full support for the Mobility Knowledge Discovery process. In this talk, we focus on the key data mining models : trajectory patterns and trajectory clustering, and illustrate the analytical power of our system in unvealing the complexity of urban mobility in a large metropolitan area by means of a large scale experiment, based on a massive real life GPS dataset, obtained from 17,000 vehicles with on-board GPS receivers, tracked during one week of ordinary mobile activity in the urban area of the city of Milan, Italy.
Nous proposons dans cet article une modélisation d'une ressource termino-ontologique (RTO) de domaine, guidée par la tâche d'annotation sémantique de tableaux. L'annotation d'un tableau consiste à annoter ses cellules, pour pouvoir ensuite identifier les concepts représentés par ses colonnes et enfin identifier la ou les relations n-aires qu'il représente. La RTO proposée permet d'une part de modéliser dans sa composante lexicale les termes utilisés pour l'annotation des cellules en intégrant la gestion des synonymes et du multilingue, et, d'autre part, de modéliser dans sa composante conceptuelle les concepts symboliques, les concepts numériques et les relations n-aires, qui sont propres au domaine étudié.
Dans ce papier, nous proposons un nouveau cadre théorique permettant de modéliser la dynamique de phénomènes spatio-temporels. Nous définissons le concept de séquences spatio-temporelles de motifs afin de capturer les interactions entre des ensembles de propriétés et un phénomène à observer. Un algorithme incrémental est proposé pour extraire des séquences spatiotemporelles de motifs sous contraintes, et une nouvelle structure de données est mise en place afin d'améliorer ses performances. Un prototype a été développé et testé sur des données réelles.
Nous proposons un modèle de la propagation de l'information dans un réseau, en détaillant toutes les étapes de sa réalisation et de son utilisation dans un cadre de simulation. A partir de données réelles extraites du Web, nous identifions parmi les sources des catégories de comportements de publication distincts. Nous proposons ensuite une extension d'un modèle de diffusion de l'information existant, afin d'augmenter son pouvoir d'expression, en particulier pour reproduire ces comportements de publication, puis nous le validons sur un exemple de simulation.
Cet article présente comment la gestion et l'exploitation de connaissances issues du site web Wikipedia ont permis de développer une telle fonction qui a été intégrée depuis février 2010 dans un moteur de recherche internet français pour le grand public. Aujourd'hui cette fonction est capable de répondre à des questions formulées en langage naturelle sur environs 170 000 lieux ou personnes. La formalisation des données extraites de wikipedia en connaissances au format OWL ou RDFS a permis de déduire de nouvelles informations manquantes, de typer les entités nommées trouvées et de traiter de nouvelles formes de questions qui étaient non traitées.
Bien que largement étudiée, l'extraction de motifs séquentiels reste une tâche très difficile et pose aussi le défi du grand nombre de motifs produits. Dans cet article, nous proposons une nouvelle approche extrayant les motifs séquentiels les plus généraux à fréquence similaire. Nous montrons en quoi l'extension de cette notion, déjà connue pour les motifs ensemblistes, est un problème particulièrement difficile pour les séquences. Les motifs delta-libres ainsi produits sont en nombre réduit et facilitent les usages d'un processus de fouille et nous montrons leur apport comme descripteurs dans un contexte de classification de séquences.
Avec l'explosion du multimedia, l'utilisation des métadonnées est devenue cruciale pour assurer une bonne gestion des contenus. Cependant, il est nécessaire d assurer un accès uniforme aux métadonnées. Plusieurs techniques ont ainsi été développées afin de réaliser cette interopérabilité. La plupart d'entre elles sont spécifiques à un seul langage de description. Les systèmes de matching existants présentent certaines limites, en particulier dans le traitement des informations structurelles. Nous présentons dans cet article un nouveau système d'intégration qui supporte des schémas provenant de langages descriptifs différents. De plus, la méthode de matching proposée a recours à plusieurs types d'information de façon à augmenter la précision de matching
La fouille de graphes est devenue une piste de recherche intéressante et un défi réel en matière de fouille de données. Parmi les différentes familles de motifs de graphes, les graphes fréquents permettent une caractérisation intéressante des groupes de graphes, ainsi qu'une discrimination des différents graphes lors de la classification ou de la segmentation. A cause de la NP-complétude du test d'isomorphisme de sous-graphes et de l'immensité de l'espace de recherche, les algorithmes de fouille de graphes sont exponentiels en temps d'exécution et/ou occupation mémoire. Dans cet article, nous étudions un nouvel opérateur de projection polynomial nommé AC-projection basé sur une propriété clé du domaine de la programmation par contraintes, à savoir l'arc consistance. Cet opérateur est censé remplacer l'utilisation de l'isomorphisme de sous-graphes en établissant un biais sur la projection. Cette étude est suivie d'une évaluation expérimentale du pouvoir discriminant des patterns AC-réduits découverts.
Dans ce papier, nous proposons une approche basée sur la programmation par contraintes pour aborder efficacement le problème de l'alignement des ontologies, et plus particulièrement l'extraction des correspondances à partir des mesures de similarités. La complexité de ce problème est accentuée dans les applications à caractère dynamique où l'aspect performance est capital. Plus précisément, nous exploitons la contrainte globale de différence développée dans le domaine de la programmation par contraintes pour extraire un alignement total et injectif. Nous montrons que cette approche est efficace et se prête à une mise en oeuvre à la fois interactive et automatique.
Le classifieur Bayésien naïf est un outil de classification efficace en pratique pour de nombreux problèmes réels, en dépit de l'hypothèse restrictive d'indépendance des variables conditionnellement à la classe. Récemment, de nouvelles méthodes permettant d'améliorer la performance de ce classifieur ont vu le jour, sur la base à la fois de sélection de variables et de moyennage de modèles. Dans cet article, nous proposons une extension de la sélection de variables pour le classifieur Bayésien naïf, en considérant un modèle de pondération des variables utilisées et des algorithmes d'optimisation directe de ces poids. Les expérimentations confirment la pertinence de notre approche, en permettant une diminution significative du nombre de variables utilisées, sans perte de performance prédictive.
Dans cet article, nous proposons une nouvelle approche de classification topologique et de pondération des variables mixtes (qualitatives et quantitatives codées en binaire) durant un processus d'apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L'apprentissage est combiné à un mécanisme de pondération des différentes variables sous forme de poids d'influence sur la pertinence des variables. L'apprentissage des pondérations et des prototypes est réalisé d'une manière simultanée en favorisant une classification optimisée des données. L'approche proposée a été validée sur des données qualitatives codées en binaire et plusieurs bases de données mixtes.
Nous présentons une étude pour la prédiction des trajectoires de cyclones dans l'océan Atlantique Nord à partir de données issues d'images satellites. On y extrait des mesures de vitesses de vent, de vorticité, d'humidité (base JRA-25) et des mesures de latitude, de longitude et de vitesse de vent instantanée des cyclones toutes les 6 heures (base IBTrACS). Les modèles de référence à ce jour ne tiennent pas compte des corrélations entre les données et les prévisions ce qui limite leur intérêt pour certains utilisateurs. Nous proposons ainsi de prédire le déplacement en latitude et le déplacement en longitude au même instant à un horizon de 120 h toutes les 6 h à l'aide de forêts aléatoires avec arbres de régression. Sur le long terme, à partir de 18 h, la méthode proposée donne de meilleurs résultats que les méthodes existantes.
La fouille de données relationnelles considère des données contenues dans au moins deux tables reliées par une association un-à-plusieurs, par exemple des clients et leurs achats, ou des molécules et leurs atomes. Une façon de fouiller ces données consiste à transformer les données en une seule table attribut-valeur. Cette transformation est appelée propositionalisation. Les approches existantes gèrent principalement les attributs catégoriels. Une première solution est donc de discrétiser les attributs numériques pour les transformer en attributs catégoriels. Les approches alternatives, qui gèrent les attributs numériques, consistent à les agréger. Nous proposons une approche duale de la discrétisation, qui inverse l'ordre de traitement du nombre d'objets et du seuil, et dont la discrétisation généralise les quartiles. Nous pouvons ainsi construire des attributs que les approches existantes de propositionalisation ne peuvent pas construire, et qui ne peuvent pas non plus être obtenus par les systèmes complets de fouille de données.
Data Mining is faced with new challenges. In emerging applications (like financial data, traffic TCP/IP, sensor networks, etc) data continuously flow eventually at high speed. The processes generating data evolve over time, and the concepts we are learning change. In this talk we present a one-pass classification algorithm able to detect and react to changes. We present a framework that identify contexts using drift detection, characterize contexts using meta-learning, and select the most appropriate base model for the incoming data using unlabeled examples. Evolving data requires that learning algorithms must be able to monitor the learning process and the ability of predictive self-diagnosis. A significant and useful characteristic is diagnostics - not only after failure has occurred, but also predictive (before failure). These aspects require monitoring the evolution of the learning process, taking into account the available resources, and the ability of reasoning and learning about it.
Cet article propose une approche utilisant les modèles de direction et de magnitude de mouvement pour détecter les actions qui sont effectuées par des êtres humains dans des séquences vidéo. Des mélanges Gaussiens et de lois de von Mises sont estimés à partir des orientations et des magnitudes des vecteurs du flux optique calculés pour chaque bloc de la scène. Les paramètres de ces modèles sont estimés grâce à un algorithme d'apprentissage en ligne. Les actions sont reconnues grâce à une mesure qui se base sur la distance de Bhattacharyya et qui permet de comparer le modèle d'une séquence donnée avec les modèles créés à partir de séquences d'apprentissage. L'approche proposée est évaluée sur deux ensembles de vidéos contenant des actions variées exécutées aussi bien dans des environnements intérieur qu'extérieur.
Une façon d'assister l'analyse d'entrepôt de données repose sur l'exploitation et la fouille de fichiers logs de requêtes OLAP. Mais, à notre connaissance, il n'existe pas de méthode permettant d'obtenir une représentation d'un tel log qui soit à la fois concise et exploitable. Dans ce papier, nous proposons une méthode pour résumer et interroger des logs de requêtes OLAP. L'idée de base est qu'une requête résume une autre requête et qu'un log, qui est une séquence de requêtes, résume un autre log. Notre cadre formel est composé d'une algèbre simple destinée à résumer des requêtes OLAP, et d'une mesure évaluant la qualité du résumé obtenu. Nous proposons également plusieurs stratégies pour calculer automatiquement des résumés de logs de bonne qualité, et nous montrons comment des propriétés simples sur les résumés peuvent être utilisées pour interroger un log efficacement. Des tests sur des logs de requêtes MDX ont montré l'intérêt de notre approche.
Dans la fouille de données multi-tables, les données sont représentées sous un format relationnel dans lequel les individus de la table cible sont potentiellement associés à plusieurs enregistrements dans des tables secondaires en relation un-à-plusieurs. La plupart des approches existantes opèrent en transformant la représentation multi-tables, notamment par mise à plat. Par conséquent, on perd la représentation initiale naturellement compacte mais également on risque d'introduire des biais statistiques. Notre approche a pour objectif d'évaluer l'informativité des variables explicatives originelles par rapport à la variable cible dans le contexte des relations un-à-plusieurs. Elle consiste à résumer l'information contenue dans chaque variable par un tuple d'attributs représentant les effectifs des modalités de celle-ci. Des modèles en grilles multivariées sont alors employés pour qualifier l'information apportée conjointement par les nouveaux attributs, ce qui revient à une estimation de densité conditionnelle de la variable cible connaissant la variable explicative en relation un-à-plusieurs. Les premières expérimentations sur des bases de données artificielles et réelles montrent qu'on arrive à identifier les variables explicatives potentiellement pertinentes sur tout le domaine relationnel.
Dans le cadre de nos travaux sur le portage linguistique des systèmes de gestion de contenu traitant des énoncés spontanés en langue naturelle, nous présentons ici une évaluation du portage d'IMRS (système de recherche de morceau de musique en langue naturelle) Kumamoto (2007) du japonais vers le français. Cette évaluation peut se faire au niveau des représentations internes en les comparant, ou au niveau de la tâche. Ici, nous nous intéressons à une évaluation liée à la tâche en proposant un service Web qui permet de mesurer la performance globale de la nouvelle version obtenue. Nous avons par la suite cherché à améliorer et ajouter de nouvelles fonctionnalités en proposant un service de recherche de musique adaptable à la perception de chaque utilisateur. En effet, un même morceau de musique peut être jugé calme pour un premier auditeur, très calme pour un deuxième, et assez calme pour un troisième, etc. On se demande l'impression finale que porte ce dernier morceau de musique. C'est naturel que les utilisateurs évaluent différemment un même morceau de musique car ils ont des perceptions différentes. Devant cette situation, nous proposons un service de recherche de musique basé des méthodes simples et automatisées et qui sont adaptables à la perception de chaque utilisateur.
Depuis les deux dernières décennies, l'augmentation du nombre de sites d'emploi sur Internet a accentué la nécessité de proposer des outils d'aide à la décision adaptés aux besoins des recruteurs. Cet article présente un système pour la catégorisation des textes d'offres d'emploi destinées à être diffusées sur Internet. Après un pré-traitement adapté des offres, les termes descripteurs sont choisis en fonction de leur pouvoir discriminant vis-à-vis des différentes classes ce qui permet de réduire leur nombre de manière significative. Les offres sont ensuite représentées par leurs coordonnées dans l'espace factoriel obtenu par analyse des correspondances et la classification réalisée dans un cadre supervisé à l'aide de SVM.
In the ocean of Web data, Web search engines are the primary way to access content. As the data is on the order of petabytes, current search engines are very large centralized systems based on replicated clusters. Web data, however, is always evolving. The number of Web sites continues to grow rapidly (230 millions at the end of 2009) and there are currently more than 20 billion indexed pages. On the other hand, Internet users are above one billion and hundreds of million of queries are issued each day. In the near future, centralized systems are likely to become less effective against such a data-query load, thus suggesting the need of fully distributed search engines. Such engines need to maintain high quality answers, fast response time, high query throughput, high availability and scalability ; in spite of network latency and scattered data. In this talk we present the main challenges behind the design of a distributed Web retrieval system and our research in all the components of a search engine : crawling, indexing, and query processing.
Le concept de SKYLINE a été introduit pour mettre en évidence les objets « les meilleurs » selon différents critères. Une généralisation multidimensionnelle du SKYLINE a été proposée à travers le SKYCUBE qui réunit tous les SKYLINES possibles selon toutes les combinaisons de critères et permet d'analyser les liens entre objets SKYLINES. Comme le data cube, le SKYCUBE s'avère extrêmement volumineux si bien que des approches de réduction sont incontournables. Dans cet article, nous définissons une approche de matérialisation partielle du SKYCUBE. L'idée sous-jacente est d'éliminer de la représentation les Skycuboïdes facilement re-calculables. Pour atteindre cet objectif de réduction, nous caractérisons un cadre formel : le treillis des concepts ACCORDS. Cette structure combine la notion d'ensemble en accord et le treillis des concepts. À partir de cette structure, nous dérivons le treillis des concepts SKYLINES qui en est une instance contrainte. Le point fort de notre approche est d'être orientée attribut ce qui permet de borner le nombre de noeuds du treillis et d'obtenir une navigation efficace à travers les Skycuboïdes.
L'utilisation de règles de classification dans les modèles prédictifs a été très étudiée ces dernières années. La forme simple et interprétable des règles en font des motifs très populaires. Les classifieurs combinant des règles de classification intéressantes (selon une mesure d'intérêt) offrent de bonnes performances de prédictions. Cependant, les performances de ces classifieurs dépendent de la mesure d'intérêt (e.g., confiance, taux d'accroissement, ... ) et du seuillage (non-trivial) de cette mesure pour déterminer les règles pertinentes. De plus, il est facile de montrer que les règles extraites ne sont pas individuellement robustes. Dans cet article, nous proposons un nouveau critère pour évaluer la robustesse des règles de classification dans les données Booléennes. Notre critère est issu d'une approche Bayésienne : nous proposons une expression analytique de la probabilité d'une règle connaissant les données. Ainsi, les règles les plus probables sont robustes. Le critère Bayésien nous permet alors d'identifier (sans paramètre) les règles robustes parmi un ensemble de règles données.
Les tags fournis par les utilisateurs des plateformes de tagging social ne sont pas explicitement liés sémantiquement, et ceci limite considérablement les possibilités d'exploitation de ces données. Nous présentons dans cet article notre approche pour l'enrichissement sémantiques des folksonomies qui intègre une combinaison de traitements automatiques ainsi que la capture des contributions de structuration des utilisateurs via une interface ergonomique. De plus, notre modèle supporte les points de vue qui divergent tout en permettant de les combiner en respectant leur cohérence locale. Cette approche s'adresse aux communautés de connaissances collaborant en ligne, et en intégrant leurs usages, nous sommes en mesure de proposer un cycle de vie complet pour le processus de structuration sémantique des folksonomies. La navigation dans les données de tagging est ainsi améliorée, et les folksonomies peuvent alors être directement intégrées dans la construction de thesauri.
Le CNSS – Cellular Neuro-Symbolic System – est un système hybride ralliant conjointement le neuro-symbolique et le cellulaire. CNSS permet, à partir d'une base de cas pratique, de faire coopérer un réseau de neurones, un graphe d'induction et un automate cellulaire pour la construction d'un modèle de prédiction. En détectant et en éliminant les individus non applicables et les variables non pertinentes, le réseau de neurones optimise la base d'apprentissage. Le résultat ainsi obtenu est affiné par un processus d'apprentissage symbolique à base de graphe d'induction. Ce raffinement se fait par une modélisation booléenne qui va assister l'apprentissage symbolique à optimiser le graphe d'induction et va assurer, par la suite, la représentation et la génération des règles de classification sous forme conjonctives avant d'entamer la phase de déduction par un moteur d'inférence cellulaire. CNSS a été testé sur plusieurs applications en utilisant des problèmes académiques et réels. Les résultats montrent que le système CNSS a des performances supérieures et de nombreux avantages.
Nous proposons dans cet article une méthode qui calcule la distance entre ontologies dans un but d'aide à la décision sur la pertinence ou non de leur fusion. Cette méthode calcule la distance entre parties homologues de deux ontologies par rapport à leurs niveaux de détail et leurs structures taxonomiques, et ce en exploitant les correspondances produites par un alignement préalablement effectué entre ces ontologies, et en adaptant la méthode de la distance d'édition entre arbres ordonnés. Nous limitons notre étude ici aux ontologies légères, c'est à dire des taxonomies représentées en langages OWL, le langage d'ontologies pour le Web. Notre méthode a été implémentée et testée sur des ontologies réelles, et les résultats obtenus semblent prometteurs.
Dans un contexte économique difficile, la fidélisation des clients figure au premier rang des préoccupations des entreprises. En effet, selon le Gartner, fidéliser des clients existants coûterait beaucoup moins cher que prospecter de nouveaux clients. Pour y parvenir, les entreprises optimisent la marge et le cycle de vie des clients en développant une relation personnalisée aboutissant à de meilleures recommandations. Dans cet article, nous proposons une méthodologie pour les systèmes de recommandations fondée sur l'analyse des chiffres d'affaires des clients sur des familles de produits. Plus précisément, la méthodologie consiste à extraire des comportements de référence sous la forme de règles d'association et à en évaluer l'intérêt économique et l'actionnabilité. Les recommandations sont réalisées en ciblant les contre-exemples les plus actionnables sur les règles les plus rentables. Notre méthodologie est appliquée sur 12 000 clients et 100 000 produits de VMMatériaux afin d'orienter les commerciaux sur les possibilités d'accroissement de la valeur client.
Récemment de nouvelles techniques regroupées sous le vocable de détection automatique d'opinions (opinion mining) ont fait leur apparition et proposent une évaluation globale d'un document. Ainsi, elles ne permettent pas de mettre en avant le fait que les personnes expriment une opinion très positive du scénario d'un film alors qu'elles trouvent que les acteurs sont médiocres. Dans cet article, nous proposons de caractériser automatiquement les segments de textes relevant d'un critère donné sur un corpus de critiques.
Nous proposons dans cet article une nouvelle méthode de classification hiérarchique et topologique. Notre approche consiste à construire de manière auto-organisée une partition de données représentées par un ensemble "forêt" d'arbres répartis sur une grille 2D. Chaque cellule de la grille est modélisée par un arbre dont les noeuds représentent les données. La partition globale obtenue est visualisée à l'aide d'une carte de TreeMap dans laquelle chaque TreeMap représente un arbre de données. Nous évaluerons les capacités et les performances de notre approche sur des données aux difficultés variables. Des résultats numériques et visuels seront présentés et discutés.
L'essor récent des technologies associées à la géomatique a permis la production rapide de nombreuses données géographiques. Or, pour tirer profit de ces données, il convient de pouvoir évaluer leur pertinence et leur complexité vis à vis de l'application à laquelle on les destine. Dans cet article, nous présentons une application permettant à un utilisateur de découvrir le contenu de bases de données géographiques, à savoir, quels types d'entités géographiques sont représentés au sein de chaque base et comment. Pour accéder à ces informations l'utilisateur interroge le système via une ontologie globale du domaine qui décrit les types d'entités topographiques du monde réel. Des ontologies locales ou d'application sont utilisées pour formaliser les spécifications de chaque base de données décrite. Elles sont annotées à l'aide de concepts issus de l'ontologie globale. Ce système est implémenté sous la forme d'une interface Web et inclut un affichage cartographique d'échantillons de données
En établissant des relations entre des concepts issus de deux ontologies distinctes, les outils d'alignement peuvent être utilisés pour enrichir une des deux ontologies avec les concepts de l'autre. A partir d'une expérience menée dans le cadre du projet ANR GeOnto 1 dans le domaine de la topographie, cet article identifie des traitements complémentaires à l'alignement pour l'enrichissement et montre leur mise en oeuvre dans TaxoMap Framework.
La croissance exponentielle des données engendre des volumétries de bases de données très importantes. Une solution couramment envisagée est l'utilisation d'une description condensée des propriétés et de la structure des données. De ce fait, il devient crucial de disposer d'outils de visualisation capables de représenter la structure des données, non pas à partir des données elles mêmes, mais à partir de ces descriptions condensées. Nous proposons une méthode de description des données à partir de prototypes enrichis puis segmentés à l'aide d'un algorithme adapté de classification non supervisée. Nous introduisons ensuite un procédé de visualisation capable de mettre en valeur la structure intra et inter-groupes des données.
De nombreux systèmes de recommandation se focalisent sur les articles(que nous appellerons ”items”) les plus ”populaires” et ignorent souventla ”longue traîne” des produits qui le sont moins. Nous proposons l'algorithmeAbsTop-kα qui améliore les recommandations en se basant sur la combinaison(pondérée par α) de paires hautement corrélées entre des abstractions d'items etentre des paires d'items concrets classiquement recherchées.
Nous nous intéressons au problème de l'affichage de publicités surle web. De plus en plus d'annonceurs souhaitent maintenant payer uniquementlorsque quelqu'un clique sur leurs publicités. Dans ce modèle, l'opérateur duportail a intérêt à identifier les publicités les plus cliquées, selon ses catégoriesde visiteurs. Comme les probabilités de clic sont inconnues a priori, il s'agit d'undilemme exploration/exploitation. Ce problème a souvent été traité en ne tenantpas compte de contraintes provenant du monde réel : les campagnes de publicitésont une durée de vie et possèdent un nombre de clics à assurer et ne pas dépasser.Pour cela, nous introduisons une approche hybride (MAB+LP) entre la programmationlinéaire et les bandits. Nos algorithmes sont testés sur des modèles créésavec un important acteur du web commercial. Ces expériences montrent que cesapproches atteignent une performance très proche de l'optimum et mettent enévidence des aspects clés du problème.
La maintenance de trains est un problème particulièrement délicat liéà de nombreux enjeux à la fois financiers, sécuritaires et énergétiques. Nous nousintéressons à la mise en place d'une maintenance préventive basée sur la détectionet la correction de tout comportement anormal susceptible de provoquer unproblème majeur dans un futur proche. Nous proposons ainsi un outil d'aide à ladécision afin de (i) dégager des connaissances utiles sur l'historique des trains,et (ii) détecter et étudier les anomalies comportementales, dans le but de prendredes décisions optimales en termes de maintenance ferroviaire
Dans cet article, nous étudions la relation entre la découverte de motifssous contraintes et les CSPs (Constraint Satisfaction Problems) afin de définirdes contraintes de plus haut niveau qui sont précieuses pour mener à bien destâches de fouille de données. Pour cela, nous proposons une approche de modélisationet d'extraction de motifs sous contraintes n-aires exploitant les motifslocaux. L'utilisateur définit un ensemble de contraintes n-aires et un solveur deCSP génère l'ensemble des solutions. Notre approche profite des progrès récentssur l'extraction de motifs locaux et permet de modéliser de manière concise etélégante tout ensemble de contraintes combinant plusieurs motifs locaux, permettantainsi la découverte de motifs répondant mieux aux buts finaux de l'utilisateur.Les expériences menées montrent la faisabilité de notre approche.
L'utilisation des documents pédagogiques, disponibles sur le web,devient de plus en plus large tant pour l'enseignant qui a besoin de préparerson support de cours que pour l'étudiant qui désire, par exemple, s'autoformer.La description d'un document pédagogique, en l'alimentant par desmétadonnées, s'avère une solution qui confère une valeur ajoutée au documentafin d'expliciter des informations placées dans ce document. Dans cetteoptique, nous proposons une méthode d'annotation de documentspédagogiques selon différents points de vue, qui est basée sur l'analysesémantique des éléments discursifs du texte
Les entrepôts de données et l'analyse en ligne OLAP (On-line AnalysisProcessing) présentent des solutions reconnues et efficaces pour le processusd'aide à la décision. Notamment l'analyse en ligne, grâce aux opérateurs OLAP,permet de naviguer et de visualiser des données représentées dans un cube multidimensionnel.Mais lorsque les données ou les objets à analyser sont complexes,il est nécessaire de redéfinir et d'enrichir ces opérateurs OLAP. Dans cet article,nous proposons de combiner l'analyse OLAP et la fouille de données (data mining)afin de créer un nouvel opérateur de visualisation d'objets complexes. Cetopérateur utilise l'analyse factorielle des correspondances.
Les systèmes de vidéo-surveillance sont de plus en plus autonomesdans la détection des événements anormaux. Cet article présente une méthode dedétection des flux majeurs et des évènements qui surviennent dans une scène defoule. Ces détections sont effectuées en utilisant un modèle directionnel construità partir d'un mélange de lois de von Mises appliqué à l'orientation des vecteursde mouvement. Les flux majeurs sont alors calculés en récupérant les orientationsles plus importantes des mélanges. Divers évènements se produisant dansune foule sont aussi détectés en utilisant en plus du modèle d'orientation, unmodèle probabiliste de magnitude des vecteurs de mouvement. Les résultats del'expérimentation sur un échantillon de vidéos d'événements sont présentés.
Structured learning approaches are able to take into account the relationalstructure of data, thus promising an enhancement over non-relationalapproaches. In this paper we explore two document-related tasks in relationaldomains setting, the annotation of semi-structured documents and the citationdeduplication. For both tasks, we report results of comparing relational learningapproach namely Markov logic, to non-relational one namely Support VectorMachines (SVM). We discover that increased complexity due to the relationalsetting is difficult to manage in large scale cases, where non-relational modelsmight perform better. Moreover, our experiments show that in Markov logic,the contribution of its probabilistic component decreases in large scale domains,and it tends to act like First-order logic (FOL).
Ce papier présente une approche d'apprentissage de patrons lexicosyntaxiquesà partir de textes annotés. Les patrons lexico-syntaxiques sont utiliséspour identifier des relations lexicales dans les corpus textuels. Leur constructionmanuelle est une tâche fastidieuse et des solutions permettant l'apprentissagesont souhaitables. Nous proposons une approche d'apprentissage qui reposesur l'utilisation des chemins de dépendance pour représenter les patrons et l'implémentationd'un algorithme de classification. L'approche a été appliquée dansle domaine biomédical pour identifier des patrons lexico-syntaxiques exprimantdes relations fonctionnelles.
Face à la quantité sans cesse grandissante de données stockées, les algorithmes de fouille etde visualisation de données doivent pouvoir être capable de traiter de grandes quantités de données.Une des solutions est d'effectuer un prétraitement des données permettant la réductionde la dimension des données sans perte significative d'informations. L'idée est donc de réduirel'ensemble de descripteurs avant de faire appel à la méthode de visualisation sous forme d'ungraphe.
Cet article présente une méthode complexe pour la caractérisation etl'indexation d'images graphiques de documents anciens. A partir d'un bref étatde l'art, une méthode pour décrire ces images en tenant compte de leur complexitéest proposée. Trois étapes principales de ce traitement sont détailléesdont une méthode novatrice d'analyse, de segmentation et de description destraits. Les résultats sont issus de travaux en cours et sont encourageants
La masse des données aujourd'hui disponibles engendre des besoinscroissants de méthodes décisionnelles adaptées aux données traitées. Ainsi, récemmentde nouvelles approches fondées sur des cubes de textes sont apparuespour pouvoir analyser et extraire de la connaissance à partir de documents. L'originalitéde ces cubes est d'étendre les approches traditionnelles des entrepôts etdes technologies OLAP à des contenus textuels. Dans cet article, nous nous intéressonsà deux nouvelles fonctions d'agrégation. La première propose une nouvellemesure de TF-IDF adaptative permettant de tenir compte des hiérarchiesassociées aux dimensions. La seconde est une agrégation dynamique permettantde faire émerger des groupements correspondant à une situation réelle. Lesexpériences menées sur des données issues du serveur HAL d'une universitéconfirment l'intérêt de nos propositions.
Internet est devenu une source importante d'informations médicalespour les patients et leurs proches : recherche d'informations sur leurs maladieset les dernières recherches cliniques, ainsi que pour y constituer des communautés“numériques” de dialogue et de partage. Cependant, accès à Internet nesignifie pas nécessairement accès à l'information. Le manque de familiarité avecle langage médical constitue un problème majeur pour les usagers de santé dansl'accès à l'information et son interprétation. Ce papier s'inscrit dans la problématiqued'étude et de caractérisation de la terminologie des usagers de santépour pouvoir proposer des services adaptés à leur langage et à leur niveau deconnaissances. Le travail réalisé est une ontologie dans le domaine du cancerdu sein orientée vers les usagers de santé. Cette ontologie est construite à partird'un ensemble de corpus de textes représentant deux catégories : les médiateurset les usagers de santé. Les éléments de cette ontologie ont été analysés en utilisantdes méthodes quantitatives et qualitatives sur plusieurs niveaux : termes,concepts et relations.
Nous présentons, dans ce papier, l'outil CARTOCEL (CARTOgraphiesCELlulaires) permettant une visualisation automatique et dynamique desdomaines de connaissances. Le fonctionnement de CARTOCEL est basé surune approche originale de modélisation booléenne de la cartographie des domainesde connaissances métiers/stratégiques inspirée du principe de la machinecellulaire CASI (Cellular Automata for Symbolic Induction). Le but,après une modélisation booléenne de la cartographie des domaines de connaissances,est double : d'une part affiner la cartographie par une fouille de donnéeorchestrée par CASI, et d'autre part réduire la complexité de stockage, ainsique le temps de calcul
Cet article 1 présente un ensemble d'outils destiné à analyser des séquencesd'événements en sciences sociales et à visualiser les résultats obtenus.Nous commençons par formaliser la notion de séquence d'événements avant dedéfinir une mesure de dissimilarité entre ces séquences afin de construire destypologies et de tester les liens entre ces séquences et d'autres variables d'intérêts.Initialement définie par Moen (2000), cette mesure se base sur la notion dedistance d'édition entre séquences et permet d'identifier les différences d'ordonnancementet de temporalité des événements. Nous proposons une extension decelle-ci afin de pouvoir prendre en compte la simultanéité des événements ainsiqu'une méthode de normalisation qui garantit le respect de l'inégalité triangulaire.Dans un deuxième temps, nous présentons un ensemble d'outils destinésà interpréter les résultats. Nous proposons ainsi deux méthodes de visualisationd'un ensemble de séquences et nous introduisons la notion de sous-séquencediscriminante qui permet d'identifier les différences d'ordonnancement des événementsles plus significatives entre groupes. L'ensemble des outils présentés estdisponible au sein de la librairie R TraMineR.
La classification des documents numériques garantit un accès rapideet ciblé à l'information. Si nous considérons qu'un document est représenté parsa ou ses structures, définir des classes de documents revient à définir desclasses de structures. Une classe structurelle représente donc des structures« proches ». Ainsi, associer la structure d'un document à sa classe structurellerevient à calculer une distance dite « structurelle ». Elle tiendra compte à lafois de l'organisation des éléments (position des noeuds, chemin), du coûtd'adaptation des représentants des classes ainsi que de la représentativité dessous-graphes. Sur un corpus de documents représentant des notices de livresissus de la bibliothèque de l'université, nous discuterons de la construction decette distance, de l'intérêt de chacun des trois paramètres utilisés
Le besoin récent de nombreuses applications multimédia basées sur le contenu a engendré une demande croissante de technologies dans le domaine de la recherche d'information multimédia. Basée sur l'état de l'art des techniques existantes, nous proposons dans cet article une approche de recherche d'information multimédia qui prend en compte les informations de scène et exploite un modèle de sélection de caractéristiques. Les principaux avantages de notre modèle de recherche par rapport aux modèles existants sont : (i) une méthode de classification basée sur des catégories de concept sémantique; (ii) un modèle de recherche par rapport aux modèles existants sont : (i) une méthode de classification basée sur des catégories de concept sémantique; (ii) un modèle de sélection de caractéristiques; (iii) un index multidimensionnel. Notre framework propose un bon compromis entre précision et rapidité de la recherche
Dans la phase de préparation des données du data mining, les méthodesde discrétisation et de groupement de valeurs supervisé possèdent denombreuses applications : interprétation, estimation de densité conditionnelle,sélection de type filtre des variables, recodage des variables en amont des classifieurs.Ces méthodes supposent habituellement un faible nombre de valeur àexpliquer (classes), typiquement moins d'une dizaine, et trouvent leur limitequand leur nombre augmente. Dans cet article, nous introduisons une extensiondes méthodes de discrétisation et groupement de valeurs, consistant à partitionnerd'une part la variable explicative, d'autre part la variable à expliquer.Le meilleur co-partitionnement est recherché au moyen d'une approche Bayesiennede la sélection de modèle. Nous présentons ensuite comment utiliser cetteméthode de prétraitement en préparation pour le classifieur Bayesien naïf. Desexpérimentations intensives démontrent l'apport de la méthode dans le cas decentaines de classes.
Le calcul des cubes de données est excessivement coûteux aussi bienen temps d'exécution qu'en mémoire et son stockage sur disque peut s'avérerprohibitif. Plusieurs efforts ont été consacrés à ce problème à travers les cubesfermés, où les cellules préservant la sémantique d'agrégation sont réduites à unecellule, sans perte d'information. Dans cet article, nous introduisons le conceptdu cube de données non-dérivable fermé, nommé CND-Cube, qui généralisela notion des modèles non-dérivables fermés fréquents bidimensionnels à uncontexte multidimensionnel. Nous proposons un nouvel algorithme pour extrairele CND-Cube à partir des bases de données multidimensionnelles en se basantsur trois contraintes anti-monotones, à savoir “être fréquent”, “être non dérivable”et “être un générateur minimal”. Les expériences montrent que notreproposition fournit la représentation la plus concise d'un cube de données et elleest ainsi la plus efficace pour réduire l'espace de stockage
L'écriture logosyllabique des anciens Mayas comprend plus de 500signes et est en bonne partie déchiffrée, avec des degrés de certitude divers.Nous avons appliqué au codex de Dresde, l'un des trois seuls manuscrits quinous soient parvenus, codé sous LATEXavec le systèmemayaTEX, notre méthodede représentation graduée, par apprentissage non supervisé hybride entre clusteringet analyse factorielle oblique, sous la métrique de Hellinger, afin d'obtenirune image nuancée des thèmes traités : les individus statistiques sont les 212segments de folio du codex, et leurs attributs sont les 1687 bigrammes de signesextraits. Pour comparaison, nous avons introduit dans cette approche endogèneun élément exogène, la décomposition en éléments des signes composites, pourpréciser plus finement les contenus. La rétro-visualisation dans le texte originaldes résultats et expressions dégagées éclaire la signification de certains glyphespeu compris, en les situant dans des contextes clairement interprétables.
Avec l'avènement d'applications sociales en entreprise (blogs, wikis,etc.), il est fréquent que des individus aux niveaux d'expertise relativement distantsse réunissent au sein de communautés en ligne. Ces disparités d'expertisese traduisent entre autres par des comportements différents dans la manière detagguer les contenus créés, notamment en ce qui concerne les termes utilisés,rendant ainsi complexe la découverte d'informations pourtant publiées. Dans cetarticle, nous mettons en avant la possibilité offerte par les technologies du WebSémantique, combinées avec les paradigmes du Web Social, de résoudre cetteproblématique. Nous proposons ainsi une chaine de traitement combinant ontologies,wikis sémantiques et indexation de contenus permettant la production degraphes sémantiques interconnectés et facilitant de cette manière la découvertede contenus créés au sein de tels systèmes
L'utilisation de connaissances pour améliorer les processus de fouillede données a mobilisé un important effort de recherche ces dernières années. Ilest cependant souvent difficile de formaliser ce type de connaissances, commecelles-ci sont souvent dépendantes du domaine. Dans cet article, nous nous intéressonsà l'intégration de connaissances sous la forme d'objets étiquetés dansles algorithmes de clustering. Plusieurs critères permettant d'évaluer la puretédes clusters sont présentés et leur comportement est comparé sur des jeux dedonnées artificiels. Les avantages et les inconvénients de chaque critère sontanalysés pour aider l'utilisateur à faire un choix.
Dans le domaine de la fouille de données, mesurer les similitudesentre différents sous-ensembles est une question importante qui a été peu étudiéejusqu'à présent. Dans cet article, nous proposons une nouvelle méthodebasée sur l'apprentissage non-supervisé. Les différents sous-ensembles à comparersont caractérisés au moyen d'un modèle à base de prototypes. Ensuite, lesdifférences entre les modèles sont détectées en utilisant une mesure de similarité
Nous proposons dans cet article une première approche qui consisteà exploiter les réseaux sociaux afin de faciliter la composition de services parles utilisateurs finaux. Nous introduisons un Framework, nommé Social Composer(SoCo), qui implémente cette approche. SoCo fournit à l'utilisateur desrecommandations dynamiques de services basées entre autre sur le réseau socialde l'utilisateur qui est construit implicitement à partir des interactions entre lesutilisateurs, les services, les différentes compositions opérées par les membresdu réseau social, ainsi que le réseau social global.
Nous montrons qu'un ensemble d'arbres de décision avec une composantealéatoire permet de construire un noyau efficace destiné à l'apprentissagesupervisé. Nous étudions théoriquement les propriétés d'un tel noyau et montronsque sous des conditions très souvent rencontrées en pratique, il existe uneséparabilité linéaire entre exemples de classes distinctes dans l'espace induit parcelui-ci. Parallèlement, nous observons également que le classique vote à la majoritéd'un ensemble d'arbres est un hyperplan (sans garantie d'optimalité) dansl'espace induit par le noyau. Enfin, comme le montrent nos expérimentations,l'utilisation conjointe d'un ensemble d'arbres et d'un séparateur à vaste marge(SVM) aboutit à des résultats extrêmement encourageants.
Le concept de Cube Émergent a été introduit afin de comparer deuxdata cubes. Dans cet article, nous introduisons deux nouvelles représentationsréduites du Cube Émergent sans perte des mesures : le Cube Fermé Émergent etle Cube Quotient Émergent. La première représentation est basée sur le conceptde fermeture cubique. C'est la plus petite représentation possible du cube dedonnées émergent. À partir du Cube Fermé Émergent et donc en stockant le minimumd'informations, il est possible de répondre efficacement aux requêtes quipeuvent être exécutées sur le Cube Émergent lui-même. La seconde représentations'appuie sur la structure du Cube Quotient qui a été proposé pour résumer uncube de données. Le Cube Quotient est revisité afin de le doter d'une sémantiquebasée sur la fermeture cubique et donc adapté au contexte du Cube Émergent. LeCube Quotient Émergent résultant est moins réduit que le Cube Fermé Émergentmais il préserve la propriété de " spécialisation/généralisation " du data cube quipermet la navigation au sein du Cube Émergent. Nous établissons également lelien entre les deux représentations introduites et celle basée sur les bordures classiquesen fouille de données. Des expérimentations effectuées sur divers jeux dedonnées visent à comparer la taille des différentes représentations.
Dans ce papier nous proposons PLCM, un algorithme parallèle dedécouverte d'itemsets fréquents fermés basé sur l'algorithme LCM, reconnucomme l'algorithme séquentiel le plus efficace pour cette tâche. Nous présentonsaussi une interface de parallélisme à la fois simple et puissante basée sur lanotion de Tuple Space, qui permet d'avoir une bonne répartition dynamique dutravail.Grâce à une étude expérimentale détaillée, nous montrons que PLCM est le seulalgorithme qui soit suffisamment générique pour calculer efficacement des itemsetsfréquents fermés à la fois sur des bases creuses et sur des bases denses,améliorant ainsi l'état de l'art.
Les Dépendances Fonctionnelles Conditionnelles (DFC) ont été introduitesen 2007 pour le nettoyage des données. Elles peuvent être considéréescomme une unification de Dépendances Fonctionnelles (DF) classiques et deRègles d'Association (RA) puisqu'elles permettent de spécifier des dépendancesmixant des attributs et des couples de la forme attribut/valeur.Dans cet article, nous traitons le problème de la découverte des DFC, i.e. déterminerune couverture de l'ensemble des DFC satisfaites par une relation r. Nousmontrons comment une technique connue pour la découverte des DF (exacteset approximatives) peut être étendue aux DFC. Cette technique a été implémentéeet des expériences ont été menées pour montrer la faisabilité et le passage àl'échelle de notre proposition.
In recent years, the amount of data to process has increased in manyapplication areas such as network monitoring, web click and sensor data analysis. Data stream mining answers to the challenge of massive data processing, this paradigm allows for treating pieces of data on the fly and overcoming data storage. The detection of changes in a data stream distribution is an important issue. This article proposes a new schema of change detection :i) the summarization of the input data stream by a set of micro-clusters;ii) the estimate of the data stream distribution exploiting micro-clusters;iii) the estimate of the divergence between the current estimated distribution and a reference distribution;iv) diagnostic step through the contribution of each predictive variable to the overall divergence between both distributions.Our schema of change detection is applied and evaluated on artificial data streams.
The environment around us is progressively equipped withvarious sensors, producing data continuously. The applications usingthese data face many challenges, such as data stream integration over anattribute (such as time) and knowledge extraction from raw data. In thispaper we propose one approach to face those two challenges. First, datastreams integration is performed using statecharts which represents aresume of data produced by the corresponding data producer. Second,we detect anomalous events over temporal relations among statecharts.We describe our approach in a demonstration scenario, that is using avisual tool called Patternator
Dans cet article, nous présentons différentes variantes GMM-SMOs pour l'identification du locuteur en mode indépendant du texte. Pour mettre en oeuvre les différents systèmes, nous avons opté une représentation multi-gaussienne de l'espace des caractéristiques basées sur l'algorithme Expectation Maximisation (EM). Ces nouvelles représentations constituent les vecteurs d'entrés pour entraîner les supports vecteurs machines (SVMs) par l'algorithme de type Optimisation par Minimisation Séquentielle (SMO).
Cet article traite un problème dans le domaine de la gestion des basesde données classiques. Il s'agit d'exploiter une ontologie de domaine pour aiderl'utilisateur d'une base de données relationnelle dans sa recherche et de luipermettre une interrogation transparente de la base de données. Pour cela, nousproposons une approche d'expansion automatique de requêtes SQL lorsquecelles-ci n'ont pas de réponses. Notre approche est décrite par un algorithmedéfini de manière générique afin d'être utilisé pour une base de données quelconque.
L'objectif des systèmes d'intégration de données est de faciliter l'exploitationet l'interprétation d'informations hétérogènes provenant de différentessources. Lorsque l'on doit intégrer de grands volumes de données, le recours àun expert n'est pas envisageable mais l'exploitation de processus d'intégrationautomatiques peut introduire des approximations ou des erreurs. Nous nous focalisonssur les résultats fournis par les méthodes de réconciliation de données.Ces dernières comparent les données entre elles et détectent celles qui réfèrent àla même entité du monde réel. Pour renforcer la confiance des utilisateurs dansles résultats retournés par ces méthodes, nous proposons dans cet article une approched'explication graphique fondée sur les réseaux de Petri colorés qui estparticulièrement adaptée aux approches de réconciliation globales, numériqueset guidées par une ontologie.
L'extraction d'itemsets distinctifs est un sujet de recherche récent quiconnait plusieurs algorithmes pour les données statiques (Knobbe et Ho, 2006;Heikinheimo et al., 2007). Ces solutions ne sont toutefois pas conçues pour lecas des flux de données, pour lesquels les temps de réponse doivent être aussifaibles que possible. Nous considérons le problème de l'extraction d'itemsetsdistinctifs dans les flux, qui peut avoir de nombreuses applications dans la sélectionde variables, la classification ou encore la recherche d'information. Nousproposons l'heuristique IDkF (Itemsets Distinctifs dans les Flux) et des résultatsd'expérimentations en comparaison d'une technique de la littérature.
La découverte automatique de règles et motifs graduels (“plus l'âged'une personne est élevé, plus son salaire est élevé”) trouve de très nombreusesapplications sur des bases de données réelles (e.g. biologie, flots de données decapteurs). Si des algorithmes de plus en plus efficaces sont proposés dans desarticles récents, il n'en reste pas moins que ces méthodes génèrent un nombrede motifs tellement important que les experts peinent à les exploiter. Dans cetarticle, nous proposons donc une représentation condensée des motifs graduelsen introduisant les concepts théoriques associés aux opérateurs de fermeture surde tels motifs.
La recherche de liens entre objets fréquents a été popularisée par lesméthodes d'extraction de règles d'association. Dans le cas de séquences d'événements,les méthodes de fouille permettent d'extraire des sous-séquences quipeuvent ensuite être exprimées sous la forme de règles d'association séquentielleentre événements. Cette utilisation de la fouille de séquences pour la recherchede liens entre des événements pose deux problèmes. Premièrement, lecritère principal utilisé pour sélectionner les sous-séquences d'événements estla fréquence, or les occurrences de certains événements peuvent être fortementliées entre elles même lorsqu'elles sont peu fréquentes. Deuxièmement, les mesuresactuelles utilisées pour caractériser les règles d'association ne tiennent pascompte du caractère temporel des données, comme l'importance du timing desévénements ou le problème des données censurées. Dans cet article, nous proposonsune méthode pour rechercher des liens significatifs entre des événementsà l'aide de modèles de durée. Les règles d'association sont construites à partirdes motifs séquentiels observés dans un ensemble de séquences. L'influence surle risque que l'événement « conclusion » se produise après le ou les événements« prémisse » est estimée à l'aide d'un modèle semi-paramétrique à risques proportionnels.Outre la présentation de la méthode, l'article propose une comparaisonavec d'autres mesures d'association
Dans cet article, nous abordons la problématique d'extraction de séquencesfréquentes à partir de corpus de textes parallèles en prenant en comptel'ordre d'apparition des mots dans une phrase. Notre finalité est d'exploiter cesséquences dans la traduction automatique (TA). Nous introduisons ainsi la notionde règles associatives inter-langues (RAIL) et nous définissons notre modèlede traduction à base de ces associations. Nous décrivons également les différentesexpérimentations conduites sur le corpus EUROPARL afin de construire àpartir des RAIL une table de traduction bilingue qui est intégrée par la suite dansun processus complet de TA.
La fouille visuelle de données (ou Visual Data Mining, VDM) a pourobjectif de faciliter l'interprétation des résultats issus d'une fouille de données,grâce à l'usage de représentations graphiques. Au cours de la dernière décennie,un grand nombre de techniques de visualisation d'information ont été mises aupoint, permettant la visualisation de données multidimensionnelles dans des environnementsvirtuels. Lors des travaux antérieurs, les chercheurs ont proposédes taxonomies pour classer les techniques de VDM (Chi (2000), Herman et al.(2000)). Toutefois, ces taxonomies ne prennent en compte que partiellement lestechniques récentes relatives à l'utilisation de la 3D et de la réalité virtuelle. Lebut de cet article est de faire un état de l'art récent et spécifique à ces techniques.Celles-ci sont détaillées, classées et comparées selon différents critères : les applications,l'encodage graphique, les techniques d'interaction, les avantages etles inconvénients de chaque approche. Ces techniques sont présentées dans destableaux accompagnées d'illustrations graphiques
Dans cet article nous proposons une approche de la gestion des droitsd'accès pour les systèmes de gestion de contenu qui reposent sur les modèles ettechniques du web sémantique. Nous présentons l'ontologie AMO qui consiste(1) en un ensemble de classes et propriétés permettant d'annoter les ressourcesdont il s'agit de contrôler l'accès et (2) en une base de règles d'inférence modélisantla stratégie de gestion des droits à mettre en oeuvre. Appliquées sur la based'annotations des ressources, ces règles permettent de gérer les ressources selonune stratégie donnée. Cette modélisation garantit ainsi l'adaptabilité de l'ontologieà différentes stratégies de gestion des droits d'accès. Nous illustrons l'utilisationde l'ontologie AMO sur les documents du projet ANR ISICIL produitspar le wiki sémantique SweetWiki. Nous montrons comment les documents sontannotés avec AMO, quelles règles sont mises en oeuvre et quelles requêtes permettentle contrôle de l'accès aux documents.
The exponential growth of data in various fields such as Social Networksand Internet has stimulated lots of activity in the field of network analysisand data mining. Identifying Communities remains a fundamental technique toexplore and organize these networks. Few metrics are widely used to discoverthe presence of communities in a network. We argue that these metrics do nottruly reflect the presence of communities by presenting counter examples. Thisis because these metrics concentrate on local cohesiveness among nodes wherethe goal is to judge whether two nodes belong to the same community or viseversa. Thus loosing the overall perspective of the presence of communities in theentire network. In this paper, we propose a new metric to identify the presenceof communities in real world networks. This metric is based on the topologicaldecomposition of networks taking into account two important ingredients of realworld networks, the degree distribution and the density of nodes. We show theeffectiveness of the proposed metric by testing it on various real world data sets
L'inférence des dépendances fonctionnelles est l'une des problématiquesles plus étudiées en bases de données. Elle a fait l'objet de plusieurstravaux qui ont proposé des algorithmes afin d'inférer, efficacement, les dépendancesfonctionnelles pour les utiliser dans différents domaines : administrationde bases de données, ré-ingénierie, optimisation des requêtes,etc. Toutefois,pour les application réelles, les bases de données sont évolutives et les relationssont fréquemment augmentées ou diminuées de tuples. Par conséquent, afin des'adapter à ce cadre dynamique, une solution consiste à appliquer l'un des algorithmes,disponibles dans la littérature, pour inférer les dépendances fonctionnelles,après chaque mise à jour. Cette solution étant coûteuse, nous proposons,dans cet article, d'inférer les dépendances fonctionnelles d'une manière incrémentale.À cet effet, nous introduisons un nouvel algorithme, appelé INCFDS, etnous évaluons ses performances par rapport à l'approche classique d'inférencedes dépendances fonctionnelles à partir d'une relation dynamique.
Nous présentons un nouvel algorithme incrémental et parallèled'analyse factorielle des correspondances (AFC) pour la recherche d'images àgrande échelle en utilisant le processeur de la carte graphique (GPU). L'AFCest adaptée à la recherche d'images par le contenu en utilisant des descripteurslocaux des images (SIFT). L'AFC permet de réduire le nombre de dimensionset de découvrir des thèmes qui permettent de diminuer le nombre d'images àparcourir et donc le temps de réponse d'une requête. Pour traiter de trèsgrandes bases d'images, nous présentons une version incrémentale et parallèled'AFC, puis nous utilisons ses indicateurs pour construire des fichiers inverséspour retrouver les images contenant les mêmes thèmes que l'image requête.Cette étape est elle aussi parallélisée sur GPU pour obtenir des réponsesrapides. Les résultats numériques sur la base de données d'images Nistér-Stewénius plongée dans 1 million d'images de FlickR montrent que notrealgorithme incrémental et parallèle est très significativement plus rapide que saversion standard
Cet article1 propose un nouvel indice de la complexité de séquencescatégorielles. Bien que conçu pour des séquences représentant des trajectoiresbiographiques telles que celles rencontrées dans les sciences sociales, il s'appliqueà tous types de listes ordonnées d'états. L'indice prend en compte deuxaspects distincts, soit la complexité induite par l'ordonnancement des états successifsqui est mesurée par le nombre de transitions (changements d'état) et lacomplexité liée à la distribution des états dont rend compte l'entropie
Cet article montre que si l'on dispose d'une connaissance a priori surle problème en main, l'intégration de cette dernière dans le processus d'apprentissaged'une machine intelligente pour des tâches de classification peut améliorerla performance de cette machine. Nous étudions l'effet de l'intégration de laconnaissance a priori de convexité sur le processus d'apprentissage du principedu Maximum d'Entropie (MaxEnt) en utilisant des exemples virtuels. Nous testonsles idées proposées sur un problème benchmark bien connu dans la littératuredes machines d'apprentissage, le problème de formes d'ondes de Breiman.Nous avons abouti à un taux d'erreur de généralisation de 15.57% qui est trèsproche du taux d'erreur théorique estimé par Breiman (14%).
Il existe aujourd'hui de nombreuses méthodes de réduction de dimensions,que ce soit dans un cadre supervisé ou non supervisé. L'un des intérêts deces méthodes est de pouvoir visualiser les données, avec pour objectif que lesobjets qui apparaissent "visuellement" proches soient similaires, dans un sensqui correspond aux connaissances d'un expert du domaine ou qui soit conformeaux informations de supervision. Nous nous plaçons ici dans un contexte semisuperviséoù des connaissances sont ajoutées de façon interactive : ces informationsseront apportées sous forme de contraintes exprimant les écarts entrela représentation observée et les connaissances d'un expert. Nous pourrons parexemple spécifier que deux objets proches dans l'espace d'observation sont enfait peu similaires, ou inversement. La méthode utilisée ici dérive de l'analyseen composantes principales (ACP), à laquelle nous proposons d'intégrer deuxtypes de contraintes. Nous présentons une méthode de résolution qui a été implémentéedans un logiciel offrant une représentation 3D des données et grâceauquel l'utilisateur peut ajouter des contraintes de manière interactive, puis visualiserles modifications induites par ces contraintes. Deux types d'expérimentationsont présentés, reposant respectivement sur un jeu de données synthétiqueet sur des jeux standards : ces tests montrent qu'une représentation de bonnequalité peut être obtenue avec un nombre limité de contraintes ajoutées.
Les systèmes de gestion de flux de données (SGFD) ont été conçusafin de traiter une masse importante de données produites en ligne de façoncontinue. Etant donné que les ressources matérielles ne permettent pas de conservertoute cette volumétrie, seule la partie récente du flux est mémorisée dans lamémoire du SGFD. Ainsi, les requêtes évaluées par ces systèmes ne peuvent porterque sur les données les plus récentes du flux. Par conséquent, les SGFD actuelsne peuvent pas traiter des requêtes qui portent sur des périodes très longues.Nous proposons dans cet article, une approche permettant d'évaluer des requêtesqui portent sur une période plus longue que la mémoire du SGFD. Ces fenêtresfont appels à des données récentes et des données historisées. Nous présentonsle niveau logique de cette approche ainsi que son implantation sous le SGFD Esper.Une technique d'échantillonnage associée à une technique de fenêtre pointde repère est appliquée pour conserver une représentation compacte des donnéesdu flux.
Cet article présente la machine abstraite de graphes de connaissanceKGRAM qui unifie les notions d'homomorphisme de graphe et de calcul de requêtestelles que celles du langage SPARQL sur des données RDF. KGRAMimplémente un ensemble extensible d'expressions qui définissent une famille delangages abstraits d'interrogation de graphes, GRAAL. Nous décrivons la sémantiquedynamique de GRAAL en Sémantique Naturelle et nous présentons lamachine abstraite KGRAM conçue comme l'interprète de GRAAL, qui implémenteles règles de sémantique naturelle du langage.
Le conflit apparaît naturellement lorsque plusieurs sources d'informationsimparfaites sont en jeu. La théorie des fonctions de croyance offre unformalisme adapté à la fusion d'informations dans lequel la considération duconflit est centrale. Ce travail propose de revenir sur les différentes définitionsdu conflit dans cette théorie, tentant de les synthétiser et de montrer commentsupprimer ce conflit, ou bien comment en tenir compte lors de la combinaisondes informations.
La majorité des modèles de langue appliqués à la recherched'information repose sur l'hypothèse d'indépendance des mots.Plus précisément, ces modèles sont estimés à partir des mots simplesapparaissant dans les documents sans considérer les éventuelles relationssémantiques et conceptuelles. Pour pallier ce problème, deux grandesapproches ont été explorées : la première intègre des dépendances d'ordresurfacique entre les mots, et la seconde repose sur l'utilisation des ressourcessémantiques pour capturer les dépendances entre les mots. Le modèle delangue que nous présentons dans cet article s'inscrit dans la seconde approche.Nous proposons d'intégrer les dépendances entre les mots en représentant lesdocuments et les requêtes par les concepts.
XML étant devenu omniprésent et ses techniques de stockage et d'interrogationde plus en plus efficaces, le nombre de cas d'utilisations de ces technologiesaugmente tous les jours. Un sujet prometteur est l'intégration d'XML etdes entrepôts de données, dans laquelle une base de données XML native stockeles données multidimensionnelles et exécute des requêtes OLAP écrites à l'aidedu langage d'interrogation XML XQuery. Ce papier explore les questions quipeuvent survenir lors de l'implémentation d'un tel entrepôt de données XML.
On sait bien que la confiance des régles d'association n'est pas vraimentsatisfaisant comme mésure d'interêt. Nous proposons, au lieu de la substituerpar des autres mésures (soit, en l'employant de façon conjointe a desautres mésures), évaluer la nouveauté de chaque régle par comparaison de saconfiance par rapport á des régles plus fortes qu'on trouve au même ensemblede données. C'est á dire, on considère un seuil “relative” de confiance au lieu duseuil absolute habituel. Cette idée se précise avec la magnitude du “confidenceboost”, mésurant l'increment rélative de confiance prés des régles plus fortes.Nous prouvons que nôtre proposte peut remplacer la “confidence width” et leblockage de régles employés a des publications précedentes.
Les modèles de classification recouvrante ont montré leur capacité àgénérer une organisation plus fidèle aux données tout en conservant la simplificationattendue par une structuration en classes strictes. Par ailleurs les modèlesneuronaux non-supervisés sont plébiscités lorsqu'il s'agit de visualiser la structurede classes.Nous proposons dans cette étude d'étendre les cartes auto-organisatrices traditionnellesaux cartes auto-organisatrices recouvrantes. Nous montrons que cettenouvelle structure apporte des solutions à certaines problématiques spécifiquesen classification recouvrante (nombre de classes, complexité, cohérence des recouvrements).L'algorithme OSOM s'inspire de la version recouvrante des nuées dynamiqueset de l'approche de Kohonen pour générer de telles cartes recouvrantes. Nousdiscutons du modèle proposé d'un point de vue théorique (fonction d'énergieassociée, complexité, ...). Enfin nous présentons un cadre d'évaluation généraleque nous utilisons pour valider les résultats obtenus sur des données réelles.
Pattern mining is one of the fundamental techniques in data mining. As one increases thecomplexity of the pattern types, from subsets, to subsequences, subtrees, and subgraphs, onediscovers potentially more informative patterns. In this talk I will offer a tour of the past andthe present research landscape in this area, and I'll conclude with some thoughts on directionsfor the future
Les règles d'association cycliques vise la découverte de nouvelles relationsentre des produits qui varient d'une façon régulièrement cyclique dans letemps. Dans ce cadre, nous introduisons, un nouvel algorithme nommé PCARcaractérisé par sa performance et son aspect incrémental. L'étude empirique quenous avons menée montre la robustesse et l'efficacité de notre algorithme proposévs. ceux de la littérature
Initialement utilisés pour les systèmes de commande, les règles et motifsgraduels (de la forme “plus une personne est âgée, plus son salaire est élevé”)trouvent de très nombreuses applications, par exemple dans les domainesde la biologie, des données en flots (e.g. issues de réseaux de capteurs), etc. Trèsrécemment, des algorithmes ont été proposés pour extraire automatiquementde tels motifs. Cependant, même si certains d'entre eux ont permis des gainsde performance importants, les algorithmes restent coûteux et ne permettentpas de traiter efficacement les bases de données réelles souvent très volumineuses(en nombre de lignes et/ou nombre d'attributs). Nous proposons doncdans cet article une méthode originale de recherche de ces motifs utilisant lemulti-threading pour exploiter au mieux les multiples coeurs présents dans laplupart des ordinateurs et serveurs actuels. L'efficacité de cette approche est validéepar une étude expérimentale.
PretopoLib est une librairie JAVA implémentant les concepts de laprétopologie. Son intérêt réside dans la représentation de structures de donnéespermettant la manipulation des données par des opérations ensemblistes.Celle-ci offre un cadre de développement d'algorithmes efficaces pour la fouillede données, l'apprentissage topologique et la modélisation des systèmes complexes.
La classification associative est une méthode de prédiction à base derègles issue de la fouille de règles d'association. Cette méthode est particulièrementintéressante car elle recherche de façon exhaustive les règles d'associationpertinentes qu'elle filtre pour ne garder que les règles d'association de classe(celles admettant pour conséquent une modalité de classe), qui sont utiliséescomme classifieur. Les connaissances produites sont ainsi directement interprétables.Des études antérieures montrent les inconvénients de cette approche,qu'il s'agisse de la génération massive de règles non utilisées ou de la mauvaiseprédiction de la classe minoritaire lorsque les classes sont déséquilibrées.Nous proposons une approche originale du type boosting de règles d'associationde classes qui utilise comme classifieur faible une base de règles significativesconstruites par un algorithme de génération d'itemsets fréquents qui se limiteà l'extraction des seules règles de classe significatives et qui prend en comptele déséquilibre des données. Des comparaisons avec d'autres méthodes de classificationassociative montrent que notre approche améliore la précision et lerappel.
Protein Graph Repository (PGR) est i, outil bioinformatique sur le web permettant d'obtenir une nouvelle representation de protéines sous la forme de graphes d'acides aminés, une représentation plus simple et plus facile à étudier par les moyens informatiques et statistiques dédiés aux graphes. La génération des graphes est faite à partir d'un parseur appliqué sur des fichiers des protéines PDB extraits de la base Protein Data Bank et en precisant les parametres et la methode a utiliser. Les graphes generes sont ensuite enregistres dans un entrepot doté de moyens de recherche, de filtrage et de telechargement. PGR peut etre provisoirement consulte à l'adresse http://www.enode-edition.com/pgr/, il est spécialement dédié aux recherches intéressées à l'étude de données protéiques sous la forme de graphes et permettra donc de fournir des échantillons pour des travaux expérimentaux.
Dans ce papier, nous présentons une approche de recherche sémantiquebasée sur les ontologies modulaires et le raisonnement à base de cas(RaPC). Un cas représente l'ensemble des requêtes similaires associées à leursrésultats pertinents. Les ontologies modulaires sont utilisées pour représenteret indexer les cas qui sont construits sur la base des requêtes antérieures et lesrésultats pertinents sélectionnés par les utilisateurs. La similarité à based'ontologies est utilisée pour retrouver les cas similaires à la requête utilisateuret pour fournir à celui-ci des propositions de reformulation de requêtes correspondantsà son besoin. La principale contribution de ce travail réside dans l'utilisationd'un mécanisme de RaPC et une représentation ontologique à deuxfins: l'amélioration de la recherche sémantique et l'enrichissement d'ontologiesà partir de cas. L'expérimentation de l'approche proposée montre que la précisionet le rappel des résultats se sont nettement améliorés.
Inspiré des performances du cerveau humain à identifier les élémentspar la vue, le problème de la réduction de la dimension dans le domaine de laperception visuelle consiste à extraire une quantité réduite des caractéristiquesd'un ensemble d'images afin de les identifier.Ce papier présente une approche innovante bi-directionnelle d'extraction de caractéristiquesd'images fondée sur l'utilisation partielle d'une méthode spatiotemporelle.Les expériences numériques appliquées sur 70000 images représentantdes chiffres écrits à la main ainsi que sur 698 images illustrant un visagesous différentes postures démontrent l'efficacité de notre approche à fortementréduire la dimension tout en conservant les relations intelligibles entre les objetsdes données, permettant même d'obtenir une meilleure classification à partir desversions réduites des images qu'à partir des versions originales
Les flux de séries temporelles sont aujourd'hui produits dans de nombreuxdomaines comme la finance (Zhu et Shasha (2002)), la surveillance deréseaux (Borgne et al. (2007); Airoldi et Faloutsos (2004)), la gestion de l'historiquedes usages fréquents (Giannella et al. (2003); Teng et al. (2003)), etc.Résumer de tels flux est devenu un domaine important qui permet de surveilleret d'enregistrer des informations fiables sur les séries observées. À ce jour, lamajorité des algorithmes de ce domaine s'est concentrée sur des résumés séparéset indépendants (Giannella et al. (2003); Zhu et Shasha (2002); Chen et al.(2002)), en accordant à chaque série le même espace en mémoire. Toutefois, lagestion de cet espace mémoire est un sujet important pour les flux de donnéeset une stratégie accordant la même quantité de mémoire à chaque série n'est pasforcément appropriée. Dans cet article, nous considérons que les séries doiventêtre en compétition vis à vis de l'espace mémoire, selon leur besoin de précision.Ainsi, nous proposons : (1) une stratégie de gestion de l'espace mémoireoptimisée et (2) une nouvelle méthode de résumé des séries temporelles par approximation.Dans ce but, nous observons à la fois l'erreur globale et les erreurslocales. La répartition de la mémoire suit les étapes suivantes : (1) recherchede la séquence la mieux représentée et (2) recherche de la partie à compresseren minimisant l'erreur. Nos expérimentations sur des données réelles montrentl'efficacité et la pertinence de notre approche.
Organiser les données textuelles et en tirer du sens est un défi majeuraujourd'hui. Ainsi, lorsque l'on souhaite analyser un débat en ligne ou unforum de discussion, on voudrait pouvoir rapidement voir quels sont les principauxthèmes abordés et la manière dont la discussion se structure autour d'eux.Pour cela, et parce que un même texte peut être associé à plusieurs thèmes, nousproposons une méthode originale pour regrouper les données textuelles en autorisantles chevauchements et pour nommer chaque groupe de manière lisible.La contribution principale de cet article est une méthode globale qui permet deréaliser toute la chaîne, partant des données textuelles brutes jusqu'à la caractérisationdes groupes à un niveau sémantique qui dépasse le simple ensemble demots.
Appréhender, parcourir des données ou des connaissances reste unetâche difficile en particulier lorsque les utilisateurs sont confrontés à de gros volumesde données. De nombreux travaux se sont intéressés à extraire des points"skylines" comme outil de restitution. La prise en compte des préférences a retenul'attention des travaux les plus récents mais les solutions existantes restenttrès consommatrices en terme de stockage d'informations additionnelles afind'obtenir des délais raisonnables de réponse aux requêtes. Notre proposition,EC2Sky (Efficient computation of compromises), se focalise sur deux points :(1) comment répondre efficacement à des requêtes de type skyline en présencede préférences utilisateurs malgré de gros volumes de données (aussi bien enterme de dimensions que de préférences) ; (2) comment restituer les connaissancesles plus pertinentes en soulignant les compromis associés aux préférencesspécifiées.
Lorsque le volume des données est trop important pour qu'elles soient stockéesdans une base de données, ou lorsque leur fréquence de production est élevée, les Systèmesde Gestion de Flux de Données (SGFD) permettent de capturer des flux d'enregistrementsstructurés et de les interroger à la volée par des requêtes permanentes (exécutées de façoncontinue). Mais les SGFD ne conservent pas l'historique des flux qui est perdu à jamais.Cette communication propose une définition formelle de ce que devrait être un résumé généralistede flux de données. La notion de résumé généraliste est liée à la capacité de répondreà des requêtes variées et de réaliser des tâches variées de fouille de données, en utilisant lerésumé à la place du flux d'origine. Une revue de plusieurs approches de résumés est ensuiteréalisée dans le cadre de cette définition.
Les entrepôts de données occupent aujourd'hui une place centrale dans le processus décisionnel.Outre leur consultation, une des finalités des entrepôts est de servir de socle aux techniquesde fouilles de données. Malheureusement, les approches existantes exploitent peu les particularitésdes entrepôts (multidimensionnalité, hiérarchies et données historiques). Parmi ces méthodes, l'extractionde motifs séquentiels multidimensionnels a récemment été étudiée. Nous montrons dans cetarticle que ces dernières ne tirent pas pleinement profit des hiérarchies et ne découvrent par conséquentqu'une partie seulement des motifs qualitativement intéressants. Nous proposons alors uneméthode d'extraction de motifs séquentiels multidimensionnels basée sur un automate et extrayantde nouveaux motifs. Les différentes expérimentations menées sur des jeux de données synthétiquesattestent des bonnes performances de notre proposition.
La segmentation d'une base client peut avoir différents objectifs etplusieurs segmentation peuvent être utiles pour décrire les clients ou pour s'adapteravec les stratégies commerciales d'une entreprise. Dans ce papier, nous présentonsun schéma expérimental visant à proposer un ensemble de segmentationsalternatives. Ces segmentations sont produites sur des données réelles par latransformation des données initiales, la génération et la sélection de différentessegmentations.
Les techniques d'extraction de connaissances appliquées aux gros volumesde données, issus de l'analyse de puces ADN, permettent de découvrirdes connaissances jusqu'alors inconnues. Or, ces techniques produisent de trèsnombreux résultats, difficilement exploitables par les experts. Nous proposonsun outil dédié à l'accompagnement de ces experts dans l'appropriation et l'exploitationde ces résultats. Cet outil est basé sur trois techniques de visualisation(nuages, systèmes solaire et treemap) qui permettent aux biologistes d'appréhenderde grandes quantités de motifs séquentiels (séquences ordonnées de gènes).
Le projet RECORDS (collaboration entre industriels et université) apour objectif de développer une infrastructure de service sécurisée pour assurerle suivi et l'analyse des conditions d'utilisation d'aéronefs. Chaque aéronefest muni de capteurs. Au cours de chaque mission (vol) les données mesuréessont enregistrées localement. Ces dernières sont par la suite transférées dansune base de données centralisée à des fins d'analyse. Le problème rencontré estla grande quantité de données ainsi enregistrées, ce qui en rend l'exploitationdifficile. Dans cet article, nous proposons des techniques de compression et desimplification de données avec un taux de perte contrôlé. Nos expérimentationsmontrent des gains drastiques en volumétrie avec de très faibles pertes d'informations.Ceci représente une première étape avant d'appliquer des techniquesd'extraction de connaissances.
La plateforme SimTOLE est dédiee a l'evaluation d'algorithmes d'alignement d'ontologies heterogenes et reparties a travers un reseau pair a pair (P2P). Cette plateforme permet de simuler un réseau P2P dans lequel chaque pair dispose de sa propre ontologie ainsi que des outils permettant l'alignement entre l'ontologie locale et une ontologie stockée sur un pair distant. Le developpement de cette plateforme s'inscrit dans le cadre de travaux de recherche étudiant l'impact de la topologie du réseau P2P dans le processus d'inférence de correspondances sémantiques. Durant cette démonstration, la plateforme simTole est présentée puis testée pour illustrer des scénarii montrant comment affiner le processus d'alignement d'ontologies dans un réseau P2P.
Nous proposons dans cet article d'introduire une nouvelle approche pour la classification non supervisée hiérarchique. Notre méthode nommée So-Tree consiste à construire, d'une manière autonome et simultanée, une partition topologique et hiérarchique des données. Chaque ”cluster” de la partition est associé à une cellule d'une grille 2D et est modélisé par un arbre, dont chaque noeud représente une donnée. Nous évaluerons les capacités et les performances de notre approche sur des données aux difficultés variables. Les résultats préliminaires obtenus sont encourageants et prometteurs pour continuer dans cette direction.
Plusieurs aspects pourraient influencer les systèmes d'apprentissage existants.Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d'observationsappartenant à une classe, dépasse fortement celui des observations dans les autresclasses. Dans ce type de cas assez fréquent, le système d'apprentissage a des difficultésau cours de la phase d'entraînement liées au déséquilibre inter-classe. Nous proposonsune méthode de sous-échantillonnage adaptatif pour traiter ce type de bases déséquilibrées.Le processus procède par le sous-échantillonnage des données majoritaires, guidépar les données minoritaires tout au long de la phase d'un apprentissage semi-supervisée.Nous utilisons comme modèle d'apprentissage les cartes auto-organisatrices. L'approcheproposée a été validée sur plusieurs bases de données en utilisant les arbres de décisioncomme classificateur avec une validation croisée. Les résultats expérimentaux ont montrédes performances très prometteuses.
Un grand nombre d'informations qui ont une structure complexeproviennent de diverses sources. Ces informations contiennent des connaissancestrès utiles pour l'aide à la décision. L'Extraction des Connaissances àpartir des Données (ECD), permet d'acquérir des informations pertinentes pourles systèmes interactifs d'aide à la décision (SIAD). Mais, dans plusieurs domaines,les données évoluent d'une manière dynamique et finissent par dépendrede plusieurs dimensions. Les Réseaux Bayésiens dynamiques (RBD)sont des modèles représentant des connaissances incertaines sur des phénomènescomplexes de processus dynamiques. Notre objectif revient à fixer lesmeilleures modèles de connaissances extraites par les RBD et à les utiliserpour la prise de décision dynamique. Ainsi, Nous proposons dans cet articleune démarche pour la mise en place d'un processus d'extraction des connaissancesà partir des données multidimensionnelles et temporelles.
The Graph Visualization Framework Tulip now enjoys 10 years ofuser experience, and has matured its architecture and development cycle. Originallydesigned to interactively navigate large graphs, the framework integratesstate-of-the-art software engineering concepts and good practices. It offers alarge panel of graphical representations (traditional graph drawing as well asalternate representations). Tulip is most useful in a data mining and knowledgediscovery context, allowing users to easily add their own data analysis and computingroutines through its plug-in architecture.
L'objectif de cet article est de montrer que l'utilisation de la règle dedécision du maximum de masse de croyance en lieu et place de celle du maximumde probabilité a posteriori peut permettre de réduire le taux d'erreur en classificationsupervisée. Nous proposons une technique efficace pour extraire, à partird'un vecteur de probabilités a posteriori, un vecteur de masses de croyance surlequel baser la décision par le maximum de masse de croyance. L'applicationde notre méthode dans le domaine de la classification automatique en stades desommeil montre une amélioration des performances pouvant atteindre 80% deréduction du taux d'erreur de classification.
Cet article présente une méthode d'extraction de relations sémantiquespour la construction d'ontologies à partir de corpus de textes. Notre objectif estde proposer une méthode générique, qui soit indépendante du domaine et de lalangue. Elle repose sur une analyse distributionnelle des unités sémantiques ducorpus pour faire émerger des relations sémantiques candidates. Cette méthodene fait aucune hypothèse sur les types de relations recherchées ni sur leur formelinguistique. Il s'agit de regrouper les associations de termes dans des classesqui représentent des relations sémantiques candidates. L'hypothèse sous-jacenteest que les occurrences de ces associations réunies sur la base des éléments decontexte qu'elles partagent ont des chances de relever d'une même relation sémantiqueet que les relations candidates ainsi proposées peuvent aider le travailde conceptualisation de l'ontologue
L'interrogation de bases de données, dont les dimensions ne cessentde croître, se heurte fréquemment au problème de la gestion des réponses pléthoriques.Une des approches envisageables pour réduire l'ensemble des résultatsretournés et le rendre exploitable est de contraindre la requête initiale parl'ajout de nouvelles conditions. L'approche présentée dans cet article s'appuiesur l'identification de liens de corrélation entre prédicats associés aux attributsde la relation concernée. La requête initiale peut ainsi être intensifiée automatiquementou par validation de l'utilisateur à travers l'ajout de prédicats prochessémantiquement de ceux spécifiés.
Dans cet article, nous valorisons et défendons l'idée que les modèles génératifs sont une approche prometteuse pour l'identification de structure de communautés (ISC). Nous proposons un nouveau modèle probabiliste pour l'idenditification de structures de communautés qui utilise le lissage afin de pallier le petit nombre de liens entre les noeuds. Notre modèle étant très sensible aux paramètres de lissage, nous proposons également une méthode basée sur la modularité pour leur estimation. Les résultats expérimentaux obtenus sur 3 jeux de données montrent que notre modèle SPCE est largement meilleur que le modèle PHITS
Les correspondances complexes ont été étudiées à plusieurs reprisesdans le domaine d'alignement de schémas de bases de données. Par contre,dans le domaine d'alignement des ontologies, elles ont été peu étudiées. Nousproposons, dans ce papier, une nouvelle approche de découverte de correspondancescomplexes entre deux ontologies. L'approche proposée est extensionnelle,terminologique et implicative. Dans cette approche, nous utilisons le modèledes règles d'association afin de découvrir des correspondances de typex ⇒ y1 ∧ ... ∧ yn entre deux ontologies.
Dans cet article, une nouvelle stratégie d'apprentissage actif est proposée. Cette stratégie est fondée sur une méthode de discrétisation Bayésienne semi-supervisée. Des expériences comparatives sont menées sur des données unidimensionnelles, l'objectif étant d'estimer la position d'un échelon à partir de données bruitées.
L'acquisition des connaissances en vue de résoudre des problèmesconcernant l'évolution des artefacts, comme elle se doit d'être pratiquée enconception inventive, a des caractéristiques spécifiques. Elle nécessite lasélection de certaines des connaissances qui peuvent induire des évolutions,elle amène à reformuler le problème initial afin de construire un modèleabstrait de l'artefact concerné. La méthode de conception inventive induite parla théorie de la Résolution des Problèmes Inventifs (aussi connue sousl'acronyme TRIZ) n'a pas encore fait l'objet d'une véritable formalisation.Nous proposons ici une ontologie des notions principales des concepts liés àl'acquisition des connaissances dans ce cadre. Cette ontologie, outre laclarification des notions en jeu, est utilisée comme support d'un environnementinformatique d'aide à la mise en oeuvre d'une méthode pour acquérir lesconnaissances et formuler les problèmes.
Le paradigme des flots de données rend impossible la conservation de l'intégralitéde l'historique d'un flot qu'il faut alors résumer. L'extraction d'itemsets fréquentssur des fenêtres temporelles semble tout à fait adaptée mais l'amoncellement des résultatsindépendants rend impossible l'exploitation de ces résultats. Nous proposons une structurebasée sur les hiérarchies des données afin d'unifiant ces résultats. De plus, puisque laplupart des données d'un flot présentent un caractère multidimensionnel, nous intégronsla prise en compte d'itemsets multidimensionnels. Enfin, nous pallions une faiblesse majeuredes Tilted TimeWindows (TTW) en prenant en compte la distribution des données.
Une des tâches classiques en fouille de données spatiales est l'extractionde co-localisations intéressantes dans des données géo-référencées. L'objectifest de trouver des sous-ensembles de caractéristiques booléennes apparaissantfréquemment dans des objets spatiaux voisins. Toutefois, les relations découvertespeuvent ne pas être pertinentes pour les experts, et leur interprétation sousforme textuelle peut être difficile. Nous proposons, dans ce contexte, une nouvelleapproche pour intégrer la connaissance des experts dans la découverte desco-localisations, ainsi qu'une nouvelle représentation visuelle de ces motifs. Unprototype a été développé et intégré dans un SIG. Des expérimentations on étémenées sur des données géologiques réelles, et les résultats validés par un expertdu domaine.
Having effective and efficient methods to get access to desired imagesis essential nowadays with the huge amount of digital images. This paperpresents an analogy between content-based image retrieval and text retrieval.We make this analogy from pixels to letters, patches to words, sets of patchesto phrases, and groups of sets of patches to sentences. To achieve a more accuratedocument matching, more informative features including phrases and sentencesare needed to improve these scenarios. The proposed approach is basedfirst on constructing different visual words using local patch extraction and description.After that, we study different association rules between frequent visualwords in the context of local regions in the image to construct visual phrases,which will be grouped to different sentences.
Wikipedia, devenue l'une des bases de connaissances les plus populaires,pose le problème de la fiabilité de l'information qu'elle dissémine. Nousproposons WikipediaViz, un ensemble de visualisations basé sur un mecanismede collecte et d'agrégation de données d'édition Wikipedia pour aider le lecteurà appréhender la maturité d'un article. Nous listons cinq métriques importantes,déterminées lors de sessions de conception participative avec des experts Wikipediapour juger de la qualité, que nous présentons au lecteur sous forme devisualisations compactes et expressives, dépeignant le profil d'évolution d'un article.Nos études utilisateur ont montré queWikipediaViz réduisait significativementle temps requis pour évaluer la qualité en maintenant une bonne précision
Dans ce papier, nous proposons une approche WCUM (Web Contentand Usage based Approach) permettant de relier l'analyse du contenu d'un siteWeb à l'analyse de l'usage afin de mieux comprendre les comportements de navigationsur le site. L'apport de ce travail réside d'une part dans la propositiond'une approche reliant l'analyse du contenu à l'analyse de l'usage et d'autre partdans l'extension de l'application des méthodes de block clustering, appliquéesgénéralement en bioinformatique, au contexte Web mining afin de profiter deleur pouvoir classificatoire dans la découverte de biclasses homogènes à partird'une partition des instances et une partition des attributs recherchées simultanément.
Personalization paradigm aims at providing users with the most rel-evant content and services according to many factors such as interest center orlocation at the querying time. All this knowledge and requirements are orga-nized into user profiles and contexts. A user profile encompasses metadata de-scribing the user whereas a context groups information about the environmentof interaction between the user and the system. An interesting problem is there-fore to identify which part of the profile is significant in a given context. Thispaper proposes a contextualization service which allows defining relationshipsbetween user preferences and contexts. Further, we propose an approach forthe automatic discovery of these mappings by analyzing user behavior extractedfrom log files.
Cet article présente succinctement le retour d'expérience d'Ardansdans l'implantation de systèmes de gestion de connaissances dans des organisationstrès variées au début de ce 21ème siècle.
La conception de systèmes d'Extraction d'Information (EI) destinésà extraire les réseaux d'interactions géniques décrits dans la littérature scientifiqueest un enjeu important. De tels systèmes nécessitent des représentationssophistiquées, s'appuyant sur des ontologies, afin de définir différentes relationsbiologiques, ainsi que les dépendances récursives qu'elles présentent entre elles.Cependant, l'acquisition de ces dépendances n'est pas possible avec les techniquesd'apprentissage automatique actuellement employées en EI, car ces dernièresne gèrent pas la récursivité. Afin de palier ces limitations, nous présentonsune application à l'EI de la Programmation Logique Inductive, en mode multipredicats.Nos expérimentations, effectuées sur un corpus bactérien, conduisentà un rappel global de 67.7% pour une précision de 75.5%.
Nous présentons dans cet article le système Skin3D qui implémentetous les composants matériels et logiciels nécessaires pour extraire desinformations dans des images 3D de peau. Il s'agit à la fois du matérield'éclairage et d'acquisition à base d'appareils photographiquesstéréoscopiques, d'une méthode de calibration de caméras utilisant lesalgorithmes génétiques, de matériel de réalité virtuelle pour restituer lesimages en stéréoscopie et interagir avec elles, et enfin d'un ensemble defonctionnalités interactives pour annoter les images, partager ces annotations etconstruire un hypermédia 3D. Nous présentons une étude comparativeconcernant la calibration et une application réelle de Skin3D sur des images devisages.
Structures heterogeneity in Web resources is a constant concern inelement retrieval (i.e. tag retrieval in semi-structured documents). In this paperwe present the SHIRI 1 querying approach which allows to reach more or lessstructured document parts without an a priori knowledge on their structuring.
An approach is presented to deal with risk in multiarmed bandit prob-lems. Specifically, the well known exploration-exploitation dilemma is solvedfrom the point of view of maximizing an utility function which measures thedecision maker's attitude towards risk and uncertain outcomes. A link withthe preference theory is thus established. Simulations results are provided forin order to support the main ideas and to compare the approach with existingmethods, with emphasis on the short term (small sample size) behavior of theproposed method.
Dans cet article1, nous considérons des objets pour lesquels nous dis-posons d'une matrice des dissimilarités et nous nous intéressons à leurs liensavec des attributs. Nous nous centrons sur l'analyse de séquences d'états pourlesquelles les dissimilarités sont données par la distance d'édition. Toutefois, lesméthodes développées peuvent être étendues à tout type d'objets et de mesurede dissimilarités. Nous présentons dans un premier temps une généralisation del'analyse de variance (ANOVA) pour évaluer le lien entre des objets non mesu-rables (p. ex. des séquences) avec une variable catégorielle. La clef de l'approcheest d'exprimer la variabilité en termes des seules dissimilarités ce qui nous per-met d'identifier les facteurs qui réduisent le plus la variabilité. Nous présentonsun test statistique général qui peut en être déduit et introduisons une méthodeoriginale de visualisation des résultats pour les séquences d'états. Nous présen-tons ensuite une généralisation de cette analyse au cas de facteurs multiples et endiscutons les apports et les limites, notamment en terme d'interprétation. Fina-lement, nous introduisons une nouvelle méthode de type arbre d'induction quiutilise le test précédent comme critère d'éclatement. La portée des méthodesprésentées est illustrée à l'aide d'une analyse des facteurs discriminant le plusles trajectoires occupationnelles .
Dans cet article, nous appliquons une méthode d'analyse sur desdescriptions de procédures de neurochirurgie dans le but d'en améliorer lacompréhension. La base de données XML utilisée dans cette étude estconstituée de la description de 157 chirurgies de tumeurs. Trois cent vingtdeux variables ont été identifiées et décomposées en variables prédictives(connues avant l'opération) et variables à prédire (décrivant des gesteschirurgicaux). Une analyse factorielle des correspondances (AFC) a étéréalisée sur les variables prédictives, ainsi qu'un arbre de décision basé sur undendrogramme préalablement établi. Six classes principales de variablesprédictives ont ainsi été identifiées. Puis, pour chacune de ces classes, uneanalyse AFC a été réalisée sur les variables à prédire, ainsi qu'un arbre dedécision. Bien que le nombre de cas et le choix des variables constituent unelimite à cette étude, nous avons réussi à prédire certaines caractéristiques liéesaux procédures en partant de données prédictives.
Les activités de négoce de matériaux sont un marché extrêmementcompétitif. Pour les acteurs de ce marché, les méthodes de fouille de donnéespeuvent s'avérer intéressantes en permettant de dégager des gains de rentabilitéimportants. Dans cet article, nous présenterons le retour d'expérience du projetde fouille de données mené chez VM Matériaux pour améliorer le retour surinvestissement d'opérations commerciales. La synergie des informaticiens, dumarketing et des experts métier a permis d'améliorer l'extraction des connais-sances à partir des données de manière à aboutir à la connaissance actionnable laplus pertinente possible et ainsi aider les experts métier à prendre des décisions.
Les systèmes décisionnels reposent sur des bases de données multidimensionnellesqui offrent un cadre adéquat aux analyses OLAP. L'articleprésente un nouvel opérateur OLAP nommé « BLEND » rendant possible desanalyses multigraduelles. Il s'agit de transformer la structuration multidimensionnellelors des interrogations pour analyser les mesures selon des niveauxde granularité différents recombinées comme un même paramètre. Nous menonsune étude des combinaisons valides de l'opération dans le contexte deshiérarchies strictes. Enfin, une première série d'expérimentations implantel'opération dans le contexte R-OLAP en montrant le faible coût de l'opération.
L'analyse sémantique est un nouveau paradigmed'interrogation du Web Sémantique qui a pour objectif d'identifier lesassociations sémantiques reliant des individus décrits dans desontologies OWL-DL. Pour déduire davantage d'associationssémantiques et augmenter la précision de l'analyse, l'informationspatio-temporelle attachée aux ressources doit être prise en compte. Aces fins - et pour combler l'absence actuelle de raisonneurs spatiotemporeldéfini pour les ontologies RDF(S) et OWL-, nous proposonsle système de représentation et d'interrogation d'ontologies spatiotemporellesONTOAST, compatible avec le langage OWL-DL. Nousprésentons les principes de base de l'algorithme de découverted'associations sémantiques entre individus intégré dans ONTOAST.Cet algorithme utilise deux contextes, l'un spatial et l'autre temporelqui permettent d'affiner la recherche. Nous décrivons enfin l'approchemise en oeuvre pour la déduction de connexions spatiales entreindividus.
We develop an efficient algorithm for detecting frequent patterns thatoccur in sequence databases under certain constraints. By combining the useof bit vector representations of sequence databases with association graphs weachieve superior time and low memory usage based on a considerable reductionof the number of candidate patterns.
Dans cet article, nous proposons une nouvelle approche de classifi- cation et de pondération des variables durant un processus d'apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L'apprentissage de ces cartes topologiques est combiné à un mécanisme d'esti- mation de pertinences des différentes variables sous forme de poids d'influence sur la qualité de la classification. Nous proposons deux types de pondérations adaptatives : une pondération des observations et une pondération des distances entre observations. L'apprentissage simultané des pondérations et des prototypes utilisés pour la partition des observations permet d'obtenir une classification op- timisée des données. Un test statistique est ensuite utilisé sur ces pondérations pour élaguer les variables non pertinentes. Ce processus de sélection de variables permet enfin, grâce à la localité des pondérations, d'exhiber un sous ensemble de variables propre à chaque groupe (cluster) offrant ainsi sa caractérisation. L'approche proposée a été validé sur plusieurs bases de données et les résultats expérimentaux ont montré des performances très prometteuses.
L'usage du modèle des règles d'association en fouille de données estlimité par la quantité prohibitive de règles qu'il fournit et nécessite la mise enplace d'une phase de post-traitement efficace afin de cibler les règles les plusutiles. Cet article propose une nouvelle approche intégrant explicitement lesconnaissances du décideur afin de filtrer et cibler les règles intéressantes.
D'importants volumes d'images satellites et aériennes de tout type(panchromatiques, multispectrales, hyperspectrales) sont généréesquotidiennement, et leur classification par des méthodes semi-automatiquesdevient nécessaire. Le logiciel ENVI Feature eXtractionTM (ENVI FXTM) sebase sur une approche « objet » -par opposition à une approche pixelsclassique- et sur des algorithmes innovants, pour la segmentation et laclassification des images de télédétection avec un haut niveau de précision.
Intrusion detection is an important topic dealing with security of in-formation systems. Most successful Intrusion Detection Systems (IDS) rely onsignature detection and need to update their signature as fast as new attacks areemerging. On the other hand, anomaly detection may be utilized for this purpose,but it suffers from a high number of false alarms. Actually, any behaviour whichis significantly different from the usual ones will be considered as dangerousby an anomaly based IDS. Therefore, isolating true intrusions in a set of alarmsis a very challenging task for anomaly based intrusion detection. In this paper,we consider to add a new feature to such isolated behaviours before they can beconsidered as malicious. This feature is based on their possible repetition fromone information system to another. We propose a new outlier mining principleand validate it through a set of experiments.
Nous présentons dans cet article des approches visant à valider desrelations syntaxiques induites de type Verbe-Objet. Ainsi, nous proposons d'u-tiliser dans un premier temps une approche s'appuyant sur des vecteurs séman-tiques déterminés à l'aide d'un thésaurus. La seconde approche emploie unevalidation Web. Nous effectuons des requêtes sur un moteur de recherche asso-ciées à des mesures statistiques afin de déterminer la pertinence d'une relationsyntaxique. Nous proposons enfin de combiner ces deux méthodes. La qualitéde nos approches de validation de relations syntaxiques a été évaluée en utilisantdes courbes ROC.
Le choix d'une mesure pour comparer les données est au coeur destâches de recherche d'information et d'apprentissage automatique. Nous considéronsici ce problème dans le cas où seul l'ordre induit par la mesure importe,et non les valeurs numériques qu'elle fournit : cette situation est caractéristiquedes moteurs de recherche de documents par exemple. Nous étudions dans cecadre les mesures de comparaison classiques pour données numériques, tellesque les distances et les noyaux les plus courants. Nous identifions les mesureséquivalentes, qui induisent toujours le même ordre ; pour les mesures non équivalentes,nous quantifions leur désaccord par des degrés d'équivalence basés surle coefficient de Kendall généralisé. Nous étudions les équivalences et quasiéquivalencesà la fois sur les plans théorique et expérimental.
En classification supervisée, la présence de bruit sur les valeurs desdescripteurs peut avoir des effets désastreux sur la performance des classifieurset donc sur la pertinence des décisions prises au moyen de ces modèles. Traiterce problème lorsque le bruit affecte un attribut classe a été très étudié. Il estplus rare de s'intéresser au bruit sur les autres attributs. C'est notre contextede travail et nous proposons la construction de nouveaux descripteurs robusteslorsque ceux des exemples originaux sont bruités. Les résultats expérimentauxmontrent la valeur ajoutée de cette construction par la comparaison des qualitésobtenues (e.g., précision) lorsque l'on utilise les méthodes de classification àpartir de différentes collections de descripteurs.
Les systèmes d'analyse de flux de données prennent de plus en plusd'importance dans un contexte où les données circulant sur les réseaux sont deplus en plus volumineuses et où la volonté de réagir au plus vite, en temps réel,devient un besoin nécessaire. Afin de permettre des analyses aussi rapides etefficaces que possible, il convient de pouvoir contrôler les flots de données et defocaliser les traitements sur les données pertinentes. Le protocole présenté dansce papier donne au module de traitement des capacités d'action et de contrôle surles observations remontantes en fonction de l'état de l'analyse. La diminutiondes flux résultant de telles focalisations permet des traitements beaucoup plusefficaces, plus pertinents et moins consommateurs de ressources. Les premiersrésultats montrent un réel gain de performances sur nos applications (facteur100).
L'analyse formelle de concepts est une méthode fondée sur la correspondancede Galois et qui permet de construire des hiérarchies de conceptsformels à partir de tableaux de données binaires. Cependant de nombreux problèmesréels abordés en fouille de données comportent des données plus complexes.Afin de traiter de tels problèmes, nous proposons une conversion de donnéesfloues multi-valuées en attributs histogrammes et une correspondance deGalois adaptée à ce format. Notre propos est illustré avec un jeu de donnéessimples. Enfin, nous évaluons brièvement les résultats et les apports de cettecorrespondance de Galois par rapport à l'approche classique
L'exploitation en temps réel de connaissances complexes est un défidans de nombreux domaines, tels que le web sémantique, la simulation ou lessystèmes multi-agents (SMA). Dans le paradigme multi-agents, des travaux ré-cents montrent que les communications multi-parties (CMP) offrent des oppor-tunités intéressantes en termes de réalisme des communications, diffusion desconnaissances et sémantique des actes de langage. Cependant, ces travaux seheurtent à la difficulté de mise en oeuvre des CMP, pour lesquelles les supportsde communications classiques sont insuffisants. Dans cet article, nous propo-sons d'utiliser le formalisme de l'Analyse de Données Symboliques (ADS) pourmodéliser les informations et les besoins des agents. Nous appuyons le routagedes messages sur cette modélisation dans le cadre d'un environnement de com-munication pour les systèmes multi-agents. Afin d'illustrer notre propos, nousutiliserons l'exemple de la gestion des communications dans un poste d'appelsd'urgence. Nous présentons ensuite notre retour d'expérience, et discutons lesperspectives ouvertes par la fertilisation croisée de l'ADS et des SMA.
Nous avons développé un système dont le but est d'obtenir le logicielde commande d'un robot capable de simuler le comportement d'un humainplacé en situation de résolution de problèmes. Nous avons résolu ce problèmedans un environnement psychologique particulier où les comportements humainspeuvent être interprétés comme des ‘observables' de leurs stratégies derésolution de problèmes. Notre solution contient de plus celle d'un autre problème,celui de construire une boucle complète commençant avec le comportementd'un groupe d'humains, son analyse et son interprétation en termesd'observables humaines, la définition des stratégies utilisées par les humains (ycompris celles qui sont inefficaces), l'interprétation des observables humainesen terme de mouvements du robot, la définition de ce qu'est une “stratégie derobot ” en terme de stratégies humaines. La boucle est bouclée avec un langagede programmation capable de programmer ces stratégies robotiques, qui deviennentainsi à leur tour des observables, tout comme l'ont été les stratégieshumaines du début de la boucle. Nous expliquons comment nous avons été capablesdéfinir de façon objective ce que nous appelons une stratégie de robot.Notre solution assemble deux facteurs différents. L'un permet d'éviter lescomportements ‘inhumains' et se fonde sur la moyenne des comportementsdes humains que nous avons observés. L'autre fournit une sorte ‘d'humanité'au robot en lui permettant de dévier de cette moyenne par n fois l'écart typeobservé chez les humains qu'il doit simuler. Il devient alors possible de programmerdes comportements complètements humains.
Prometteuses en terme de prévention, de dépistage, de diagnostic etd'actions thérapeutiques, les puces à ADN mesurent l'intensité des expressionsde plusieurs milliers de gènes. Dans cet article, nous proposons une nouvelleapproche appelée DEMON, pour extraire des motifs séquentiels à partir de don-nées issues des puces ADN et qui utilise des connaissances du domaine.
Pour pallier le problème des attaques sur les réseaux de nouvelles ap-proches de détection d'anomalies ou d'abus ont été proposées ces dernières an-nées et utilisent des signatures d'attaques pour comparer une nouvelle requêteet ainsi déterminer s'il s'agit d'une attaque ou pas. Cependant ces systèmes sontmis à défaut quand la requête n'existe pas dans la base de signature. Généra-lement, ce problème est résolu via une expertise humaine afin de mettre à jourla base de signatures. Toutefois, il arrive fréquemment qu'une attaque ait déjàété détectée dans une autre organisation et il serait utile de pouvoir bénéficier decette connaissance pour enrichir la base de signatures mais cette information estdifficile à obtenir car les organisations ne souhaitent pas forcément indiquer lesattaques qui ont eu lieu sur le site. Dans cet article nous proposons une nouvelleapproche de détection d'intrusion dans un environnement collaboratif sécurisé.Notre approche permet de considérer toute signature décrite sous la forme d'ex-pressions régulières et de garantir qu'aucune information n'est divulguée sur lecontenu des différents sites.
Récemment, le nombre et le volume des bases de données séquentiellesbiologiques ont augmenté de manière considérable. Dans ce contexte, l'identificationdes anomalies est essentielle. La plupart des approches pour lesextraire se fondent sur une base d'apprentissage ne contenant pas d'outlier. Or,dans de très nombreuses applications, les experts ne disposent pas d'une tellebase. De plus, les méthodes existantes demeurent exigeantes en mémoire, cequi les rend souvent impossibles à utiliser. Nous présentons dans cet article unenouvelle approche, basée sur un modèle de Markov d'ordre variable et sur unemesure de similarité entre objets séquentiels. Nous ajoutons aux méthodes existantesun critère d'élagage pour contrôler la taille de l'espace de rechercheet sa qualité, ainsi qu'une inégalité de concentration précise pour la mesure desimilarité, conduisant à une meilleure détection des outliers. Nous démontronsexpérimentalement la validité de notre approche.
Un des problèmes majeurs de la classification non supervisée est ladétermination ou la validation du nombre de classes dans la population. Ce problèmes'étend aux méthodes de bipartitionnement ou block clustering. Dans cepapier, nous nous intéressons à l'algorithme CROKI2 de classification croiséedes tableaux de contingence proposé par Govaert (1983). Notre objectif est dedéterminer le nombre de classes optimal sur les lignes et les colonnes à traversun ensemble de techniques de validation de classes proposés dans la littératurepour les méthodes classiques de classification.
Le but d'un système adaptatif de diagnostic est de surveiller et diagnostiquerun système tout en s'adaptant à son évolution. Ceci passe par l'adaptationdes diagnostiqueurs qui précisent ou enrichissent leur propre modèle poursuivre au mieux le système au fil du temps. Pour détecter les besoins d'adaptation,nous proposons un cadre de diagnostic multi-sources s'inspirant de lafusion d'information. Des connaissances fournies par le concepteur sur des relationsattendues entre les diagnostiqueurs mono-source forment un méta-modèledu diagnostic. La compatibilité des résultats du diagnostic avec le méta-modèleest vérifiée en ligne. Lorsqu'une de ces relations n'est pas vérifiée, les diagnostiqueursconcernés sont modifiés.Nous appliquons cette approche à la conception d'un système adaptatif de détectiond'intrusion à partir d'un flux de connexions à un serveur Web. Les évaluationsdu système mettent en évidence sa capacité à améliorer la détection desintrusions connues et à découvrir de nouveaux types d'attaque.
Cet article propose une méthode reposant sur l'utilisation del'Analyse Formelle de Concepts et des treillis de Galois pour l'analyse desystèmes complexes. Des statistiques reposant sur ces treillis permettent decalculer la distribution conceptuelle des objets classifiés par le treillis.L'expérimentation sur des échantillons de trois réseaux sociaux en ligneillustre l'utilisation de ces statistiques pour la caractérisation globale et pour lefiltrage automatique de ces systèmes.
La RFID (Radio Frequency IDentification) est une technologie avancée d'enregistrementde données spatio-temporelles de traçabilité. L'objectif de ce travail est de transformer cesdonnées spatio-temporelles en connaissances exploitables par les utilisateurs par l'intermé-diaire d'une méthode de classification automatique des données. Les systèmes RFID peuventêtre utilisés pour étudier les sociétés animales, qui sont des systèmes dynamiques complexescaractérisés par beaucoup d'interactions entre les individus (Fresneau et al., 1989). Le cadreapplicatif choisi pour ce travail est l'étude de la structure d'un groupe d'individus en interactionsociale et en particulier la division du travail au sein d'une colonie de fourmis1.La RFID générant d'importants volumes de données, il est nécessaire de développer desméthodes appropriées afin d'en comprendre le sens. Nous proposons pour cela un algorithmede classification topographique non-supervisée pour l'exploration de ce type de données, ca-pable de détecter les groupes d'individus exprimant le même comportement. L'algorithmeDS2L-SOM (Density-based Simultaneous Two-Level - SOM, Cabanes et Bennani (2008)) estcapable de détecter non seulement les groupes définis par une zone vide de donnée, grâce àune estimation de la pertinence des connexions entre référents, mais aussi les groupes défi-nis seulement par une diminution de densité, grâce à une estimation de la densité autour desréférents pendant l'apprentissage.
Cet article présente une nouvelle méthode permettant d'explorer lesprobabilités délivrées par un modèle prédictif de classification. L'augmentationde la probabilité d'occurrence de l'une des classes du problème étudié est analyséeen fonction des variables explicatives prises isolément. La méthode proposéeest posée et illustrée dans un cadre général, puis explicitement dédiée au classifieurBayesien naïf. Son illustration sur les données du challenge PAKDD 2007montre que ce type d'exploration permet de créer des indicateurs performantsd'aide à la vente.
L'extraction de motifs fermés dans des relations binaires a été trèsétudiée. Cependant, de nombreuses relations intéressantes sont n-aires avec n >2 et bruitées (nécessité d'une tolérance aux exceptions). Récemment, ces deuxproblèmes ont été traités indépendamment. Nous introduisons notre propositionpour combiner de telles fonctionnalités au sein d'un même algorithme.
Dans cet article, nous introduisons deux nouveaux concepts : les règlesde corrélation décisionnelles et les vecteurs de contingence. Le premier résulted'un couplage entre les règles de corrélation et les règles de décision. Il permetde mettre en évidence des liens pertinents entre certains ensembles de motifsd'une relation binaire et les valeurs d'un attribut cible (appartenant à cette mêmerelation) en se basant à la fois sur la mesure du Khi-carré et sur le support desmotifs extraits. De par la nature du problème, les algorithmes par niveaux fontque l'extraction des résultats a lieu avec des temps de réponse élevés et uneoccupation mémoire importante. Afin de palier à ces deux inconvénients, nousproposons un algorithme basé sur l'ordre lectique et les vecteurs de contingence.
Les règles graduelles suscitent depuis quelques années un intérêt croissant.De telles règles, de la forme “Plus (moins) A1 et ... plus (moins) An alorsplus (moins) B1 et ... plus (moins) Bn” trouvent application dans de nombreuxdomaines tels que la bioinformatique, les contrôleurs flous, les relevés de capteursou encore les flots de données. Ces bases, souvent composées d'un grandnombre d'attributs, restent un verrou pour l'extraction automatique de connaissances,car elles rendent inefficaces les techniques de fouille habituelles (règlesd'association, clustering...). Dans cet article, nous proposons un algorithme efficaced'extraction d'itemset graduels basé sur l'utilisation des treillis. Nous définissonsformellement les notions de gradualité, ainsi que les algorithmes associés.Des expérimentations menées sur jeux de données synthétiques et réelsmontrent l'intérêt de notre méthode
De par leur caractère structuré, les bases de données relationnellessont des sources précieuses pour la construction automatisée d'ontologies. Ce-pendant, une limite persistante des approches existantes est la production d'onto-logies de structure calquée sur celles des schémas relationnels sources. Dans cetarticle, nous décrivons la méthode RTAXON dont la particularité est d'identifierdes motifs de catégorisation dans les données afin de produire des ontologiesplus structurées, riches en hiérarchies. La méthode formalisée combine analyseclassique du schéma relationnel et fouille des données pour l'identification destructures hiérarchiques.
Nous proposons une approche générique pour la fusion d'informa-tions qui repose sur l'utilisation du modèle des Graphes Conceptuels et l'opé-ration de jointure maximale. Nous validons notre approche par le biais d'ex-périmentations. Ces expérimentations soulignent l'importance des heuristiquesmises en place.
La classification supervisée est une tâche de fouille de données (DataMining), qui consiste à construire un classifieur à partir d'un ensemble d'exemplesétiquetés par des classes (phase d'apprentissage) et ensuite prédire les classesdes nouveaux exemples avec ce classifieur (phase de classification). En classi-fication supervisée, plusieurs approches ont été proposées dont l'approche ba-sée sur l'Analyse de Concepts Formels. L'apprentissage de Concepts Formelsest basé généralement sur la structure mathématique du treillis de Galois (outreillis de concepts). Cependant, la complexité exponentielle de génération d'untreillis de Galois a limité les champs d'application de ces systèmes. Dans cetarticle, nous présentons plusieurs méthodes de classification supervisée baséessur l'Analyse de Concepts Formels. Nous présentons aussi le boosting (dopage)de classifieurs, une technique de classification innovante. Enfin, nous proposonsle boosting de concepts formels, une nouvelle méthode adaptative qui construitseulement une partie du treillis englobant les meilleurs concepts. Ces conceptssont utilisés comme étant des règles de classification. Les résultats expérimen-taux réalisés ont prouvé l'intérêt de la méthode proposée par rapport à cellesexistantes.
La définition du voisinage est un élément central en fouille de données, et de nombreuses définitions ont été avancées. Nous en proposons ici une version statistique issue de notre test de randomisation TourneBool, qui permet, à partir d'un tableau de relations binaires objets décrits/descripteurs, d'établir quelles relations entre descripteurs sont dues au hasard, et lesquelles ne le sont pas, sans faire d'hypothèse sur les lois de répartitions sous-jacentes, c'est à dire en tenant compte de lois de tous types sans avoir besoin de les spécifier. Ce test est basé sur la génération et l'exploitation d'un ensemble de matrices randomisées ayant les mêmes sommes marginales en lignes et colonnes que la matrice d'origine. Après une première application encourageante à un corpus textuel réduit, nous avons opéré le passage à l'échelle adéquat pour traiter des corpus textuels de taille réelle, comme celui des dépêches Reuters. Nous caractérisons le graphe des mots de ce corpus au moyen d'indicateurs classiques comme le coefficient de clustering, la distribution des degrés et de la taille des communautés, etc. Une autre caractéristique de TourneBool est qu'il permet aussi de dégager les "anti liens" entre mots, à savoir les mots qui s'évitent plus qu'attendu du fait du hasard. Le graphe des liens et celui des anti-liens seront caractérisés de la même façon.
The amount of data in free form by far surpasses the structured records in databases in theirnumber. However, standard learning algorithms require observations in the form of vectorsgiven a fixed set of attributes. For texts, there is no such fixed set of attributes. The bag ofwords representation yields vectors with as many components as there are words in a language.Hence, the classification of documents represented as bag of word vectors demands efficientlearning algorithms. The TCat model for the support vector machine (Joachims 2002) offers asound performance estimation for text classification.The huge mass of documents, in principle, offers answers to many questions and is oneof the most important sources of knowledge. However, information retrieval and text classi-fication deliver merely the document, in which the answer can be found by a human reader ?not the answer itself. Hence, information extraction has become an important topic: if we canextract information from text, we can apply standard machine learning to the extracted facts(Craven et al. 1998). First, information extraction has to recognize Named Entities (see, e.g.,Roessler, Morik 2005). Second, relations between these become the nucleus of events. Ex-tracting events from a complex web site with long documents allows to automatically discoverregularities which are otherwise hidden in the mass of sentences (see, e.g., Jungermann, Morik2008).
L'analyse formelle de concepts (AFC, Ganter etWille (1999)) est uneméthode pertinente d'extraction de connaissances à partir de données complexesd'expression de gènes (Blachon et al. (2007), Motameny et al. (2008)). Dans cepapier, nous proposons d'extraire des groupes de gènes partageant un compor-tement similaire montrant des changements “significatifs” à travers divers envi-ronnements biologiques, servant d'hypothèses à la fonction des gènes.
L'objecif de cet article est de faire de la carte auto-organisatrice hiérarchique(GHSOM) un outil utilisable dans le cadre d'une démarche d'analyseexploratoire de données. La visualisation globale est un outil indispensable pourrendre les résultats d'une segmentation intelligibles pour un utilisateur. Nousproposons donc différents outils de visualisation pour la GHSOM équivalents àceux de la SOM.
Nous présentons une approche à ce que nous appelons la « créativitécalculatoire », c'est-à-dire les procédés par lesquels une machine peut fairemontre d'une certaine créativité. Dans cet article, nous montronsessentiellement que la synthèse de prédicats multiples en programmationlogique inductive (ILP) et la synthèse de programmes à partir de spécificationsformelles (SPSF), deux domaines de l'informatique qui s'attaquent à desproblèmes où la notion de créativité est centrale, ont été amenés à ajouter àleur formalisme de base (l'ILP pour l'un, les tableaux de Beth pour l'autre)toute une série d'heuristiques. Cet article présente une collectiond'heuristiques qui sont destinées à fournir au programme une forme decréativité calculatoire. Dans cette présentation, l'accent est plutôt mis sur lesheuristiques de l'ILP mais lorsque cela était possible sans de trop longsdéveloppements, nous avons aussi présenté quelques heuristiques de la SPSF.L'outil indispensable de la créativité calculatoire est ce que nous appelons un‘générateur d'atouts' dont une spécification (forcément informelle commenous le verrons) est fournie comme première conclusion aux exemples décritsdans le corps de l'article.
Ce travail s'inscrit dans la problématique de l'apprentissage non su-pervisé. Dans ce cadre se retrouvent les méthodes de classification automatiquenon paramétriques qui reposent sur l'hypothèse que plus des individus sontproches dans l'espace de représentation, plus ils ont de chances de faire par-tie de la même classe. Cet article propose une nouvelle méthode de ce type quiconsidère la proximité à travers la structure fournie par un graphe de voisinage.
Cet article présente un environnement pour la personnalisation desanalyses OLAP afin de réduire la charge de navigation de l'utilisateur. Nousproposons un modèle de préférences contextuelles qui permet de restituer lesdonnées en fonction des préférences de l'utilisateur et de son contexted'analyse.
Nous présentons une application innovante de la modélisation desconnaissances au domaine des bibliothèques numériques spécialisées. Nous utilisonsla spécification experte de la TEI (Text Encoding Initiative) pour modéliserla connaissance apportée par les chercheurs qui travaillent sur des archivesmanuscrites. Nous montrons les limites de la TEI dans le cas d'une approchediachronique du document, cette dernière impliquant la construction simultanéede structures de données concurrentes. Nous décrivons un modèle qui présentele problème et permet d'envisager des solutions. Enfin, nous justifions les structuresarborescentes sur lesquelles se base ce modèle.
Cet article traite de la problématique de la classification recouvrante(overlapping clustering) et propose deux variantes de l'approche OKM : OKMEDet WOKM. OKMED généralise k-médoïdes au cas recouvrant, il permet d'organiserun ensemble d'individus en classes non-disjointes, à partir d'une matricede distances. La méthode WOKM (Weighted-OKM) étend OKM par une pondérationlocale des classes ; cette variante autorise chaque individu à appartenir àplusieurs classes sur la base de critères différents. Des expérimentations sont réaliséessur une application cible : la classification de textes. Nous montrons alorsque OKMED présente un comportement similaire à OKM pour la métrique euclidienne,et offre la possibilité d'utiliser des métriques plus adaptées et d'obtenirde meilleures performances. Enfin, les résultats obtenus avec WOKM montrentun apport significatif de la pondération locale des classes
L'alignement d'ontologies est une tâche importante dans les systèmesd'intégration puisqu'elle autorise la prise en compte conjointe de ressourcesdécrites par des ontologies différentes, en identifiant des appariements entreconcepts. Avec l'apparition de très grandes ontologies dans des domaines commela médecine ou l'agronomie, les techniques d'alignement, qui mettent souventen oeuvre des calculs complexes, se trouvent face à un défi : passer à l'échelle.Pour relever ce défi, nous proposons dans cet article deux méthodes de partition-nement, conçues pour prendre en compte, le plus tôt possible, l'objectif d'ali-gnement. Ces méthodes permettent de décomposer les deux ontologies à aligneren deux ensembles de blocs de taille limitée et tels que les éléments susceptiblesd'être appariés se retrouvent concentrés dans un ensemble minimal de blocs quiseront effectivement comparés. Les résultats des tests effectuées avec nos deuxméthodes sur différents couples d'ontologies montrent leur efficacité.
There is little doubt that data mining technologies create new challenges in the area of dataprivacy. In this talk, we will review some of the new developments in Privacy-preserving DataMining. In particular, we will discuss techniques in which data mining results can reveal per-sonal data, and how this can be prevented. We will look at the practically interesting situationswhere data to be mined is distributed among several parties. We will mention new applica-tions in which mining spatio-temporal data can lead to identification of personal information.We will argue that methods that effectively protect personal data, while at the same time pre-serve the quality of the data from the data analysis perspective, are some of the principal newchallenges before the field.
RDBToOnto1 est un logiciel extensible qui permet d'élaborer des on-tologies précises à partir de bases de données relationnelles. Le processus sup-porté est largement automatisé, de l'extraction des données à la génération dumodèle de l'ontologie et son instanciation. Pour affiner le résultat, le processuspeut être orienté par des contraintes locales définies interactivement. C'est aussiun cadre facilitant la mise en oeuvre de nouvelles méthodes d'apprentissage.
L'application présentée permet de regrouper les définitions de siglesissues des sciences du vivant par des mesures de proximité lexicale (approcheautomatique) et une intervention de l'expert (approche manuelle).
Face à la grande volumétrie des données générées par les systèmes informatiques,l'hypothèse de les stocker en totalité avant leur interrogation n'estplus possible. Une solution consiste à conserver un résumé de l'historique duflux pour répondre à des requêtes et pour effectuer de la fouille de données.Plusieurs techniques de résumé de flux de données ont été développées, tellesque l'échantillonnage, le clustering, etc. Selon le champ de requête, ces résuméspeuvent être classés en deux catégories: résumés spécialisés et résumés généralistes.Dans ce papier, nous nous intéressons aux résumés généralistes. Notreobjectif est de créer un résumé de bonne qualité, sur toute la période temporelle,qui nous permet de traiter une large panoplie de requêtes. Nous utilisons deuxalgorithmes : CluStream et StreamSamp. L'idée consiste à les combiner afin detirer profit des avantages de chaque algorithme. Pour tester cette approche, nousutilisons un Benchmark de données réelles "KDD_99". Les résultats obtenussont comparés à ceux obtenus séparément par les deux algorithmes.
Parmi lesmesures de similarité classiques utilisables sur des ensemblesfigure l'indice de Jaccard. Dans le cadre de cet article, nous en proposons uneextension pour comparer des ensembles de chaînes de caractères. Cette mesurehybride permet de combiner une distance entre chaînes de caractères, telle que ladistance de Levenstein, et l'indice de Jaccard. Elle est particulièrement adaptéepourmettre en correspondance des champs composés de plusieurs chaînes de caractères,comme par exemple, lorsqu'on se propose d'unifier des noms d'entitésnommées.
L'extraction de motifs séquentiels fréquents dans les datastreams est un enjeu important traité par la communauté des chercheursen fouille de données. Plus encore que pour les bases de données, denombreuses contraintes supplémentaires sont à considérer de par la na-ture intrinsèque des streams. Dans cet article, nous proposons un nouvelalgorithme en une passe : SPAMS, basé sur la construction incrémentale,avec une granularité très fine par transaction, d'un automate appelé SPA,permettant l'extraction des motifs séquentiels dans les streams. L'infor-mation du stream est apprise à la volée, au fur et à mesure de l'insertionde nouvelles transactions, sans pré-traitement a priori. Les résultats ex-périmentaux obtenus montrent la pertinence de la structure utilisée ainsique l'efficience de notre algorithme appliqué à différents jeux de données.
Nous présentons un nouvel algorithme incrémental et parallèle deSéparateur à Vaste Marge (SVM ou Support Vector Machine) pour laclassification de très grands ensembles de données en utilisant le processeur dela carte graphique (GPUs, Graphics Processing Units). Les SVMs et lesméthodes de noyaux permettent de construire des modèles avec une bonneprécision mais ils nécessitent habituellement la résolution d'un programmequadratique ce qui requiert une grande quantité de mémoire et un long tempsd'exécution pour les ensembles de données de taille importante. Nousprésentons une extension de l'algorithme de Least Squares SVM (LS-SVM)proposé par Suykens et Vandewalle pour obtenir un algorithme incrémental etparallèle. Le nouvel algorithme est exécuté sur le processeur graphique pourobtenir une bonne performance à faible coût. Les résultats numériques sur lesensembles de données de l'UCI et Delve montrent que notre algorithmeincrémental et parallèle est environ 70 fois plus rapide sur GPU que sur CPUet significativement plus rapide (plus de 1000 fois) que les algorithmesstandards tels que LibSVM, SVM-perf et CB-SVM.
TAAABLE is a textual case-based reasoning system that, according to requested/forbiddeningredients, dish types and/or dish origins, retrieves cooking recipes. If no recipe satisifies theconstraints, TAAABLE adapts existing recipes by replacing some ingredients by other ones.
Les réseaux dynamiques soulèvent de nouveaux problèmes d'analyses.Un outils efficace d'analyse doit non seulement permettre de décomposerces réseaux en groupes d'éléments similaires mais il doit aussi permettre la détectionde changements dans le réseau. Nous présentons dans cet article une nouvelleapproche pour l'analyse de tels réseaux. Cette technique est basée sur unalgorithme de décomposition de graphe en groupes chevauchants (ou chevauchement).La complexité de notre algorithme est O(|E| · deg2max +|V | · log(|V |))).La faible sensibilité de cet algorithme aux changements structuraux du réseaupermet d'en détecter les modifications majeures au cours du temps.
Nous présentons dans cet article un nouvel algorithme automatiquepour l'apprentissage d'arbres de décision. Nous abordons le problème selon uneapproche Bayésienne en proposant, sans aucun paramètre, une expression ana-lytique de la probabilité d'un arbre connaissant les données. Nous transformonsle problème de construction de l'arbre en un problème d'optimisation : nousrecherchons dans l'espace des arbres de décision, l'arbre optimum au sens ducritère Bayésien ainsi défini, c'est à dire l'arbre maximum a posteriori (MAP).L'optimisation est effectuée en exploitant une heuristique de pré-élagage. Desexpérimentations comparatives sur trente bases de l'UCI montrent que notreméthode obtient des performances prédictives proches de celles de l'état de l'arttout en étant beaucoup moins complexes.
L'algorithme des forêts aléatoires proposé par Breiman permet d'ob-tenir de bons résultats en fouille de données comparativement à de nombreusesapproches. Cependant, en n'utilisant qu'un seul attribut parmi un sous-ensembled'attributs tiré aléatoirement pour séparer les individus à chaque niveau de l'arbre,cet algorithme perd de l'information. Ceci est particulièrement pénalisant avecles ensembles de données en grandes dimensions où il peut exister de nom-breuses dépendances entre attributs. Nous présentons un nouvel algorithme deforêts aléatoires d'arbres obliques obtenus par des séparateurs à vaste marge(SVM). La comparaison des performances de notre algorithme avec celles del'algorithme de forêts aléatoires des arbres de décision C4.5 et de l'algorithmeSVM montre un avantage significatif de notre proposition.
Le domaine « Qualité, Hygiène, Sécurité et Environnement »(QHSE) représente à l'heure actuelle un vecteur de progrès majeur pourl'industrie européenne. Le prototype « Semantic Quality Environment » (SQE)introduit dans cet article vise à démontrer la validité d'une architecturesémantique cross-lingue vouée à la collaboration multi-métiers et multilingue,dans le cadre d'un système banalisé de gestion de contenu d'entreprise dédié àl'industrie navale européenne.
Dans ce papier, nous présentons une méthode de classification super-visée sans paramètre permettant d'attaquer les grandes volumétries. La méthodeest basée sur des estimateurs de densités univariés optimaux au sens de Bayes,sur un classifieur Bayesien naïf amélioré par une sélection de variables et unmoyennage de modèles exploitant un lissage logarithmique de la distribution aposteriori des modèles. Nous analysons en particulier la complexité algorith-mique de la méthode et montrons comment elle permet d'analyser des bases dedonnées nettement plus volumineuses que la mémoire vive disponible. Nous pré-sentons enfin les résultats obtenu lors du récent PASCAL Large Scale LearningChallenge, où notre méthode a obtenu des performances prédictives de premierplan avec des temps de calcul raisonnables.
La segmentation des images en régions est un problème crucial pourl'analyse et la compréhension des images. Parmi les approches existantes pourrésoudre ce problème, la classification non supervisée est fréquemment em-ployée lors d'une première étape pour réaliser un partitionnement de l'espacedes intensités des pixels (qu'il s'agisse de niveaux de gris, de couleurs ou de ré-ponses spectrales). Puisqu'elle ignore complètement les notions de voisinagedes pixels, une seconde étape d'analyse spatiale (étiquetage en composantesconnexes par exemple) est ensuite nécessaire pour identifier les régions issuesde la segmentation. La non prise en compte de l'information spatiale est une li-mite majeure de ce type d'approche, ce qui a motivé de nombreux travaux où laclassification est couplée à d'autres techniques pour s'affranchir de ce problème.Dans cet article, nous proposons une nouvelle formulation de la classificationnon supervisée permettant d'effectuer la segmentation des images sans faire ap-pel à des techniques supplémentaires. Plus précisément, nous élaborons une mé-thode itérative de type k-means où les données à partitionner sont les pixels eux-mêmes (et non plus leurs intensités) et où les distances des points aux centresdes classes ne sont plus euclidiennes mais topographiques. La segmentation estalors un processus itératif, et à chaque itération, les classes obtenues peuvent êtreassimilées à des zones d'influence dans le contexte de la morphologie mathéma-tique. Ce parallèle nous permet de bénéficier des algorithmes efficaces proposésdans ce domaine (tels que ceux basés sur les files d'attente), tout en y ajoutantle caractère itératif des méthodes de classification non supervisée considéréesici. Nous illustrons finalement le potentiel de l'approche proposée par quelquesrésultats préliminaires de segmentation sur des images artificielles.
Nous nous intéressons à l'utilisation de l'Analyse Factorielle des Cor-respondances (AFC) pour la recherche d'images par le contenu dans une base dedonnées d'images volumineuse. Nous adaptons l'AFC, méthode originellementdéveloppée pour l'Analyse des Données Textuelles (ADT), aux images en utili-sant des descripteurs locaux SIFT. En ADT, l'AFC permet de réduire le nombrede dimensions et de trouver des thèmes. Ici, l'AFC nous permettra de limiter lenombre d'images à examiner au cours de la recherche afin d'accélérer le tempsde réponse pour une requête. Pour traiter de grandes bases d'images, nous pro-posons une version incrémentale de l'algorithme AFC. Ce nouvel algorithmedécoupe une base d'images en blocs et les charge dans la mémoire l'un aprèsl'autre. Nous présentons aussi l'intégration des informations contextuelles (e.g.la Mesure de Dissimilarité Contextuelle (Jegou et al., 2007)) dans notre structurede recherche d'images. Cela améliore considérablement la précision. Nous ex-ploitons cette intégration dans deux axes: (i) hors ligne (la structure de voisinageest corrigée hors ligne) et (ii) à la volée (la structure de voisinage des images estcorrigée au cours de la recherche sur un petit ensemble d'images).
Dans le domaine des flux des données, la prise en compte du tempss'avère nécessaire pour l'analyse de ces données car leur distribution sous-jacentepeut changer au cours du temps. Un exemple typique concerne les modèles desprofils de navigation des internautes. Notre objectif est d'analyser l'évolutionde ces profils, celle-ci peut être liée au changement d'effectifs ou aux déplacementde clusters au cours du temps. Afin d'analyser la validité de notre approche,nous mettons en place uneméthodologie pour la simulation des données d'usageà partir de laquelle il est possible de contrôler l'occurrence des changements
Nous nous intéressons dans cet article aux représentations des relationsspatiales pour l'extraction d'information et la modélisation des donnéesvisuelles, en particulier dans le contexte de la catégorisation d'images. Nousmontrons comment la prise en compte d'une relation spatiale entre deux élémentsentraîne l'apparition d'une information supplémentaire entre ces élémentset le reste de l'ensemble à modéliser, ce qui est rarement exploité explicitement.Une représentation floue des relations dans unmodèle graphique est bien adaptéepour les algorithmes d'apprentissage utilisés actuellement et permet d'intégrerce type d'information complémentaire qui concerne l'absence d'une interactionplutôt que sa présence. Nous tentons d'évaluer les bénéfices de cette approchesur un problème de traitement d'images.
To date the availability of spatial data is increasing together withtechniques and methods adopted in geographical analysis. Despite this tendency,classifying in a sharp way every part of the city is more and more complicated.This is due to the growth of city complexity. Rough Set theory maybe a useful method to employ in combining great amounts of data in order tobuild complex knowledge about territory. It represents a different mathematicalapproach to uncertainty by capturing the indiscernibility. Two differentphenomena can be indiscernible in some contexts and classified in the sameway when combining available information about them. Several experiencesexist in the use of Rough Set theory in data mining, knowledge analysis andapproximate pattern classification, but the spatial component lacks in all theseresearch streams.This paper aims to the use of Rough Set methods in geographical analyses.This approach has been applied in a case of study, comparing the resultsachieved by means of both Map Algebra technique and Spatial Rough set. Thestudy case area, Potenza Province, is particularly suitable for the application ofthis theory, because it includes 100 municipalities with a different number ofinhabitants and morphologic features.
Les algorithmes de boosting de Newton Support Vector Machine (NSVM), Proximal Support Vector Machine (PSVM) et Least-Squares Support Vector Machine (LS-SVM) que nous présentons visent à la classification de très grands ensembles de données sur des machines standard. Nous présentons une extension des algorithmes de NSVM, PSVM et LS-SVM, pour construire des algorithmes de boosting. A cette fin, nous avons utilisé un terme de régularisation de Tikhonov et le théorème Sherman-Morrison- Woodbury pour adapter ces algorithmes au traitement d'ensembles de données ayant un grand nombre de dimensions. Nous les avons ensuite étendus par construction d'algorithmes de boosting de NSVM, PSVM et LS-SVM afin de traiter des données ayant simultanément un grand nombre d'individus et de dimensions. Les performances des algorithmes sont évaluées sur des grands ensembles de données de l'UCI comme Adult, KDDCup 1999, Forest Covertype, Reuters-21578 et RCV1-binary sur une machine standard (PC-P4, 2,4 GHz, 1024 Mo RAM).
Les sites communautaires sont un endroit privilégié pour s'exprimer et publier des opinions. Le site www.flixster.com est un exemple de site participatif sur lequel se rassemblent plus de 20 millions de cinéphiles qui partagent des commentaires sur les films qu'ils ont ou non aimés. Explorer les contenus autoproduits est un challenge pour qui veut comprendre les attentes des internautes. Par une méthode d'apprentissage non supervisée, nous montrerons qu'il est possible de mieux comprendre le vocabulaire utilisé pour décrire des opinions. En particulier, grâce à une méthode de co-clustering, nous montrerons qu'un rapprochement peut être fait entre des films particuliers sur la base de l'usage d'un vocabulaire particulier. L'analyse des résultats peut conduire à retrouver une certaine typologie de films ou encore des rapprochements entre films. Cette étude peut être complémentaire avec des analyses linguistiques des corpus, ou encore être exploitée dans un contexte applicatif de recommandation de contenus multimédias.
Cet article propose une méthode d'alignement automatique de définitions destinée à améliorer la fusion entre des terminologies spécialisées et un vocabulaire médical généraliste par un classifieur de type SVM (Support Vecteur Machine) et une représentation compacte et pertinente d'un couple de définitions par concaténation d'un ensemble de mesures de similarité, afin de tenir compte de leur complémentarité, auquelle nous ajoutons les longueurs de chacune des définitions. Trois niveaux syntaxiques ont été investigués. Le modèle fondé sur un apprentissage à partir des groupes nominaux de type Noms-Adjectifs aboutit aux meilleures performances.
Quotidiennement, plusieurs agences de presse publient des milliers d'articles contenant plusieurs événements de toutes sortes (politiques, économiques, culturels, etc.). Les preneurs de décision, se trouvent face à ce grand nombre d'événements dont seulement quelques uns les concernent. Le traitement automatique de tels événements devient de plus en plus nécessaires. Pour cela, nous proposons une approche, qui se base sur l'apprentissage automatique, et qui permet d'annoter les articles de presse pour générer un résumé automatique contenant les principaux événements. Nous avons validé notre approche par le développement du système "AnnotEv".
La recherche dans le domaine de la reconnaissance de visages profite des solutions obtenues dans le domaine de l'apprentissage automatique. Le problème de classification de visages peut être considéré comme un problème d'apprentissage supervisé où les exemples d'apprentissage sont les visages étiquetés. Notre article introduit dans ce contexte une nouvelle approche hybride de classification qui utilise le paradigme d'apprentissage automatique supervisé. Ainsi, en se basant sur le fondement mathématique des treillis de Galois et leur utilisation pour la classification supervisée, nous proposons un nouvel algorithme de classification baptisé CITREC ainsi que son application pour la reconnaissance de visages. L'originalité de notre approche provient de la combinaison de l'analyse formelle de concepts avec les approches de classification supervisée à inférence bayésienne ou à plus proches voisins. Une validation expérimentale est décrite sur un benchmark du domaine de la reconnaissance de visages.
Cet article porte sur l'analyse de parcours de vie représentés sous forme de séquences d'événements. Plus spécifiquement, on examine les possibilités d'exploiter des codages de type n-grammes de ces séquences pour en extraire des connaissances. En fait, compte tenu de la simultanéité de certains événements, une procédure stricte de n-grammes comme on peut par exemple l'appliquer sur des textes, n'est pas applicable ici. Nous discutons diverses alternatives qui s'avèrent finalement plus proches de la fouille de séquences fréquentes. Les concepts discutés sont illustrés sur des données de l'enquête biographique rétrospective réalisée par le Panel suisse de ménages en 2002. Enfin, on précisera sur quels aspects l'approche proposée peut apporter un éclairage complémentaire utile par rapport à d'autres techniques plus classiques d'analyse exploratoire de parcours de vie.
Nous présentons dans cet article un système informatique pour le traitement des plaintes en lien avec des situations de pollution domestique écrites en français. Après la construction automatique d'une base de scenarii de plaintes, un module de recherche apparie la plainte à traiter à la thématique de la plainte la plus similaire. Enfin, il s'agit d'assigner au problème courant la solution correspondante au scénario de pollution auquel est affectée la plainte pertinente. Nous montrons ici l'intérêt de l'introduction dans l'appariement des textes de l'aspect sémantique géré par un dictionnaire généraliste de synonymes et en quoi il n'est pas réalisable pour notre problème particulier de construire une ontologie.
Ce papier présente un modèle génératif et son estimation permettant la visualisation de données binaires. Notre approche est basée sur un modèle de mélange de lois de Bernoulli par blocs et les cartes de Kohonen probabilistes. La méthode obtenue se montre à la fois parcimonieuse et pertinente en pratique.
Nautilus est un logiciel d'analyse de bases de données. Le but de cette application est de généraliser l'utilisation de données clients au sein des entreprises. Elle facilite l'accès aux données en permettant de visualiser et manipuler les données du SGBD sous forme de concepts métiers. Elle inclut un générateur de requêtes SQL et un outil de gestion de tâches désignées pour l'agrégation de grands volumes de données. Le principe de fonctionnement est basé sur l'enchaînement de phases permettant la création des données d'analyse : importation des métadonnées du SGBD ; construction d'un dictionnaire de des concepts métiers ; spécification des champs à calculer. Les différents traitements tels que les jointures et l'alimentation des tables sont optimisés afin de rendre l'application utilisable sur des SGBD d'entreprise
Ce travail s'inscrit dans le cadre de l'étude de la division cellulaire assurant la prolifération des cellules. Une meilleure compréhension de ce phénomène biologique nécessite l'identification des gènes caractérisant chaque phase du cycle cellulaire. Le procédé d'identification est généralement basé sur un ensemble de gènes dits gènes de référence, sélectionnés expérimentalement et considérés comme caractérisant les phases du cycle cellulaire. Les niveaux d'expression des gènes étudiés sont mesurés durant le cycle de la division cellulaire et permettent de construire des profils d'expression. Chaque gène étudié est affecté à la phase du cycle cellulaire correspondant au groupe de gènes de référence le plus similaire. Cette approche classique souffre de deux limites. D'une part les mesures de proximité les plus couramment utilisés entre profils d'expression de gènes sont basées sur les écarts en valeurs sans tenir compte de la forme des profils. D'autre part, dans la littérature, il n'y a pas consensus quant à l'ensemble des gènes de référence à considérer. Dans cet article, notre but est de proposer une classification adaptative, basée sur un indice de dissimilarité incluant les proximités en valeurs et en forme des profils d'expression de gènes, permettant d'identifier les phases d'expression des gènes étudiés, et de présenter un nouvel ensemble de gènes de référence validé par une connaissance biologique.
Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, les méthodes de type cluster ensembles ont été l'objet d'une attention soutenue. Il s'agit d'agréger plusieurs clusterings d'un jeu de données afin d'obtenir un clustering "moyen". Les clusterings individuels peuvent être le résultat de différents algorithmes. Ces méthodes sont particulièrement utiles lorsque la dimensionalité des données ne permet pas aux méthodes classiques basées sur la distance et/ou la densité de fonctionner correctement. Dans cet article, nous proposons une méthode pour obtenir des clusterings individuels à faible coût, à partir de projections partielles du jeu de données. Nous évaluons empiriquement notre méthode et la comparons à trois méthodes de différents types. Nous constatons qu'elle donne des résultats sensiblement supérieurs aux autres.
Dans cet article, nous proposons une approche qui combine les méthodes statistiques avancées et la flexibilité des approches interactives manuelles en clustering visuel. Nous présentons l'interface Semi-Supervised Visual Clustering (SSVC). Sa contribution principale est l'apprentissage d'une métrique de projection optimale pour la visualisation en coordonnées en étoiles ainsi que pour l'extension 3D que nous avons développée. La métrique de distance de projection est apprise à partir des retours de l'utilisateur soit en termes de similarité/ dissimilarité entre les items, soit par l'annotation directe. L'interface SSVC permet, de plus, une utilisation hybride dans laquelle un ensemble de paramètres sont manuellement fixés par l'utilisateur tandis que les autres paramètres sont déterminés par un algorithme de distance optimale.
Dans de nombreuses applications, une co-classification est plus facile à interpréter qu'une classification mono-dimensionnelle. Il s'agit de calculer une bi-partition ou collection de co-clusters : chaque co-cluster est un groupe d'objets associé à un groupe d'attributs et les interprétations peuvent s'appuyer naturellement sur ces associations. Pour exploiter la connaissance du domaine et ainsi améliorer la pertinence des partitions, plusieurs méthodes de classification sous contraintes ont été proposées pour le cas mono-dimensionnel, e.g., l'exploitation de contraintes "must-link" et "cannot-link". Nous considérons ici la co-classification sous contraintes avec la gestion de telles contraintes étendues aux dimensions des objets et des attributs, mais aussi l'expression de contraintes de contiguité dans le cas de domaines ordonnés. Nous proposons un algorithme itératif qui minimise la somme des résidus quadratiques et permet l'exploitation active des contraintes spécifiées par les analystes. Nous montrons la valeur ajoutée de ce type d'extraction sur deux applications en analyse du transcriptome.
Les avancées technologiques récentes du Web et du sans fil,conjuguées au succès des applications spatialisées grand public, sont àl'origine d'un accès accru aux systèmes d'information spatio-temporelle(SIST) par une grande diversité d'utilisateurs, munis des dispositifs d'accèset dans des contextes d'utilisation variés. Adapter ces systèmes à l'utilisateurdevient donc une nécessité, un gage d'utilisabilité et de pérennité. Cet articleprésente une approche générique pour la conception et la génération desystèmes d'information spatio-temporelle adaptés à l'utilisateur, appeléASTIS. ASTIS offre des modalités générales de mise en oeuvre del'adaptation à l'utilisateur, visant tant le contenu que la présentation desapplications. Elle permet aux concepteurs d'intégrer ces modalitésd'adaptation dans des applications traitant des données spatio-temporelles.Afin de définir les besoins et types d'adaptation propres à leur application, ilsuffit aux concepteurs de créer des modèles conceptuels, par spécialisation etinstanciation des modèles offerts par notre architecture
The exploration of large video data is a task which is now possible because of the advances made on object detection and tracking. Data mining techniques such as clustering are typically employed. Such techniques have mainly been applied for segmentation/indexation of video but knowledge extraction of the activity contained in the video has been only partially addressed. In this paper we present how video information is processed with the ultimate aim to achieve knowledge discovery of people activity in the video. First, objects of interest are detected in real time. Then, in an off-line process, we aim to perform knowledge discovery at two stages: 1) finding the main trajectory patterns of people in the video. 2) finding patterns of interaction between people and contextual objects in the scene. An agglomerative hierarchical clustering is employed at each stage. We present results obtained on real videos of the Torino metro (Italy).
Les travaux autour de l'extraction de motifs séquentiels se sont particulièrement focalisés sur la définition d'approches efficaces pour extraire, en fonction d'une fréquence d'apparition, des corrélations entre des éléments dans des séquences. Même si ce critère de fréquence est déterminant, le décideur est également de plus en plus intéressé par des connaissances qui sont représentatives d'un comportement inattendu dans ces données (erreurs dans les données, fraudes, nouvelles niches, ... ). Dans cet article, nous introduisons le problème de la détection de motifs séquentiels inattendus par rapport aux croyances du domaine. Nous proposons l'approche USER dont l'objectif est d'extraire les motifs séquentiels et les règles inattendues dans une base de séquences.
Dans le contexte de la gestion de flux de données, les données entrent dans le système à leur rythme. Des mécanismes de délestage sont à mettre en place pour qu'un tel système puisse faire face aux situations où le débit des données dépasse ses capacités de traitement. Le lien entre réduction de la charge et dégradation de la qualité des résultats doit alors être quantifié. Dans cet article, nous nous plaçons dans le cas où le système est un cube de données, dont la structure est connue a priori, alimenté par un flux de données. Nous proposons un mécanisme de délestage pour les situations de surcharge et quantifions la dégradation de la qualité des résultats dans les cellules du cube. Nous exploitons l'inégalité de Hoeffding pour obtenir une borne probabiliste sur l'écart entre la valeur attendue et la valeur estimée.
Une tâche importante en analyse des données est la compréhension de comportements inattendus ou atypiques de groupes d'individus. Quelles sont les catégories d'individus qui gagnent de particulièrement forts salaires ou au contraire, quelles sont celles qui ont de très faibles salaires ? Nous présentons le problème d'extraction de tels groupes atypiques vis-à-vis d'une variable cible quantitative, comme par exemple la variable "salaire", et plus particulièrement pour les faibles et fortes valeurs d'un intervalle déterminé par l'utilisateur. Il s'agit donc de rechercher des conjonctions de variables dont la distribution diffère significativement de celle de l'ensemble d'apprentissage pour les faibles et fortes valeurs de l'intervalle de cette variable cible. Une adaptation d'une mesure statistique existante, l'intensité d'inclination, nous permet de découvrir de tels groupes atypiques. Cette mesure nous libère de l'étape de transformation des variables quantitatives, à savoir l'étape de discrétisation suivie d'un codage disjonctif complet. Nous proposons donc un algorithme d'extraction de tels groupes avec des règles d'élagage pour réduire la complexité du problème. Cet algorithme a été développé et intégré au logiciel d'extraction de connaissances WEKA. Nous terminons par un exemple d'extraction sur la base de données IPUMS du bureau de recensement américain.
Les arbres de décision sont largement utilisés pour générer des classificateurs à partir d'un ensemble de données. Le processus de construction est une partitionnement récursif de l'ensemble d'apprentissage. Dans ce contexte, les attributs continus sont discrétisés. Il s'agit alors, pour chaque variable à discrétiser de trouver l'ensemble des points de coupure. Dans ce papier nous montrons que la recherche des ces points de coupure par une méthode de ré-échantillonnage, comme le BOOTSTRAP conduit à des meilleurs résultats. Nous avons testé cette approche avec les méthodes principales de discrétisation comme MDLPC, FUSBIN, FUSINTER, CONTRAST, Chi-Merge et les résultats sont systématiquement meilleurs en utilisant le bootstrap. Nous exposons ces principaux résultats et ouvrons de nouvelles pistes pour la construction d'arbres de décision.
Dans nombre d'applications, les données présentent un déséquilibre entre les classes. La prédiction est alors souvent détériorée pour la classe minoritaire. Pour contourner cela, nous proposons un échantillonnage guidé, lors des itérations successives d'une forêt aléatoire, par les besoins de l'utilisateur.
Depuis quelques années, la communauté fouille de données s'est intéressée à la problématique de l'extraction de motifs séquentiels à partir de grandes bases de données en considérant comme hypothèse que les données pouvaient être chargées en mémoire centrale. Cependant, cette hypothèse est mise en défaut lorsque les bases manipulées sont trop volumineuses. Dans cet article, nous étudions une technique d'échantillonnage basée sur des réservoirs et montrons comment cette dernière est particulièrement bien adaptée pour résumer de gros volumes de données. Nous nous intéressons ensuite à la problématique plus récente de la fouille sur des données disponibles sous la forme d'un flot continu et éventuellement infini ("data stream"). Nous étendons l'approche d'échantillonnage à ce nouveau contexte et montrons que nous sommes à même d'extraire des motifs séquentiels de flots tout en garantissant les taux d'erreurs sur les résultats. Les différentes expérimentations menées confirment nos résultats théoriques.
Ces dernières années, sont apparues de nombreuses applications, utilisant des données potentiellement infinies, provenant de façon continue de capteurs distribués. On retrouve ces capteurs dans des domaines aussi divers que la météorologie (établir des prévisions), le domaine militaire (surveiller des zones sensibles), l'analyse des consommations électriques (transmettre des alertes en cas de consommation anormale),... Pour faire face à la volumétrie et au taux d'arrivée des flux de données, des traitements sont effectués 'à la volée' sur les flux. En particulier, si le système n'est pas assez rapide pour traiter toutes les données d'un flux, il est possible de construire des résumés de l'information. Cette communication a pour objectif de faire un premier point sur nos travaux d'échantillonnage dans un environnement de flux de données fortement distribués. Notre approche est basée sur la théorie des sondages, l'analyse des données fonctionnelles et la gestion de flux de données. Cette approche sera illustrée par un cas réel : celui des mesures de consommations électriques
Recently, tagging systems are widely used on the Internet. On desktops, tags are also supported by some semantic file systems and desktop search tools. In this paper, we focus on personal tag organization to enhance personal file retrieval. Our approach is based on the notion of context. A context is a set of tags assigned to a file by a user. Based on tag popularity and relationships between tags, our proposed algorithm creates a hierarchy of contexts on which a user can navigate to retrieve files in an effective manner.
La classification recouvrante désigne les techniques de regroupements de données en classes pouvant s'intersecter. Particulièrement adaptés à des domaines d'application actuels (e.g. Recherche d'Information, Bioinformatique) quelques modèles théoriques de classification recouvrante ont été proposés très récemment parmi lesquels le modèle MOC (Banerjee et al. (2005a)) utilisant les modèles de mélanges et l'approche OKM (Cleuziou (2007)) consistant à généraliser l'algorithme des k-moyennes. La présente étude vise d'une part à étudier les limites théoriques et pratiques de ces deux modèles, et d'autre part à proposer une formulation de l'approche OKM en terme de modèles de mélanges gaussiens, laissant ainsi entrevoir des perspectives intéressantes quant à la variabilité des schémas de recouvrements envisageables.
Cet article présente une méthode efficace pour l'extraction de règles d'influence quantitatives positives et négatives. Ces règles d'influence introduisent une nouvelle sémantique qui vise à faciliter l'analyse d'un volume important de données. Cette sémantique fixe la direction de la règle entre deux variables en positionnant, au préalable, l'une comme étant l'influent et l'autre comme étant l'influé. Elle permet, de ce fait, d'exprimer la nature de l'influence : positive, en maximisant le nombre d'éléments en commun ou négative, en maximisant le nombre d'éléments qui violent l'influé. Notre approche s'appuie sur une stratégie qui comporte cinq étapes dont deux exécutées en parallèle. Ces deux étapes constituent les étapes clé de notre approche. La première combine une méthode d'élagage et de regroupement tabulaire basée sur les tableaux de contingence. Cette dernière construit et classe les zones potentiellement intéressantes. La seconde, injecte la sémantique et évalue le degré d'influence que produirait l'introduction d'une nouvelle variable sur un ensemble de variables en utilisant une nouvelle mesure d'intérêt, l'Influence. Cette étape vient affiner les résultats de la première étape, et permet de se focaliser sur des zones valides par rapport aux contraintes spécifiées. Enfin, un système de règles d'influence jugées intéressantes est construit basé sur la juxtaposition des résultats des deux étapes clé de notre approche.
Pour construire des arbres de décision sur des données déséquilibrées, des auteurs ont proposés des mesures d'entropie asymétriques. Le problème de l'évaluation de ces arbres se pose ensuite. Cet article propose d'évaluer la qualité d'arbres de décision basés sur une mesure d'entropie asymétrique.
L'analyse sémantique latente (LSA - Latent Semantic Analysis) est aujourd'hui utilisée dans de nombreux domaines comme la modélisation cognitive, les applications éducatives mais aussi pour la classification. L'approche présentée dans cet article consiste à ajouter des informations grammaticales à LSA. Différentes méthodes pour exploiter ces informations grammaticales sont étudiées dans le cadre d'une tâche de classification conceptuelle.
L'extraction d'itemsets fréquents est un sujet majeur de l'ECD et son but est de découvrir des corrélations entre les enregistrements d'un ensemble de données. Cependant, le support est calculé en fonction de la taille de la base dans son intégralité. Dans cet article, nous montrons qu'il est possible de prendre en compte des périodes difficiles à déceler dans l'organisation des données et qui contiennent des itemsets fréquents sur ces périodes. Nous proposons ainsi la définition des itemsets compacts, qui représentent un comportement cohérent sur une période spécifique et nous présentons l'algorithme DEICO qui permet leur découverte.
Dans le suivi et la modélisation de l'érosion en montagne, lareprésentation fine du relief est une composante importante. En effet, laconnaissance des zones de concentration des eaux, notamment à traversl'apparition de rigoles élémentaires, est fondamentale pour bien décrire lesconnectivités entre les zones de mobilisation des sédiments sur le versant et leréseau hydrographique stabilisé. La résolution au sol permise par lesphotographies aériennes classiques ne permet pas d'accéder à unereprésentation 3D suffisamment fine des ravines élémentaires. Nous testonsl'utilisation de photographies stéréoscopiques à résolution centimétrique prisesà basse altitude par un drone pour obtenir un MNT précis. La question majeureconcerne les règles à suivre pour un meilleur compromis entre précision etfacilité d'élaboration, et l'évaluation de l'importance relative de chaque étapesur la qualité finale de la restitution. La zone d'étude est située dans lesBadlands de Draix (Alpes de Haute Provence).
L'extraction de motifs séquentiels permet de découvrir des corrélations entre événements au cours du temps. Introduisant plusieurs dimensions d'analyse, les motifs séquentiels multidimensionnels permettent de découvrir des motifs plus pertinents. Mais le nombre de motifs obtenus peut devenir très important. C'est pourquoi nous proposons, dans cet article, de définir une représentation condensée garantie sans perte d'information : les motifs séquentiels multidimensionnels clos extraits ici sans gestion d'ensemble de candidats.
Dans la perspective d'offrir un web sémantique, des travaux ont cherché à automatiser l'extraction des annotations sémantiques à partir de textes pour représenter au mieux la sémantique que vise à transmettre une page web. Dans cet article nous proposons une approche d'extraction des annotations qui représentent le plus précisément possible le contenu d'un document. Nous proposons de prendre en compte la notion de contexte modélisé par des relations contextuelles émanant, à la fois, de la structure et de la sémantique du texte.
Nous présentons dans cet article un nouvel algorithme permettant la construction et la mise à jour incrémentale du FIA : FIASCO. Notre algorithme effectue un seul passage sur les données et permet de prendre en compte les nouveaux batches, itemset par itemset et pour chaque itemset, item par item.
Cet article présente une contribution à la modélisation acoustique des mots à partir de grands corpus oraux, faisant appel aux techniques de fouilles de données. En transcription automatique, de nombreuses erreurs concernent des mots fréquents homophones. Deux paires de mots (quasi-)homophones à/a et et/est sont sélectionnées dans les corpus, pour lesquels sont définis et examinés 41 descripteurs acoustiques permettant potentiellement de les distinguer. 17 algorithmes de classification, mis à l'épreuve pour la discrimination automatique de ces deux paires de mots, donnent en moyenne 77% de classification correcte sur les 5 meilleurs algorithmes. En réduisant le nombre de descripteurs à 10 (sélectionnés par l'algorithme le plus performant), les résultats de classification restent proches du résultat obtenu avec 41 attributs. Cette comparaison met en évidence le caractère discriminant de certains attributs, qui pourront venir enrichir à la fois la modélisation acoustique et nos connaissances des prononciations de l'oral.
As the Internet continues to change the way we live, find information, communicate, and do business, it has also been taking on a dramatically increasing role in marketing and advertising. Unlike any prior mass medium, the Internet is a unique medium when it comes to interactivity and offers ability to target and program messaging at the individual level. Coupled with its uniqueness in the richness of the data that is available for measurability, in the variety of ways to utilize the data, and in the great dependence of effective marketing on applications that are heavily data-driven, makes data mining and statistical data analysis, modeling, and reporting an essential mission-critical part of running the on-line business. However, because of its novelty and the scale of data sets involved, few companies have figured out how to properly make use of this data. In this talk, I will review some of the challenges and opportunities in the utilization of data to drive this new generation of marketing systems. I will provide several examples of how data is utilized in critical ways to drive some of these capabilities. The discussion will be framed with theMore general framework of Grand Challenges for data mining : pragmatic and technical. I will conclude this presentation with a consideration of the larger issues surrounding the Internet as a technology that is ubiquitous in our lives, yet one where very little is understood, at the scientific level, in defining and understanding many of the basics the Internet enables : Community, Personalization, and the new Microeconomics of the web. This leads to an overview of the new Yahoo ! Research organization and its aims : inventing the new sciences underlying what we do on the Internet, focusing on areas that have received little attention in the traditional academic circles. Some illustrative examples will be reviewed to make the ultimate goals more concrete.
Cet article propose une approche d'abstraction des séquences vidéo basée sur le soft computing. Etant donné une longueur cible du condensé vidéo, on cherche les segments vidéo qui couvrent le maximum du visuel de la vidéo originale en respectant la longueur du condensé.
Longtemps les ontologies ont été limitées à des domaines scientifiques et techniques, favorisant au passage l'essor du concept de « connaissances universelles et objectives ». Avec l'émergence et l'engouement actuel pour les sciences cognitives, couplés à l'application des ontologies à des domaines relatifs aux Sciences Humaines et Sociales (SHS), la subjectivité des connaissances devient une dimension incontournable qui se doit d'être intégrée et prise en compte dans le processus d'ingénierie ontologique (IO). L'objectif de nos travaux est de développer la notion d'Ontologie Pragmatisée Vernaculaire de Domaine (OPVD). Le principe sous-jacent à de telles ressources consiste à considérer que chaque ontologie est non seulement propre à un domaine, mais également à un endogroupe donné, doté d'une pragmatique qui est fonction tant de la culture que de l'apprentissage et de l'état émotionnel du dit endogroupe. Cette pragmatique, qui traduit un processus d'appropriation et de personnalisation de l'ontologie considérée, est qualifiée à l'aide de deux mesures : un gradient de prototypicalité conceptuelle et un gradient de prototypicalité lexicale
Le groupe de recherche Hypercarte propose HyperSmooth,un nouvel outil cartographique pour l'analyse spatiale de phénomènessociaux économiques mettant en oeuvre une méthode de calcul depotentiel. L'objectif est de pouvoir représenter de façon continue et enchangeant d'échelle d'analyse une information statistiqueéchantillonnée sur toutes sortes de maillages, réguliers ou non. Le défitechnologique est de fournir un outil accessible sur le Web, interactifet rapide, ceci malgré le coût élevé du calcul, et qui assure laconfidentialité des données. Nous présentons notre solution basée surune architecture client serveur : le serveur calcule les cartes depotentiel en utilisant des techniques d'optimisation particulières, alorsque le client est en charge de la visualisation et du paramétrage del'analyse, et les deux parties communiquent via un protocole Web.
L'informatique décisionnelle est un secteur en forte croissance dans toutes les entreprises. Les techniques classiques (reporting simple & Olap), qui s'intéressent essentiellement à présenter les données, sont aujourd'hui très largement déployées. Le data mining commence à se répandre, apportant des capacités de prévision à forte valeur ajoutée pour les entreprises les plus compétitives. Ce développement est rendu possible par la disponibilité croissante de masses de données importantes et la puissance de calcul dorénavant disponible. Cependant, la mise en IJuvre industrielle des projets de data mining pose des contraintes tant théoriques (quels algorithmes utiliser pour produire des modèles d'analyses exploitant des milliers de variables pour des millions d'exemples) qu'opérationnelles (comment mettre en production et contrôler le bon fonctionnement de centaines de modèles). Je présenterai ces contraintes issues des besoins des entreprises ; je montrerai comment exploiter des résultats théoriques (provenant des travaux de Vladimir Vapnik) pour produire des modèles robustes ; je donnerai des exemples d'applications réelles en gestion de la relation client et en analyse de qualité. Je conclurai en présentant quelques perspectives (utilisation du texte et des réseaux sociaux).
Le travail présenté dans cet article décrit une nouvelle version des cartes topologiques que nous appelons CrTM. Cette version consiste à modifier l'algorithme de Kohonen de telle façon à ce qu'il contrôle les violations des contraintes lors de la construction de la topologie de la carte. Nous validons notre approche sur des données connues de la littérature en utilisant des contraintes artificielles. Une validation supplémentaire sera faite sur des données réelles issues d'images médicales pour la classification des mélanomes chez l'humain sous contraintes médicales.
En fouille de textes comme en recherche d'information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l'inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd'hui sur Internet ou dans des bases documentaires sont fortement structurées. Dans cet article, nous proposons d'étendre le modèle probabiliste de représentation des documents de façon à tenir compte du poids d'une certaine catégorie d'éléments structurels : les balises représentant la structure logique et la structure de mise en forme. Ce modèle a été évalué à l'aide de la collection de la campagne d'évaluation INEX 2006.
De larges corpus à fort ancrage territorial deviennent disponibles sousforme numérique dans les médiathèques et plus particulièrement dans les médiathèquesde dimension régionale. Les défis qu'offrent ces gigas octets de documentsbruts sont énormes en terme de traitement automatique des contenus.Nous proposons dans cet article deux modèles computationnels et une méthodecomplète permettant de réaliser un traitement automatique afin d'extraire des itinérairesdans des textes relatant des récits de voyage. Le premier modèle est unmodèle des attendus. Il s'intéresse au concept d'itinéraire et adopte le point devue du pédagogue et fait intervenir très tôt les usages envisagés. Le deuxièmemodèle est un modèle d'extraction, il permet de modéliser l'expression du déplacementdans des textes du genre récit de voyage. Nous proposons alors uneméthode automatique pour : d'une part extraire et interpréter automatiquementles déplacements d'un récit et d'autre part passer des déplacements à l'itinéraire,c'est-à-dire alimenter de manière automatique le modèle des attendus à partir dumodèle d'extraction. Nous montrons également comment les itinéraires extraitsinterviennent soit dans la phase de construction d'activités pédagogiques soitdirectement comme matériau dans une activité d'apprentissage. Nous présentonsenfin ¼R, un Prototype pour l'Interprétation d'Itinéraires dans des Récitsde voyages, qui implémente notre approche. Il prend en entrée un texte brut etfournit l'interprétation de l'itinéraire décrit dans le texte. Il permet également devisualiser sur un fond cartographique l'itinéraire extrait.
Les approches de fouille et d'interprétation d'images consistant à considérer les pixels de façon indépendante ont montré leurs limites pour l'analyse d'images complexes. Pour résoudre ce problème, de nouvelles méthodes s'appuient sur une segmentation préalable de l'image qui consiste en une agrégation des pixels connexes afin de former des régions homogènes au sens d'un certain critère. Cependant le lien est souvent complexe entre la connaissance de l'expert sur les objets qu'il souhaite identifier dans l'image et les paramètres nécessaires à l'étape segmentation permettant de les identifier. Dans cet article la connaissance de l'expert est modélisée dans une ontologie qui est ensuite utilisée pour guider un processus de segmentation par une approche évolutive. Cette méthode trouve automatiquement des paramètres de segmentation permettant d'identifier les objets décrits par l'expert dans l'ontologie.
Khiops est un outil de préparation des données et de modélisation pour l'apprentissage supervisé et non supervisé. L'outil permet d'évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l'importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel, ce qui permet de rechercher une représentation des données efficace au moyen d'un recodage des variables. L'outil produit également un modèle de scoring pour les tâches d'apprentissage supervisé, selon un classifieur Bayesien naif avec sélection de variables et moyennage de modèles. L'outil est adapté à l'analyse des grandes bases de données, avec des centaines de milliers d'individus et des dizaines de milliers de variables, et a permis de participer avec succès à plusieurs challenges internationaux récents.
Le diagnostic de territoire constitue une étape obligatoire dans toutprojet d'aménagement ou dans toute volonté politique de modifier durablementl'espace. Les décideurs politiques doivent avoir une vision objective des actionsà mener en fondant leurs réflexions sur des études et des documents ;qu'ils soient à caractère géographique ou non. Il est donc fondamentald'améliorer l'accès et la consultation, par les décideurs stratégiques, de ce quel'on peut appeler des documents géographiques. Le but de cet article est deprésenter certains concepts et solutions technologiques qui peuvent être utilisésafin de mieux organiser, de naviguer (dans) et de visualiser ces documents. Ilpropose une mise en perspective commune de certaines de ces approches, surlaquelle est fondée la conception d'une première maquette d'un outil de visualisation(et de navigation) de documents géographiques nommé GEOdoc.
Dans un contexte d'ingénierie de la connaissance, l'analyse des données relationnelles évolutives est une question centrale. La représentation de ce type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l'utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut alors les décomposer de manière à en faciliter la lecture et l'analyse. Pour cela, une solution est de les simplifier, dans un premier temps, en un graphe réduit dont les sommets représentent chacun un groupe distinct de sommets : acteurs ou termes du domaine étudié. Dans un second temps, il faut les décomposer en instances (un graphe par période) afin de prendre en compte la dimension temporelle.La plateforme de veille stratégique Tétralogie, développée dans notre laboratoire, permet de synthétiser les données relationnelles évolutives sous forme de matrices de cooccurrence 3D et VisuGraph, son module de visualisation, permet de les représenter sous forme de graphes évolutifs.VisuGraph assimile les différentes périodes à des repères temporels et chaque sommet est placé en fonction de son degré d'appartenance aux différentes périodes. Ce prototype est aussi doté d'un module de la classification interactive de données relationnelles basé sur une technique de Markov Clustering, qui conduit à une visualisation sous forme de graphe réduit. Nous proposons ici de prendre en compte la dimension temporelle dans notre processus de classification des données. Ainsi, par la visualisation successive des différentes instances, il devient plus facile d'analyser l'évolution des classes au niveau intra mais aussi au niveau inter classes.
Le FIA (Frequent Itemset Automaton) est un nouvel automate qui permet de traiter de façon efficace la problématique de l'extraction des itemsets fréquents dans les flots de données. Cette structure de données est très compacte et informative, et elle présente également des propriétés incrémentales intéressantes pour les mises à jour avec une granularité très fine. L'algorithme développé pour la mise à jour du FIA effectue un unique passage sur les données qui sont prises en compte tout d'abord par batch (i.e., itemset par itemset), puis pour chaque itemset, item par item. Nous montrons que dans le cadre d'une approche prédictive et par l'intermédiaire de la bordure statistique, le FIA permet d'indexer les itemsets véritablement fréquents du flot en maximisant le rappel et en fournissant à tout moment une information sur la pertinence statistique des itemsets indexés avec la P-valeur.
L'exploitation des réseaux sociaux pour l'extraction de connaissances n'est pas nouvelle. Les anthropologues, sociologues et épidémiologies se sont déjà penchés sur la question. C'est probablement le succès du moteur de recherche Google qui a vulgarisé l'utilisation des parcours aléatoires des réseaux sociaux pour l'ordonnancement par pertinence. Plusieurs applications ont depuis vu naissance. La découverte des communautés dans les réseaux sociaux est aussi une nouvelle tendance de recherche très prisée. Durant cet exposé nous parlerons de l'analyse des réseaux sociaux, la découverte de communautés, et présenterons quelques applications dont l'ordonnancement dans les bases de données
Une carte cognitive fournit une représentation graphique d'un réseau d'influence entre des concepts. Les cartes cognitives de dimensions importantes ont l'inconvénient d'être difficiles à appréhender, interpréter et exploiter. Cet article présente un modèle de cartes cognitives hiérarchiques permettant au concepteur d'effectuer des regroupements de concepts qui sont ensuite utilisés dans un mécanisme permettant à l'utilisateur d'obtenir des vues partielles et synthétiques d'une carte.
L'annotation d'une protéine consiste, entre autres, à lui attribuer une classe dans une hiérarchie fonctionnelle. Celle-ci permet d'organiser les connaissances biologiques et d'utiliser un vocabulaire contrôlé. Pour estimer la pertinence des annotations, des mesures telles que la précision, le rappel, la spécificité et le Fscore sont utilisées. Cependant ces mesures ne sont pas toujours bien adaptées à l'évaluation de données hiérarchiques, car elles ne permettent pas de distinguer les erreurs faites aux différents niveaux de la hiérarchie. Nous proposons ici une représentation formelle pour les différents types d'erreurs adaptés à notre problème.
Un des problèmes majeurs dans la gestion des ontologies est son évaluation. Cet article traite l'évaluation des concepts ontologiques qui sont extraits de pages Web. Pour cela, nous avons proposé une méthodologie d'évaluation des concepts basée trois critères révélateurs : "le degré de crédibilité"; "le degré de cohésion" et "le degré d'éligibilité". Chaque critère correspond à un apport de connaissance pour la tâche d'évaluation. Notre méthode d'évaluation assure une évaluation qualitative grâce aux associations de mots ainsi qu'une évaluation quantitative par le biais des trois degrés. Nos résultats et discussions avec les experts et les utilisateurs ont montré que notre méthode facilite la tâche d'évaluation.
En s'appuyant sur la théorie de l'activité, nous avons mis au point une méthodologie de gestion des connaissances à base de e-services sur un plateau de créativité visant à faire piloter le processus de fabrication métier par celui des usages. Nous l'avons testé avec la réalisation d'un e-service d'apprentissage instrumental de pièces de musique à la guitare (E-guitare).
We propose a way of extracting high-confidence association rules from datasets consisting of unlabeled trees. The antecedents are obtained through a computation akin to a hypergraph transversal, whereas the consequents follow from an application of the closure operators on unlabeled trees developed in previous recent works of the authors. We discuss in more detail the case of rules that always hold, independently of the dataset, since these are more complex than in itemsets due to the fact that we are no longer working on a lattice.
Une perception intelligente du mouvement d'objets mobiles(personnes, voitures, colis, etc.) est à la base de nombreuses applications (parexemple le suivi d'une distribution postale à travers le monde, l'optimisation dutrafic routier ou l'étude de la migration d'animaux). Les systèmes de gestion debases de données actuels n'offrent ni les concepts ni les fonctions nécessaires àune analyse sémantique du mouvement, se limitant au stockage et àl'interrogation de positions spatiales individuelles, hors contexte temporel. Destravaux de recherche précédents ont introduit et développé le concept d'objetmobile ou spatio-temporel. Dans cet article nous allons plus loin en proposantle concept de trajectoire comme unité sémantique de mouvement sur laquellese construit la vision applicative. Nous proposons de décrire les trajectoires, auniveau conceptuel, avec leurs aspects géométriques, temporels et sémantiqueset leurs composants structurels : point de départ, point d'arrivée, arrêts etdéplacements intermédiaires. Chaque élément, trajectoire, arrêt, déplacement,voire partie de déplacement, peut recevoir des annotations sémantiques sousforme de valeurs d'attributs ou de liens vers des objets de la base. L'approchede modélisation décrite dans cet article est basée sur les patrons demodélisation, qui permettent une solution générique pour modéliser lescaractéristiques standard des trajectoires tout en étant ouverte auxcaractéristiques spécifiques à l'application envisagée. Enfin, l'implémentationdans une base de données relationnelle étendue est présentée.
On utilise l'analyse factorielle des correspondances (AFC) pour la recherche d'images par le contenu en s'inspirant directement de son utilisation en analyse des données textuelles (ADT). L'AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu. En ADT, l'AFC est appliquée à un tableau de contingence croisant mots et documents. La première étape consiste donc à définir des « mots visuels » dans les images (analogue des mots dans les textes). Ces mots sont construits à partir des descripteurs locaux (SIFT) des images. La méthode a été testée sur la base Caltech4 (Sivic et al., 2005) sur laquelle elle fournit de meilleurs résultats (qualité des résultats de recherche et temps d'exécution) que des méthodes plus classiques comme TF*IDF/Rocchio (Rocchio, 1971) ou pLSA (Hofmann, 1999a, 1999b). Enfin, pour passer à l'échelle et améliorer la qualité de recherche, nous proposons un nouveau prototype de recherche qui utilise des fichiers inversés basés sur la qualité de représentation des images sur les axes après avoir fait une AFC. Chaque fichier inversé est associé à une partie d'un axe (positive ou négative) et contient des images ayant une bonne qualité de représentation sur cet axe. Les tests réalisés montrent que ce nouveau prototype réduit le temps de recherche sans perte de qualité de résultat et dans certains cas, améliore le taux de précision par rapport à la méthode exhaustive.
L'analyse de risques est un processus visant à décrire les scénarios conduisant à des phénomènes dangereux et à des accidents potentiels sur une installation industrielle. Pour réaliser une analyse de risques, un expert dispose de nombreuses ressources : rapports, études de dangers, bases d'accidents, etc. Ces ressources sont cependant souvent difficiles à exploiter parce qu'elles ne sont pas suffisamment structurées ni formalisées. Dans le cadre du projet KMGR (Knowledge Management pour la Gestion des Risques), mené en partenariat avec l'Institut National de l'Environnement industriel et des RISques (INERIS), nous proposons de traiter ce problème en développant un système de recherche d'information basé sur des ontologies, et de le compléter par un système de raisonnement à partir de cas (RàPC) pour tenir compte des expériences passées.
L'apprentissage de SVM par optimisation directe du primal est très étudié depuis quelques temps car il ouvre de nouvelles perspectives notamment pour le traitement de données structurées. Nous proposons un nouvel algorithme de ce type qui combine de façon originale un certain nombre de techniques et idées comme la méthode du sous-gradient, l'optimisation de fonctions continues non partout différentiables, et une heuristique de shrinking.
Les réseaux de neurones RBF sont d'excellents régresseurs. Ils sont cependant difficiles à utiliser en raison du nombre de paramètres libres : nombre de neurones, poids des connexions, ... Des algorithmes évolutionnaires permettent de les optimiser mais ils sont peu nombreux et complexes.Nous proposons ici un nouvel algorithme, RBF-Gene, qui permet d'optimiser la structure et les poids du réseau, grâce à une inspiration biologique. Il est compétitif avec les autres techniques de régression mais surtout l'évolution peut choisir dynamiquement le nombre de neurones et la précision des différents paramètres.
Dans cet article, nous proposons une nouvelle approche de pondérations des variables durant un processus d'apprentissage non supervisé. Cette méthode se base sur l'algorithme « batch » des cartes auto-organisatrices. L'estimation des coefficients de pondération se fait en parallèle avec la classification automatique. Ces pondérations sont locales et associées à chaque référent de la carte auto-organisatrice. Elles reflètent l'importance locale de chaque variable pour la classification. Les pondérations locales sont utilisées pour la segmentation de la carte topologique permettant ainsi un découpage plus riche tenant compte des pertinences des variables. Les résultats de l'évaluation montrent que l'approche proposée, comparée à d'autres méthodes de classification, offre une segmentation plus fine de la carte et de meilleure qualité.
Un grand nombre de réactions chimiques sont aujourd'hui répertoriées dans des bases de données. Les chimistes aimeraient pouvoir fouiller les graphes moléculaires contenus dans ces données pour en extraire des schémas de réactions fréquents. Deux obstacles s'opposent à cela : d'une part la manière dont les chimistes représentent les réactions par des graphes ne permet pas aux techniques de fouille de graphes d'extraire les schémas de réactions fréquents. D'autre part les bases de données contiennent des descriptions de réactions souvent incomplètes, ambiguës ou erronées. Le présent article décrit un processus de prétraitement opérationnel qui permet de filtrer, compléter puis transformer le contenu d'une base de réactions en des données fiables constituées de graphes abstraits répondant au problème de la fouille de schémas de réactions. Le processus place ainsi les bases de réactions à portée des techniques de fouille de graphes comme en attestent les résultats expérimentaux.
L'analyse des données Symboliques a pour objectif de fournir des résultatscomplémentaires à ceux fournis par la fouille de données classique encréant des concepts issus de données simples ou complexes puis en analysantces concepts par des descriptions symboliques où les variables expriment lavariation des instances de ces concepts en prenant des valeurs intervalle, histogramme,suites, munies de règles et de taxonomies, etc.
Le logiciel présenté dans cet article s'appuie sur une approche d'acquisition de sigles à partir de données textuelles
Les systèmes de détection d'intrusions (SDIs) ont pour objectif la sécurité des réseaux informatiques. Dans ce papier, nous proposons une nouvelle approche de détection d'intrusions basée sur des règles associatives génériques de classification pour améliorer la qualité de la détection d'intrusions.
L'introduction de l'information spatiale dans les modèlesmultidimensionnels a donné naissance au concept de Spatial OLAP (SOLAP).Dans cet article, nous montrons en quoi les spécificités de l'informationgéographique et de l'analyse spatiale ne sont pas entièrement prises en comptedans l'analyse et les modèles multidimensionnels SOLAP. Pour pallier ceslimites, nous proposons le concept de dimension géographique et décrivons lesdifférents types de hiérarchies associées. Nous proposons l'introduction denouveaux opérateurs qui permettent d'adapter les opérateurs d'analyse spatialeau paradigme multidimensionnel. Enfin, nous présentons notre prototype quioffre une interface web de navigation spatiale et multidimensionnelle, etpermet l'intégration de ces nouveaux concepts.
Nous avons proposé un algorithme original de Fouille de Données, LICORN, afin d'inférer des relations de régulation coopérative à partir de données d'expression. LICORN donne de bons résultats s'il est appliqué à des données de levure, mais le passage à l'échelle sur des données plus complexes (e.g., humaines) est difficile. Dans cet article, nous proposons une extension de LICORN afin qu'il puisse gérer une contrainte de co-régulation adaptative. Une évaluation préliminaire sur des données de transcriptome de tumeurs de vessie montre que les réseaux significatifs sont obtenus à l'aide d'une contrainte de corégulation adaptative de manière beaucoup plus efficace, et qu'ils ont des performances de prédiction équivalentes voire meilleures que celles obtenues par LICORN.
Dans le cadre de la recherche interactive d'images dans une base de données, nous nous intéressons à des mesures de similarité d'image qui permettent d'améliorer l'apprentissage et utilisables en temps réel lors de la recherche. Les images sont représentées sous la forme de graphes d'adjacence de régions floues. Pour comparer des graphes valués nous employons des noyaux de graphes s'appuyant sur des ensembles de chaînes, extraites des graphes comparés. Nous proposons un cadre général permettant l'emploi de différents noyaux et différents types de chaînes(sans cycle, avec boucles) autorisant des appariements inexacts. Nous avons effectué des comparaisons sur deux bases issues de Columbia et Caltech et montré que des chaînes de très faible dimension (longueur inférieur à 3) sont les plus efficaces pour retrouver des classes d'objets.
Dans cet article nous présentons nos travaux sur la recherche d'information personnalisée dans les bibliothèques numériques. Nous utilisons des profils utilisateurs qui représentent des intérêts et des préférences des utilisateurs. Les résultats de recherche peuvent être retriés en tenant compte des besoins d'informations spécifiques de différentes personnes, ce qui donne une meilleure précision. Nous étudions différentes méthodes basées sur les citations, sur le contenu textuel des documents et des approches hybrides. Les résultats des expérimentations montrent que nos approches sont efficaces et applicables dans le cadre des bibliothèques numériques.
Un large panel de domaines d'application utilise des réseaux de capteurs géoréférencés pour mesurer divers évènements. Les séries temporelles fournies par ces réseaux peuvent être utilisées dans le but de dégager des connaissances sur les relations spatio-temporelles de l'activité mesurée. Dans cet article, nous proposons une méthode permettant d'abord de détecter des situations atypiques (au sens de l'occurrence) puis de construire des motifs spatio-temporels relatant leur propagation sur un réseau. Le cas étudié est celui du trafic routier urbain. Notre raisonnement se fonde sur l'application de la méthode Space-Time Principal Component Analysis (STPCA) et de la combinaison entre l'information mutuelle et l'algorithme Isomap. Les résultats expérimentaux exécutés sur des données réelles de trafic routier démontrent l'efficacité de la méthode introduite à identifier la propagation de cas atypiques fournissant ainsi un outil performant de prédiction de la circulation intraday à court et moyen terme.
Afin d'aider les biologistes à annoter des génomes, ce qui nécessite l'analyse, le croisement, et la comparaison de données provenant de sources diverses, nous avons conçu un entrepôt de données de génomique microbienne. Nous présentons la structure globale flexible de l'entrepôt et son architecture multi-niveaux et définissons des correspondances entre ces niveaux. Nous introduisons ensuite la notion de requête alternative et montrons comment le système peut construire l'ensemble des requêtes alternatives à une requête initiale. Pour cela, nous introduisons un mécanisme d'interrogation qui repose sur l'architecture multi-niveaux, et donnons un algorithme de calcul des requêtes alternatives.
Dans ce papier, nous présentons une nouvelle mesure de similarité pour la classification des référents de la carte auto-organisatrice qui sera réalisée à l'aide d'une nouvelle approche de classification hiérarchique. (1) La mesure de similarité est composée de deux termes : la distance de Ward pondérée et la distance euclidienne pondérée par la fonction de voisinage sur la carte topologique. (2) Un algorithme à base de fourmis artificielles nommé AntTree sera utilisé pour segmenter la carte auto-organisatrice.Cet algorithme a l'avantage de prendre en compte le voisinage entre les référents et de fournir une hiérarchie des référents avec une complexité proche du nlog(n). La segmentation incluant la nouvelle mesure est validée sur plusieurs bases de données publiques.
Dans les systèmes DSMS (Data Stream Management Systems), les données en entrée sont infinies et les requêtes sur celles-ci sont actives tout le temps. Dans le but de satisfaire ces caractéristiques, le fenêtrage temporel est largement utilisée pour convertir le flux infini de données sous forme de relations finies. Mais cette technique est inadaptée pour de nombreuses applications émergentes, en particulier les services de localisation. De nombreuses requêtes ne peuvent pas être traitées en utilisant le fenêtrage temporel, ou seraient traitées plus ecacement à l'aide d'un fenêtrage basé sur l'espace (fenêtrage spatial). Dans cet article, nous analysons la nécessité d'un fenêtrage spatial sur des flux de données spatio-temporels, et proposons, sur la base du langage de requêtes CQL (Continuous Query Language), une syntaxe et une sémantique associées au fenêtrage spatial.
Dans ce papier, nous enrichissons la méthode Terminae de construction d'ontologie à partir de textes en proposant une semi-automatisation de la construction du modèle conceptuel. Nous présentons un algorithme permettant la conceptualisation d'un terme en s'appuyant sur les informations linguistiques contenues dans l'ontologie générique de référence.
Dans cet article, nous proposons la méthode des SOM (cartes auto-organisatrices de Kohonen) pour la classification non supervisée de documents textuels basés sur les n-grammes. La même méthode basée sur les synsets de WordNet comme termes pour la représentation des documents est étudiée par la suite. Ces combinaisons sont évaluées et comparées.
Un problème majeur se pose dans le domaine des flux de données : la distribution sous-jacente des données peut changer sur le temps. Dans cet article, nous proposons trois stratégies de classification non supervisée basée sur des fenêtres superposées. Notre objectif est de pouvoir repérer ces changements dans le temps. Notre approche est appliquée sur un benchmark de données réelles et les conclusions obtenues sont basées sur deux indices de comparaison de partitions.
We propose a novel algorithm for extracting the structure of a Bayesian network from a dataset. Our approach is based on generalized conditional entropies, a parametric family of entropies that extends the usual Shannon conditional entropy. Our results indicate that with an appropriate choice of a generalized conditional entropy we obtain Bayesian networks that have superior scores compared to similar structures obtained by classical inference methods.
En classification basée sur les règles d'association, les itemsets clés sont essentiels : la suppression des itemsets non clés n'affecte pas la précision du classifieur en construction. Ce travail montre que parmi ces itemsets clés, on peut s'intéresser seulement à ceux de petites tailles. Plus loin encore, il étudie une généralisation d'une propriété importante des itemsets non clés et montre que parmi les itemsets clés de petites tailles, il y a ceux qui ne sont pas significatifs pour la classification. Ces itemsets clés sont dits non essentiels. Ils sont définis via un test de 2. Les expériences menées sur les grands jeux de données montrent que l'optimisation par la suppression de ces itemsets est correcte et efficace.
Dans cet article, nous proposons une approche multi-agent argumentative permettant d'automatiser la résolution des conflits entre décideurs dans un système d'aide à l'identification des connaissances cruciales nommé K-DSS. En effet, des divergences concernant la crucialité des connaissances peuvent apparaître entre les décideurs et aboutir ainsi à des incohérences dans la base commune de connaissances la rendant inexploitable. Notre objectif à travers ce travail est de proposer une approche argumentative permettant de résoudre les conflits entre décideurs. Afin de concevoir cette approche, nous nous appuyons sur la théorie multi-agents pour représenter les acteurs humains par des agents logiciels connaissant leurs préférences et leurs règles de décision et pouvant ainsi argumenter leurs choix ou mettre à jour leurs croyances en fonction des arguments qu'ils reçoivent des autres agents décideurs.
Une des questions les plus importantes pour la plupart des applications réelles de la classification est de déterminer un nombre approprié de groupes (clusters). Déterminer le nombre optimal de groupes est un problème difficile, puisqu'il n'y a pas de moyen simple pour connaître ce nombre sans connaissance a priori. Dans cet article, nous proposons un nouvel algorithme de classification non supervisée à deux niveaux, appelé S2L-SOM (Simultaneous Twolevel Clustering - Self Organizing Map), qui permet de déterminer automatiquement le nombre optimal de groupes, pendant l'apprentissage d'une carte auto-organisatrice. L'estimation du nombre correct de groupes est en relation avec la stabilité de la segmentation et la validité des groupes générés. Pour mesurer cette stabilité nous utilisons une méthode de sous-échantillonnage. Le principal avantage de l'algorithme proposé, comparé aux méthodes classiques de classification, est qu'il n'est pas limité à la détection de groupes convexes, mais est capable de détecter des groupes de formes arbitraires. La validation expérimentale de cet algorithme sur un ensemble de problèmes fondamentaux pour la classification montre sa supériorité sur les méthodes standards de classification à deux niveaux comme SOM+K-Moyennes et SOM+Hierarchical- Agglomerative-Clustering.
Le cartogramme présenté dans cet article est destiné à faciliterl'analyse visuelle de données spatiotemporelles complexes. Pour cela, il offrela possibilité de représenter simultanément les trois dimensions nécessaires àtoute forme d'analyse géographique que sont les dimensions spatiale (où),thématique (quoi) et temporelle (quand), à partir de trois composantes principales: (1) une représentation unidimensionnelle (1D) de l'espace géographiquede forme semi-circulaire centrée sur une origine (ex. le Canada) ; (2) desentités géographiques (ex. pays) qui viennent graviter autour de cette origineen fonction de valeurs attributaires ; et (3) une ligne de temps interactive permettantd'explorer la dimension temporelle de l'information représentée. Lacombinaison de ces trois composantes offre de multiples potentialités pourl'analyse spatio-temporelle de différentes formes de proximités qu'elles soientéconomiques, culturelles, sociales ou démographiques. Les fonctionnalités etpotentialités de ce cartogramme développé en source ouverte sont illustrées àpartir d'exemples issus de l'atlas cybercartographique du commerce Canadien.Cet article reprend les grandes lignes d'une communication présentée lors de laconférence SAGEO 2007.
Les noyaux ont été largement utilisés pour le traitement de données textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à VasteMarge (SVM). Le modèle de l'espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM est une représentation purement statistique. Dans ce papier, nous présentons un modèle d'espace vectoriel de concepts (CVSM) qui se base sur des connaissances linguistiques a priori pour capturer le sens des documents. Nous proposons aussi un noyau linéaire et un noyau latent pour cet espace. Le noyau linéaire exploite les concepts linguistiques pour l'extraction du sens alors que le noyau latent combine les concepts statistiques et linguistiques. En effet, le noyau latent utilise des concepts latents extraits par l'Analyse Sémantique Latente (LSA) dans le CVSM. Les noyaux sont évalués sur une tâche de catégorisation de texte dans le domaine biomédical. Le corpus Ohsumed, bien connu pour sa difficulté de catégorisation, a été utilisé. Les résultats ont montré que les performances de catégorisation sont améliorées dans le CSVM.
Nous présentons ici une approche pour la gestion de bases d'ontologies basée sur un modèle comprenant, outre la définition formelle des concepts (sous forme d'axiomes de logique de description), d'autres éléments descriptifs (termes, commentaires et arguments), ainsi que leurs liens d'alignement avec des concepts d'autres ontologies. L'adaptation ou la combinaison d'ontologies se font grâce à une algèbre comprenant des opérations telles que la sélection, la projection, l'union ou la jointure d'ontologies. Ces opérations agissent au niveau des axiomes, des éléments descriptifs et des liens d'alignement.
Nous proposons dans ce papier un nouveau système immunitaire artificiel (SIA) appelé système NK, pour la détection de comportement du soi non soi avec une approche non supervisée basée sur le mécanisme de cellule NK (Naturel Killer). Dans ce papier, le système NK est appliqué à la détection de fraude en téléphonie mobile.
Les données constituent l'élément central d'un Système d'Information Géographiques (SIG) et leur coût est souvent élevé en raison de l'investissement substantiel qui permet leur production. Cependant, ces données sont souvent restreintes à un service ou pour une catégorie d'utilisateurs. Ce qui a fait ressortir la nécessité de proposer des moyens d'enrichissement en informations pertinentes pour un nombre plus important d'utilisateurs. Nous présentons dans ce papier notre approche d'enrichissement de données qui se déroule selon trois étapes : une identification de segments et de thèmes associés, une délégation et enfin, un filtrage textuel. Un processus de raffinement est également offert. Notre approche globale a été intégrée à un SIG. Son évaluation a été accomplie montrant ainsi sa performance.
Les tâches de classification textuelle ont souvent pour objectif de regrouper thématiquement différents textes. Dans cet article, nous nous sommes intéressés à la classification de documents en fonction des opinions et jugements de valeurs qu'ils contiennent. L'approche proposée est fondée sur un système de vote utilisant plusieurs méthodes de classification.
Dans cet article, nous nous intéressons à la découverte de mises en correspondance entre ontologies distribuées modélisant les connaissances de pairs du système de gestion de données P2P SomeRDFS. Plus précisément, nous montrons comment exploiter les mécanismes de raisonnement mis en oeuvre dans SomeRDFS pour aider à découvrir des mappings entre ontologies. Ce travail est réalisé dans le cadre du projet MediaD en partenariat avec France Telecom R&D.
En classification supervisée, de nombreuses méthodes ensemblistes peuvent combiner plusieurs hypothèses de base afin de créer une règle de décision finale plus performante. Ainsi, il a été montré que des méthodes comme le bagging ou le boosting pouvaient se révéler intéressantes, tant dans la phase d'apprentissage qu'en généralisation. Dès lors, il est tentant de vouloir s'inspirer des grands principes d'une méthode comme le boosting en classification non supervisée. Or, il convient préalablement de se confronter aux difficultés connues de la thématique des ensembles de regroupeurs (correspondance des classes, agrégation des résultats, qualité) puis d'introduire l'idée du boosting dans un processus itératif. Cet article propose une méthode ensembliste inspirée du boosting, qui, à partir d'un partitionnement flou obtenu par les c-moyennes floues (fuzzy-c-means), va insister itérativement sur les exemples difficiles pour former une partition dure finale plus pertinente.
Cet article présente la méthode et le système C3R pour vérifier de façon semi-automatique la conformité d'un projet de construction par rapport à des normes du bâtiment. Les projets de construction sont représentés par des graphes RDF et les normes par des requêtes SPARQL ; le processus de contrôle consiste en l'appariement des requêtes et des graphes. Son efficacité repose sur l'acquisition de connaissances ontologiques et sur un processus d'extraction de connaissances guidé par ce but spécifique de contrôle de conformité qui prend en compte les connaissances ontologiques acquises. Elle repose ensuite sur des méta-connaissances acquises auprès des experts du CSTB qui permettent de guider le contrôle lui-même : les requêtes représentant les normes sont annotées et organisées selon ces annotations. Ces annotations sont également utilisées dans les interactions avec l'utilisateur de C3R pour expliquer les résultats du processus de validation, en particulier en cas d'échec.
La recherche d'information et la navigation dans les pages web s'avèrent complexes du fait du volume croissant des données et de leur manque de structure. La formalisation conceptuelle d'un contexte associé à une ontologie rend possible l'amélioration de ce processus. Nous définissons un contexte conceptuel comme étant l'association d'un treillis de concepts construit à partir de pages web avec des ontologies. La recherche et la navigation peuvent alors s'effectuer à plusieurs niveaux d'abstraction : le niveau des données, le niveau conceptuel et le niveau sémantique. Cet article s'intéresse essentiellement au niveau conceptuel grâce à une représentation par les treillis de concepts des documents selon les termes qu'ils ont en commun. Notre objectif est de proposer une mesure de similarité permettant à l'utilisateur de mieux naviguer dans le treillis. En effet, une bonne interprétation du treillis devrait passer par un choix rigoureux des concepts, objets, relations et propriétés les plus intéressants. Pour faciliter la navigation, il faut pouvoir indiquer à l'utilisateur les concepts les plus pertinents par rapport au concept correspondant à sa requête ou pouvoir lui proposer un point de départ. L'originalité de notre proposition réside dans le fait de considérer un lien sémantique entre les concepts du treillis, basé sur une extension des mesures de similarité utilisées dans le cadre des ontologies, afin de permettre une meilleure exploitation de ce treillis. Nous présentons les résultats expérimentaux de l'application de cette mesure sur des treillis construits à partir de pages web dans le domaine du tourisme.
La réduction de l'erreur en généralisation est l'une des principales motivations de la recherche en apprentissage automatique. De ce fait, un grand nombre de travaux ont été menés sur les méthodes d'agrégation de classifieurs afin d'améliorer, par des techniques de vote, les performances d'un classifieur unique. Parmi ces méthodes d'agrégation, le boosting est sans doute le plus performant grâce à la mise à jour adaptative de la distribution des exemples visant à augmenter de façon exponentielle le poids des exemples mal classés. Cependant, en cas de données fortement bruitées, cette méthode est sensible au sur-apprentissage et sa vitesse de convergence est affectée. Dans cet article, nous proposons une nouvelle approche basée sur des modifications de la mise à jour des exemples et du calcul de l'erreur apparente effectuées au sein de l'algorithme classique d'AdaBoost. Une étude expérimentale montre l'intérêt de cette nouvelle approche, appelée Approche Hybride, face à AdaBoost et à BrownBoost, une version d'AdaBoost adaptée aux données bruitées.
Dans cet article nous présentons une nouvelle méthode de classification non supervisée pour des données symboliques intervalles. Il s'agit de l'extension d'une méthode de classification non supervisée classique à des données intervalles. La méthode classique suppose que les points observés sont la réalisation d'un processus de Poisson homogène dans k domaines convexes disjoints de Rp. La première partie de la nouvelle méthode est une procédure monothétique divisive. La règle de coupure est basée sur une extension à des données intervalles du critère de classification des Hypervolumes. L'étape d'élagage utilise un test statistique basé sur le processus de Poisson homogène. Le résultat est un arbre de décision. La seconde partie de la méthode consiste en une étape de recollement, qui permet, dans certains cas, d'améliorer la classification obtenue à la fin de la première partie de l'algorithme. La méthode est évaluée sur un ensemble de données réelles.
Les relations sémantiques généralement reconnues par les méthodes d'extraction sont portées par des structures de type prédicats-arguments. Or, l'information recherchée est souvent répartie sur plusieurs phrases. Pour détecter ces relations dites complexes, nous proposons un modèle de représentation des connaissances basé sur les graphes conceptuels.
Cet article décrit une approche de création semi-automatique d'ontologies et d'annotations sémantiques à partir de messages électroniques échangés dans une liste de diffusion dédiée au support informatique. Les ressources sémantiques générées permettront d'identifier les questions fréquemment posées (FAQ) à travers une recherche guidée par cette ontologie.
Une des principales critiques que l'on puisse faire aux Séparateurs à Vaste Marge (SVM) est le manque d'intelligibilité des résultats. En effet, il s'agit d'une technique "boite noire" qui ne fournit pas d'explications ni d'indices quant aux raisons d'une classification. Les résultats doivent être pris tels quels en faisant confiance au système qui les a produits. Pourtant selon notre expérience pratique, les experts du domaine préfèrent largement une méthode d'apprentissage avec explications et recommandation d'actions plutôt qu'une boite noire, aussi performante et prédictive soit-elle. Dans cette thématique, nous proposons une nouvelle approche qui consiste a rendre les SVM plus "actionnables". Ce but est atteint en couplant des modèles de classement des résultats des SVM à des méthodes d'apprentissage de concepts. Nous présentons une application de notre méthode sur diverses données dont des données médicales concernant des patients de l'athérosclérose. Nos résultats empiriques semblent très prometteurs et montrent l'utilité de notre approche quant à l'intelligibilité et l'actionnabilité des résultats produits par SVM.
Une tendance lourde depuis la fin du siècle dernier est l'augmentation exponentielle du volume des données stockées. Cette augmentation ne se traduit pas nécessairement par une information plus riche puisque la capacité à traiter ces données ne progresse pas aussi rapidement. Avec les technologies actuelles, un difficile compromis doit être trouvé entre le coût de mise en oeuvre et la qualité de l'information produite. Nous proposons une approche industrielle permettant d'augmenter considérablement notre capacité à transformer des données en information grâce à l'automatisation des traitements et à la focalisation sur les seules données pertinentes.
Les brevets sont une source d'information très riche puisque ce sont des documents qui servent à décrire les inventions. L'accès aux documents de brevets en ligne est possible grâce aux efforts des offices nationaux de la propriété intellectuelle. Par ailleurs, ayant des objectifs différents, la présentation de ces documents a pris des formes variées loin d'être unifiées. Ce papier présente une méthode et un système permettant l'analyse de brevets "Patent Mining" pour générer des annotations sémantiques. L'idée principale est de pouvoir prendre en considération la structure des brevets pour pouvoir trouver un lien entre le contenu du brevet et les concepts des différentes ontologies.
Cet article présente une interface permettant de visualiser des motifs séquentiels extraits à partir de données textuelles en Ancien Français.
Cet article propose une méthodologie pour la visualisation et la classification des parcours de vie. Plus spécifiquement, nous considérons les parcours de vie d'individus suisses nés durant la première moitié du XXème siècle en utilisant les données provenant de l'enquête biographique rétrospective menée en 2002 par le Panel suisse de ménages. Nous nous sommes concentrés sur ces événements du parcours de vie : le départ du foyer parental, la naissance du premier enfant, le premier mariage et le premier divorce. A partir des données de base sur ces événements, nous discutons de leur transformation en séquences d'états. Nous présentons ensuite notre méthodologie pour extraire de la connaissance des parcours de vie. Cette méthodologie repose sur des distances calculées par un algorithme d'optimal matching. Ces distances sont ensuite utilisées pour la classification des parcours de vie et leur visualisation à l'aide de techniques de « Multi Dimensional Scaling ». Cet article s'intéresse en particulier aux problématiques entourant l'application de ces méthodes aux données de parcours de vie.
Notre objectif dans cet article est l'analyse textuelle d'un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages « auxiliaires » des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L'application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L'ensemble de classes de pages groupés en thèmes facilitera l'analyse ultérieure de l'usage du site.
Ce papier présente une approche automatique pour aligner des ressources sémantiques. L'alignement se traduit par la mise en correspondance des entités (termes, concepts, rôles) appartenant à des ressources d'un même domaine qui peuvent avoir des niveaux de formalisation différents. Les entités correspondantes sont de même nature et un coefficient caractérise leur degré de ressemblance.L'approche proposée est fondée sur des règles d'appariement entre les entités des deux ressources. Dans une première phase, ces règles d'appariement sont identifiées empiriquement. Des algorithmes combinant les différentes règles identifiées sont ensuite définis afin d'établir des correspondances entre les entités des ressources considérées.Ce papier présente un ensemble de règles d'appariement exploitant des éléments situés à différents niveaux conceptuels. Cet ensemble constitue un cadre pour l'alignement automatique des ressources sémantiques. Les résultats d'une première expérimentation qui a porté sur l'alignement de deux ressources du domaine de l'accidentologie sont également présentés.
Dans cet article, nous proposons un cadre et un outil pour l'annotation et la navigation de données archéologiques. L'objectif principal est de structurer les annotations de façon à permettre une navigation incrémentale où l'utilisateur peut, à partir d'un ensemble d'objets initialement retournés par une requête, découvrir des liens approximatifs avec d'autres objets de la base. L'approche a été implémentée et est en cours de validation.
Nous présentons dans cet article différentes étapes de l'annotation de tableaux de données à l'aide d'une ontologie. Tout d'abord, nous distinguons les colonnes de données numériques et symboliques. Les données symboliques sont ensuite annotées de manière floue à l'aide des termes de l'ontologie. Cette annotation nous permet de déduire le type des colonnes de données symboliques. Pour trouver le type des colonnes de données numériques, nous utilisons à la fois le titre de la colonne et les valeurs numériques et unités présentes dans la colonne. Chaque étape de notre annotation est validée expérimentalement.
L'apprentissage de la structure des réseaux bayésien à partir de données est un problème NP-difficile. Une nouvelle heuristique de complexité polynômiale, intitulée Polynomial Max-Min Skeleton (PMMS), a été proposée en 2005 par Tsamardinos et al. et validée avec succès sur de nombreux bancs d'essai. PMMS présente, en outre, l'avantage d'être performant avec des jeux de données réduits. Néanmoins, comme tous les algorithmes sous contraintes, celui-ci échoue lorsque des dépendances fonctionnelles (déterministes) existent entre des groupes de variables. Il ne s'applique, par ailleurs, qu'aux données complètes. Aussi, dans cet article, nous apportons quelques modifications pour remédier à ces deux problèmes. Après validation sur le banc d'essai Asia, nous l'appliquons aux données d'une étude épidémiologique cas-témoins du cancer du nasopharynx (NPC) de 1289 observations, 61 variables et 5% de données manquantes issues d'un questionnaire. L'objectif est de dresser un profil statistique type de la population étudiée et d'apporter un éclairage utile sur les différents facteurs impliqués dans le NPC
La recherche d'une entreprise sur le Web, relative à un savoir-faire particulier, n'est pas une tâche toujours facile à mener. Les outils mis à la disposition de l'internaute ne donnent pas entièrement satisfaction. D'un côté les moteurs de recherche éprouvent des difficultés à faire ressortir clairement le résultat escompté. De l'autre côté, les annuaires spécialisés (type Pages Jaunes) sont tributaires d'une organisation figée, nuisant à leur efficacité. Face à ce constat, nous nous proposons de créer un nouveau moteur spécialisé dans la recherche d'entreprise, associant Web sémantique et géo-localisation. Cette approche novatrice nécessite l'implémentation d'une ontologie ayant pour objectif la formalisation des connaissances du domaine. Cette tâche a mis en évidence l'intérêt des structures économiques, maintenues par l'INSEE, et leur utilisation au sein de l'ontologie. Les nomenclatures économiques ont été retenues pour gérer la classification des activités et produits pouvant être dispensés par les entreprises. La structure des unités administratives, telle que gérée au sein du fichier SIRENE, s'est avérée judicieuse pour répondre à la problématique de géo-localisation des entreprises. Une opération de désambiguïsation est réalisée en associant à chaque noeud d'activité les mots clés et synonymes lui correspondant. Enfin, nous comparons les résultats obtenus par notre moteur à ceux obtenu par le principal moteur de recherche d'activités géo-localisées en France : les Pages jaunes. Que ce soit au niveau de la précision et du rappel, notre moteur obtient des résultats significativement meilleurs.
La prise en compte des émotions dans les interactions Homme-machine permet de concevoir des systèmes intelligents, capables de s'adapter aux utilisateurs. Les techniques de redirection d'appels dans les centres téléphoniques automatisés se basent sur la détection des émotions dans la parole. Les principales difficultés pour mettre en oeuvre de tels systèmes sont l'acquisition et l'étiquetage des données d'apprentissage. Cet article propose l'application de deux stratégies d'apprentissage actif à la détection d'émotions dans des dialogues en interaction homme-machine. L'étude porte sur des données réelles issues de l'utilisation d'un serveur vocal et propose des outils adaptés à la conception de systèmes automatisés de redirection d'appels.
Nous présentons dans cet article un algorithme inductif semi-supervisé pour la tâche d'ordonnancement bipartite. Les algorithmes semi–supervisés proposés jusqu'à maintenant ont été étudiés dans le cadre strict de la classification. Récemment des travaux ont été réalisés dans le cadre transductif pour étendre les modèles existants en classification au cadre d'ordonnancement. L'originalité de notre approche est qu'elle est capable d'inférer un ordre sur une base test non– utilisée pendant la phase d'apprentissage, ce qui la rend plus générique qu'une méthode transductive pure. Les résultats empiriques sur la base CACM contenant les titres et les résumés du journal Communications of the Association for Computer Machinery montrent que les données non–étiquetées sont bénéfiques pour l'apprentissage de fonctions d'ordonnancement.
Découvrir la topologie d'un ensemble de données étiquetées dans un espace Euclidien peut aider à construire un meilleur système de décision. Dans ce papier, nous proposons un modèle génératif basé sur le graphe de Delaunay de plusieurs prototypes représentant les données étiquetées dans le but d'extraire de ce graphe la topologie des classes.
Dans cet article, nous présentons un système de découverte de connaissances à partir de données issues d'une étude épidémiologique cas-témoins du cancer du Nasopharynx (NPC). Ces données étant obtenues par une collecte de questionnaires, elles ont d'une part, la particularité d'être qualitatives et, d'autre part, de présenter des valeurs manquantes. Prenant en compte ces deux dernières contraintes, le système que nous proposons suit une démarche d'exploration de données qui consiste à (1) définir une procédure de codage des données qualitatives en présence de valeurs manquantes ; (2) étudier les propriétés de l'algorithme des cartes auto-organisatrices de Kohonen et son adaptation à ce type de données dans un cadre de découverte et de visualisation de groupes homogènes des cas cancer / non-cancer ; (3) post-traiter le resultat de cet algorithme par une classification automatique pour optimiser le nombre de groupes ainsi trouvés, et (4) donner une interprétation sémantique des profils extraits de chaque groupe. L'objectif général de cette étude est d'éclater le profil statistique global de la population étudiée en un ensemble de profils types (cancer ou non-cancer) et d'extraire pour chaque profil l'ensemble de variables explicatives du NPC à partir d'une cartographie bidimensionnelle.
Le problème de réconciliation de références consiste à décider si deux descriptions provenant de sources distinctes réfèrent ou non à la même entité du monde réel. Dans cet article, nous étudions ce problème quand le schéma des données est décrit en RDFS étendu par certaines primitives de OWL-DL. Nous décrivons et montrons l'intérêt d'une approche logique basée sur des règles de réconciliation qui peuvent être générées automatiquement à partir des axiomes du schéma. Ces règles traduisent de façon déclarative les dépendances entre réconciliations qui découlent de la sémantique du schéma. Les premiers résultats ont été obtenus sur des données réelles dans le cadre du projet PICSEL 3 en collaboration avec France Telecom R&D.
Les cubes de données fournissent une aide non négligeable lorsqu'il s'agit d'interroger des entrepôts de données. Un cube de données représente un pré-calcul de toutes les requêtes OLAP et ainsi améliore leur temps de réponses. Les approches proposées jusqu'à présent réduisent les temps de calcul et d'entrée sortie mais leur utilisation reste très coûteuse. D'autres travaux de recherche se sont intéressés à la visualisation de données pour les exploiter de façon interactive.Nous proposons une adaptation de la représentation condensée des cubes de données basée sur le modèle partitionnel. Cette technique nous permet de calculer efficacement un cube de données et de représenter les liens entre les données pour la visualisation. La visualisation proposée dans cet article est basée sur des techniques de visualisation orientée pixel et sur des techniques de diagramme de liens entre noeuds pour offrir à la fois une vision globale et locale pour l'exploitation. Cette nouvelle approche utilise d'une part les calculs efficaces de cubes de données et d'autre part les techniques avancées de visualisation.
La connaissance du protocole de conversation d'un service Web est importante pour les utilisateurs et les fournisseurs, car il en modélise le comportement externe ; mais, il n'est souvent pas spécifié lors de la conception. Notre travail s'inscrit dans une thématique d'extraction du protocole de conversation d'un service existant à partir de ses données d'exécution. Nous en étudions un sous-problème important qui est la découverte des transitions temporisées (i.e. les changements d'état liés à des contraintes temporelles). Nous proposons un cadre formel aboutissant à la définition des expirations propres, qui représentent un équivalent dans les logs des transitions temporisées. A notre connaissance, ceci représente la première contribution à la résolution de ce problème.
La gestion des connaissances est devenue aujourd'hui un enjeu majeur pour toute organisation. Celle-ci a pour but de capitaliser et de rendre accessible à ses acteurs la connaissance détenue par l'organisation. Cet article s'intéresse particulièrement à la visualisation à deux niveaux de ces connaissances (macroscopique - relatif aux connaissances globales détenues par l'organisation - et microscopique – relatif aux connaissances locales détenues par chaque membre organisationnel). La caractérisation des connaissances détenues par les acteurs repose sur quatre dimensions complémentaires (formelle, conative, cognitive, et socio-cognitive). Les deux types de visualisation proposés s'appuient sur les cartes auto-organisatrices et permettent une navigation dans différentes représentations des connaissances de l'organisation.
Cet article traite de la validation de règles dans un contexte de ciblage où il s'agit de déterminer les profils type des différentes valeurs de la variable à prédire. Les concepts de l'analyse statistique implicative fondée sur la différence entre nombre observé de contre-exemples et nombre moyen que produirait le hasard, s'avèrent particulièrement bien adaptés à ce contexte. Le papier montre comment les notions d'indice et d'intensité d'implication de Gras s'appliquent aux règles produites par les arbres de décision et présente des alternatives inspirées de résidus utilisés en modélisation de tables de contingence. Nous discutons ensuite sur un jeu de données réelles deux usages de ces indicateurs de force d'implication pour les règles issues d'arbres. Il s'agit d'une part de l'évaluation individuelle des règles, et d'autre part de leur utilisation comme critère pour le choix de la conclusion de la règle.
Vu l'accroissement constant du volume d'information accessible en ligne sous format XML, il devient primordial de proposer des modèles adaptés à la recherche d'information dans les documents XML. Tandis que la recherche d'information classique repose sur l'indexation du contenu des documents, la recherche d'information dans les documents XML tente d'améliorer la qualité des résultats en tirant profit de la sémantique véhiculée par la structure des documents. Dans cet article, nous présentons une méthode de classement des items (éléments XML) retournés lors d'une recherche dans une collection de documents XML. Le classement repose sur la prise en compte d'un ensemble de critères discriminants. La particularité de notre approche réside dans la façon dont nous les utilisons : Nous employons une méthode décisionnelle pour classer les items en les comparant deux-à-deux là où en général une fonction de scoring globale est utilisée.
Il n'est pas rare que des données individu soient caractérisées par une distribution continue et non une seule valeur. Ces données fonctionnelles peuvent être utilisées pour classer les individus. Une solution élémentaire est de réduire les distributions à leurs moyennes et variances. Une solution plus riche a été proposée par Diday (2002) et mise en oeuvre par Vrac et al. (2001) et Cuvelier et Noirhomme-Fraiture (2005). Elle utilise des points de coupures dans les distributions et modélise ces valeurs conjointes par une distribution multidimensionnelle construite à l'aide d'une copule. Nous avons montré dans un précédent travail que, si cette technique apporte de bons résultats, la qualité de la classification dépend néanmoins du nombre et de l'emplacement des coupures. Les questions du choix du nombre et de l'emplacement des coupures restaient des questions ouvertes. Nous proposons une solution à ces questions, lorsque le nombre de coupures tend vers l'infini, en proposant une nouvelle distribution de probabilité adaptée à l'espace de dimension infinie que forment les données fonctionnelles. Nous proposons aussi une densité de probabilité adaptée à la nature de cette distribution en utilisant la dérivée directionnelle de Gâteaux. La direction choisie pour cette dérivée est celle de la dispersion des fonctions à classer. Les résultats sont encourageants et offrent des perspectives multiples dans tous les domaines où une distribution de données fonctionnelles est nécessaire.
Le nouvel algorithme de boosting de Least-Squares Support Vector Machine (LS-SVM) que nous présentons vise à la classification de très grands ensembles de données sur des machines standard. Les méthodes de SVM et de noyaux permettent d'obtenir de bons résultats en ce qui concerne la précision mais la tâche d'apprentissage pour de grands ensembles de données demande une grande capacité mémoire et un temps relativement long. Nous présentons une extension de l'algorithme de LS-SVM proposé par Suykens et Vandewalle pour le boosting de LS-SVM. A cette fin, nous avons ajouté un terme de régularisation de Tikhonov et utilisé la formule de Sherman-Morrison-Woodbury pour traiter des ensembles de données ayant un grand nombre de dimensions. Nous l'avons ensuite étendu par application du boosting de LS-SVM afin de traiter des données ayant simultanément un grand nombre d'individus et de dimensions. Les performances de l'algorithme sont évaluées sur les ensembles de données de l'UCI, Twonorm, Ringnorm, Reuters-21578 et NDC sur une machine standard (PC-P4, 3GHz, 512 Mo RAM).
La classification des séquences biologiques est l'un des importants défis ouverts dans la bioinformatique, tant pour les séquences protéiques que pour les séquences nucléiques. Cependant, la présence de ces données sous la forme de chaînes de caractères ne permet pas de les traiter par les outils standards de classification supervisée, qui utilisent souvent le format relationnel. Pour remédier à ce problème de codage, plusieurs travaux se sont basés sur l'extraction des motifs pour construire une nouvelle représentation des séquences biologiques sous la forme d'un tableau binaire. Nous décrivons une nouvelle approche qui étend les méthodes précédents par l'utilisation de matrices de substitution dans les cas des séquences protéiques. Nous présentons ensuite une étude comparative qui prend en compte l'effet de chaque méthode sur la précision de la classification mais aussi le nombre d'attributs générés et le temps de calcul.
Les méthodes du 'clustering' ont pour but de diviser un ensemble (large) d'objets dans un petit nombre de groupes homogènes (clusters), basé sur des données relevées ou observées qui décrivent les (dis-)similarités qui existent entre les objets – en espérant que ces clusters soient utiles pour l'application concernée. Il existe une multitude d'approches, et cette contribution présente quelques-unes qui sont les plus importantes ou actuelles.
Cet article présente un modèle pour aborder les problèmes de classement difficiles, en particulier dans le domaine médical. Ces problèmes ont souvent la particularité d'avoir des taux d'erreurs en généralisations très élevés et ce quelles que soient les méthodes utilisées. Pour ce genre de problèmes, nous proposons d'utiliser un modèle de classement combinant le modèle de partitionnement des cartes topologiques mixtes et les machines à vecteurs de support (SVM). Le modèle non supervisé est dédié à la visualisation et au partitionnement des données composées de variables quantitatives et/ou qualitatives. Le deuxième modèle supervisé, est dédié au classement. La combinaison de ces deux modèles permet non seulement d'améliorer la visualisation des données mais aussi en les performances en généralisation. Ce modèle (CT-SVM) consiste à entraîner des cartes auto-organisatrices pour construire une partition organisée des données, constituée de plusieurs sous-ensembles qui vont servir à reformuler le problème de classement initial en sous-problème de classement. Pour chaque sous-ensemble, on entraîne un classeur SVM spécifique. Pour la validation expérimentale de notre modèle (CT-SVM), nous avons utilisé quatre jeux de données. La première base est un extrait d'une grande base médicale sur l'étude de l'obésité réalisée à l'Hôpital Hôtel-Dieu de Paris, et les trois dernières bases sont issues de la littérature.
Nous présentons dans cette contribution un cadre de modélisation recourant conjointement au modèle Hypertopic (Cahier et al., 2004) pour la représentation des connaissances de domaine et au modèle SeeMe (Herrmann et al., 1999) pour la représentation de l'activité. Ces deux approches apparaissent complémentaires, et nous montrons comment elles peuvent être combinées, pour mieux ancrer, sur les plans formel et méthodologique, les approches de cartographie collective des connaissances.
Cet article présente une méthode semi-automatique de construction d'ontologie à partir de corpus de textes sur un domaine spécifique. Cette méthode repose en premier lieu sur un analyseur syntaxique partiel et robuste des textes, et en second lieu, sur l'utilisation de l'analyse formelle de concepts "FCA" pour la construction de classes d'objets en un treillis de Galois. La construction de l'ontologie, c'est à dire d'une hiérarchie de concepts et d'instances, est réalisée par une transformation formelle de la structure du treillis. Cette méthode s'applique dans le domaine de l'astronomie.
La manière dont une visite est réalisée sur un site Web peut changer en raison de modifications liées à la structure et au contenu du site lui-même, ou bien en raison du changement de comportement de certains groupes d'utilisateurs ou de l'émergence de nouveaux comportements. Ainsi, les modèles associés à ces comportements dans la fouille d'usage du Web doivent être mis à jour continuellement afin de mieux refléter le comportement actuel des internautes. Une solution, proposée dans cet article, est de mettre à jour ces modèles à l'aide des résumés obtenus par une approche évolutive des méthodes de classification.
Cet article décrit un nouvel algorithme incrémental nommé AntGraph pour la construction de graphes de voisinage. Il s'inspire du comportement d'autoassemblage observé chez des fourmis réelles où ces dernières se fixent progressivement à un support fixe puis successivement aux fourmis déjà fixées afin de créer une structure vivante. Nous utilisons ainsi une approche à base de fourmis artificielles où chaque fourmi représente une donnée. Nous indiquons comment ce comportement peut être utilisé pour construire de manière incrémentale un graphe à partir d'une mesure de similarité entre les données. Nous montrons finalement que notre algorithme obtient de meilleurs résultats en comparaison avec le graphe de Voisins Relatifs, notamment en terme de temps de calcul.
Ce papier adresse le problème de la découverte de connaissances temporelles à partir des données datées, générées par le système de supervision d'un processus de fabrication. Par rapport aux approches existantes qui s'appliquent directement aux données, notre méthode d'extraction des connaissances se base sur un modèle global construit à partir des données. L'approche de modélisation adoptée, dite stochastique, considère les données datées comme une séquence d'occurrences de classes d'événements discrets. Cette séquence est représentée sous les formes duales d'une chaîne de Markov homogène et d'une superposition de processus de Poisson. L'algorithme proposé, appelé BJT4R, permet d'identifier les motifs séquentiels, les plus probables entre deux classes d'événements discrets et les représentent sous la forme de modèles de chroniques. Ce papier présente les premiers résultats de l'application de cet algorithme sur des données générées par un processus de fabrication de semi-conducteur d'un site de production du groupe STMicroelectronics.
Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite à saturation. Un langage de spécifications de fonctions d'oubli est défini pour résoudre ce problème. Dans le but d'offrir la possibilité d'effectuer des analyses sur l'historique des données, les spécifications définissent des résumés par agrégation et par échantillonnage à conserver parmi les données à "oublier". Cette communication présente le langage de spécifications ainsi que les principes et les algorithmes pour assurer de façon mécanique la gestion des fonctions d'oubli.
La détermination du niveau de consommation chez les clients est essentielle pour tout objectif de segmentation stratégique et de churn. Nous présentons sur un cas réel l'utilisation de la théorie des ensembles flous pour la définition d'une fonction d'appartenance permettant d'évaluer, de manière précise, le niveau de consommation, des abonnés en téléphonie mobile.
Le stockage massif des données noie l'information pertinente et engendre des problèmes théoriques liés à la volumétrie des données disponibles. Ces problèmes dégradent la capacité prédictive des algorithmes d'extraction des connaissances à partir des données. Dans cet article, nous proposons une méthodologie adaptée à la représentation et à la prédiction des données volumineuses. A cette fin, suite à un partitionnement des attributs, des groupes d'attributs non-corrélés sont créés qui permettent de contourner les problèmes liés aux espaces de grandes dimensions. Un Ensemble est alors mis en place, apprenant chaque groupe par une carte auto-organisatrice. Outre la prédiction, ces cartes ont pour objectif une représentation pertinente des données. Enfin, la prédiction est réalisée par un vote des différentes cartes. Une expérimentation est menée qui confirme le bien-fondé de cette approche.
L'objectif de ce travail est d'évaluer la perte d'information au sens de l'inertie entre des méthodes de partitionnement ou de classification hiérarchiques et une approche de classification conceptuelle. Nous voulons répondre à la question suivante : l'aspect simpliste du processus monothétique d'une méthode conceptuelle implique-t-il des partitions de moins bonne qualité au sens du critère de l'inertie ? Nous proposons de réaliser cette expérience sur 6 bases de l'UCI, trois de ces bases sont des tableaux de données quantitatives, les trois autres sont des tableaux de données qualitatives.
De nos jours, le statisticien n'a plus nécessairement le contrôle sur la récolte des données. Le besoin d'une analyse statistique vient dans un second temps, une fois les données récoltées. Par conséquent, un travail est à fournir lors de la phase de préparation des données afin de passer d'une représentation informatique à une représentation statistique adaptée au problème considéré. Dans cet article, nous étudions un procédé de sélection d'une bonne représentation en nous basant sur des travaux antérieurs. Nous proposons un protocole d'évaluation de la pertinence d'une représentation par l'intermédiaire d'une métrique, dans le cas de la classification supervisée. Ce protocole exploite une méthode de classification non paramétrique régularisée, garantissant l'automaticité et la fiabilité de l'évaluation. Nous illustrons le fonctionnement et les apports de ce protocole par un problème réel de préparation de données de consommation téléphonique. Nous montrons également la fiabilité et l'interprétabilité des décisions qui en résultent.
Les ontologies et les annotations sémantiques sont deux composants importants dans un système de gestion des connaissances basé sur le Web sémantique. Dans l'environement dynamique et distribué du Web sémantique, les ontologies et les annotations pourraient être changées pour s'adapter à l'évolution de l'organisation concernée. Ces changements peuvent donc entraîner des inconsistances à détecter et traiter. Dans cet article, nous nous focalisons principalement sur l'évolution des annotations sémantiques en soulignant le contexte où les modifications de l'ontologie entraînent des inconsistances sur ces annotations. Nous présentons une approche basée sur des règles permettant de détecter les inconsistances dans les annotations sémantiques devenues obsolètes par rapport à l'ontologie modifiée. Nous décrivons aussi les stratégies d'évolution nécessaires pour guider le processus de résolution de ces inconsistances grâce à des règles correctives.
Le modèle flou de proximité repose sur l'hypothèse que plus les occurrences des termes d'une requête se trouvent proches dans un document, plus ce dernier est pertinent. Cette mesure floue est très avantageuse dans le traitement des documents à textes courts, toutefois elle ne tient pas compte de la sémantique des termes. Nous présentons dans cet article l'intégration d'une métrique conceptuelle au modèle de proximité floue des termes pour la formalisation de notre propre modèle.
Nous nous intéressons à l'extraction d'entités nommées avec comme but d'exploiter un ensemble de rapports pour en extraire une liste de partenaires. À partir d'une liste initiale, nous utilisons un premier ensemble de documents pour identifier des schémas de phrase qui sont ensuite validés par apprentissage supervisé sur des documents annotés pour en mesurer l'efficacité avant d'être utilisés sur l'ensemble des documents à explorer. Cette approche est inspirée de celle utilisée pour l'extraction de données dans les documents semi-structurés (wrappers) et ne nécessite pas de ressources linguistiques particulières ni de larges collections de tests. Notre collection de documents évoluant annuellement, nous espérons de plus une amélioration de notre extraction dans le temps.
En raisonnement à partir de cas, l'adaptation d'un cas source pour résoudre un problème cible est une étape à la fois cruciale et difficile à réaliser. Une des raisons de cette difficulté tient au fait que les connaissances d'adaptation sont généralement dépendantes du domaine d'application. C'est ce qui motive la recherche sur l'acquisition de connaissances d'adaptation (ACA). Cet article propose une approche originale de l'ACA fondée sur des techniques d'extraction de connaissances dans des bases de données (ECBD). Nous présentons CABAMAKA, une application qui réalise l'ACA par analyse de la base de cas, en utilisant comme technique d'apprentissage l'extraction de motifs fermés fréquents. L'ensemble du processus d'extraction des connaissances est détaillé, puis nous examinons comment organiser les résultats obtenus de façon à faciliter la validation des connaissances extraites par l'analyste.
Ce document décrit Retroweb, une boite à outils qui permet l'extraction de données structurées à partir de pages Web. Notre solution est semi-automatique car les données à extraire sont préalablement dénies par l'utilisateur. L'intérêt de cette approche est qu'elle permet l'extraction de données ciblées et conformes aux besoins de l'application utilisatrice (migrateur, moteur de recherche, outil de veille). Retroweb se caractérise aussi par une grande facilité d'utilisation car il ne nécessite aucune connaissance de langage particulier, la définition des règles d'extraction se faisant directement de manière interactive dans le navigateur Internet. Ce document décrit les trois principaux processus de notre méthode.
Les motifs séquentiels sont un domaine de la fouille de données très étudié depuis leur introduction par Agrawal et Srikant.Même s'il existe de nombreux travaux (algorithmes, domaines d'application), peu d'entre eux se situent dans un contexte multidimensionnel avec la prise en compte de ses spécificités : plusieurs dimensions, relations hiérarchiques entre les éléments de chaque dimension, etc. Dans cet article, nous proposons une méthode originale pour extraire des connaissances multidimensionnelles définies sur plusieurs niveaux de hiérarchies mais selon un certain point de vue : du général au particulier ou vice et versa. Nous définissons ainsi le concept de séquences multidimensionnelles convergentes ou divergentes ainsi que l'algorithme associé, M2S_CD, basé sur le paradigme "pattern growth". Des expérimentations, sur des jeux de données synthétiques et réelles, montrent l'intérêt de notre approche aussi bien en terme de robustesse des algorithmes que de pertinence des motifs extraits.
Cet article porte sur l'extraction de motifs sous contraintes globales. Contrairement aux contraintes usuelles comme celle de fréquence minimale, leur vérification est problématique car elle entraine de multiples comparaisons entre les motifs. Typiquement, la localisation des k motifs maximisant une mesure d'intérêt, i.e. satisfaisant la contrainte top-k, est difficile. Pourtant, cette contrainte globale se révèle très utile pour trouver les motifs les plus significatifs au regard d'un critère choisi par l'utilisateur. Dans cet article, nous proposons une méthode générale d'extraction de motifs sous contraintes globales, appelée Approximer-et-Pousser. Cette méthode peut être vue comme une méthode de relaxation d'une contrainte globale en une contrainte locale évolutive. Nous appliquons alors cette approche à l'extraction des top-k motifs selon une mesure d'intérêt. Les expérimentations montrent l'efficacité de l'approche Approximer-et-Pousser.
Dans cet article, nous proposons une solution pour la classification et le filtrage des sites Web à caractère violent. A la différence de la majorité de systèmes commerciaux basés essentiellement sur la détection de mots indicatifs ou l'utilisation d'une liste noire manuellement collectée, notre solution baptisée, "WebAngels Filter", s'appuie sur un apprentissage automatique par des techniques de data mining et une analyse conjointe du contenu textuel et structurel de la page Web. Les résultats expérimentaux obtenus lors de l'évaluation de notre approche sur une base de test sont assez bons. Comparé avec des logiciels, parmi les plus populaires, "WebAngels Filter" montre sa performance en terme de classification.
La découverte de motifs dans des bases de données relationnelles quelconques est un problème intéressant pour lequel il existe très peu de méthodes efficaces. Nous présentons un cadre dans lequel des paires de requêtes sur les données sont utilisées comme des motifs et nous discutons du problème de la découverte d'associations utiles entre elles. Plus spécifiquement, nous considérons des petites sous-classes de requêtes conjonctives qui nous permettent de découvrir des motifs intéressants de manière efficace.
Dans le contexte de la recherche d'information sur Internet, nous proposons une architecture d'annotation automatique des images médicales, extraites à partir des documents de santé en ligne. Notre système est conçu pour extraire des informations médicales spécifiques (i.e. modalité médicale, région anatomique) à partir du contenu et du contexte des images. Nous proposons une architecture de fusion des approches contenu/contexte adaptée aux images médicales. L'approche orientée sur le contenu des images, consiste à annoter des images inconnues par la catégorisation des représentations visuelles compactes. Nous utilisons en même temps le contexte des images (les régions textuelles) ainsi que des ontologies médicales spécialement adaptées aux informations recherchées. Finalement, nous démontrons qu'en fusionnant les décisions des deux approches, nous améliorons les performances globales du système d'annotation.
Nous utilisons un algorithme d'amorce mutuelle (Riloff et Jones 99), entre des couples de termes d'une relation et des patrons de phrase. À partir de couples d'amorce, le système génère des listes de patrons qui sont ensuite enrichies de façon semi-supervisée, puis utilisées pour trouver de nouveaux couples. Ces couples sont à leur tour réutilisés pour générer, par itérations successives, de nouveaux patrons. L'originalité de l'étude réside dans l'interprétation du rappel, estimé comme la couverture d'un patron sur l'ensemble des exemples auxquels il s'applique
Dans cet article, nous proposons une approche d'évolution de schéma dans les entrepôts de données qui permet aux utilisateurs d'intégrer leurs propres connaissances du domaine afin d'enrichir les possibilités d'analyse de l'entrepôt. Nous représentons cette connaissance sous la forme de règles de type "si-alors". Ces règles sont utilisées pour créer de nouveaux axes d'analyse en générant de nouveaux niveaux de granularité dans les hiérarchies de dimension. Notre approche est fondée sur un modèle formel d'entrepôts de données évolutif qui permet de gérer la mise à jour des hiérarchies de dimension.
Interestingness measures play an important role in data mining regardless of the kind of patterns being mined. These measures are intended for selecting and ranking patterns according to their potential interest to the user. Good measures also allow the time and space cost of the mining process to be reduced. Measuring the interestingness of discovered patterns is an active and important area of data mining research. Although much work has been conducted in this area, so far there is no widespread agreement on a formal definition of interestingness in this context. Based on the diversity of definitions presented to date, interestingness is perhaps best treated as a broad concept, which emphasizes conciseness, coverage, reliability, peculiarity, diversity, novelty, surprisingness, utility, and actionability. This presentation reviews interestingness measures for rules and summaries, classifies them from several perspectives, compares their properties, identifies their roles in the data mining process, gives strategies for selecting appropriate measures for applications, and identifies opportunities for future research in this area.
Cet article est le résultat d'une recherche sur le processus, peu explicité dans la littérature, de création de connaissances dans les communautés de pratique. Nous commençons par établir une définition de travail pour ce concept de communauté de pratique qui permet l'échange et le partage de connaissances au sein de groupes de plus en plus virtuels. Nous analysons ensuite les communautés de pratique sous l'angle de la théorie de l'émergence. Nous proposons, alors, la modélisation d'un outil de support pour ces communautés qui améliore les échanges entre les membres et favorise l'émergence de nouvelles connaissances. Cet outil manipule les connaissances implicites ainsi qu'explicites et propose des possibilités pour la publication et la recherche d'informations. De plus, il s'adapte à chaque membre de la communauté par un processus de personnalisation.
L'enrichissement des bases de données est un moyen visant à offrir un supplément informationnel aux utilisateurs. Dans le cas des données géographiques, cette activité représente de nos jours un problème crucial. Sa résolution permettrait de meilleures prises de décisions ne reposant pas uniquement sur les informations limitées. Notre outil SDET (Semantic Data Enrichment Tool) vient proposer une solution d'enrichissement faisant du Système d'Information Géographiques (SIG) initial une source riche d'informations.
Devant l'accroissement constant des grandes bases de données, plusieurs travaux de recherche en fouille de données s'orientent vers le développement de techniques de représentation compacte. Ces recherches se développent suivant deux axes complémentaires : l'extraction de bases génériques de règles d'association et l'extraction de représentations concises d'itemsets fréquents.Dans ce papier, nous introduisons une nouvelle représentation concise exacte des itemsets fréquents. Elle se situe au croisement de chemins de deux autres représentations concises, à savoir les itemsets fermés et ceux dits essentiels. L'idée intuitive est de profiter du fait que tout opérateur de fermeture induit une fonction surjective. Dans ce contexte, nous introduisons un nouvel opérateur de fermeture permettant de calculer les fermetures des itemsets essentiels. Ceci a pour but d'avoir une représentation concise de taille réduite tout en permettant l'extraction des supports négatif et disjonctif d'un itemset en plus de son support conjonctif. Un nouvel algorithme appelé D-CLOSURE permettant d'extraire les itemsets essentiels fermés est aussi présenté. L'étude expérimentale que nous avons menée a permis de confirmer que la nouvelle approche présente un bon taux de compacité comparativement aux autres représentations concises exactes.
Les méthodes de classification automatique sont employées dans des domaines variés et de nombreux algorithmes ont été proposés dans la littérature. Au milieu de cette "jungle", il semble parfois difficile à un simple utilisateur de choisir quel algorithme est le plus adapté à ses besoins. Depuis le milieu des années 90, une nouvelle thématique de recherches, appelée clustering validity, tente de répondre à ce genre d'interrogation en proposant des indices pour juger de la qualité des catégorisations obtenues. Mais le choix est parfois difficile entre ces indices et il peut s'avérer délicat de prendre la bonne décision. C'est pourquoi nous proposons un logiciel adapté à cette problématique d'évaluation.
Les mesures d'entropie, dont la plus connue est celle de Shannon, ont été proposées dans un contexte de codage et de transmission d'information. Néanmoins, dès le milieu des années soixante, elles ont été utilisées dans d'autres domaines comme l'apprentissage et plus particulièrement pour construire des graphes d'induction et des arbres de décision. L'usage brut de ces mesures n'est cependant pas toujours bien approprié pour engendrer des modèles de prédiction ou d'explication pertinents. Cette faiblesse résulte des propriétés des entropies, en particulier le maximum nécessairement atteint pour la distribution uniforme et l'insensibilité à la taille de l'échantillon. Nous commençons par rappeler ces propriétés classiques. Nous définissons ensuite une nouvelle axiomatique mieux adaptée à nos besoins et proposons une mesure empirique d'entropie plus flexible vérifiant ces axiomes.
Les critères servant à l'évaluation de modèles d'apprentissage supervisé ainsi que ceux utilisés pour bâtir des arbres de décision sont, pour la plupart, symétriques. De manière pragmatique, cela signifie que chacune des modalités de la variable endogène se voit assigner une importance identique. Or, dans nombre de cas pratiques cela n'est pas le cas. Ainsi, on peut notamment prendre l'exemple de jeux de données fortement déséquilibrés pour lesquels l'objectif principal est l'identification des objets représentatifs de la modalité minoritaire (Aide au diagnostic, identification de phénomènes inhabituels : fraudes, pannes...). Dans ce type de situation il apparaît clairement qu'assigner une importance identique aux erreurs de prédiction ne constitue pas la meilleure des solutions. Nous proposons dans cet article un critère (pouvant servir à la fois pour l'évaluation de modèles d'apprentissage supervisé ou encore de critère utilisé pour bâtir des arbres de décision) prenant en compte cet aspect non symétrique de l'importance associée à chacune des modalités de la variable endogène. Nous proposons ensuite une évolution des modèles de type forêts aléatoires utilisant ce critère pour les jeux de données fortement déséquilibrés.
Dans le domaine thermique, la plupart des études reposent sur des modèles à éléments finis. Cependant, le coût en calcul et donc en temps de ces méthodes ont renforcé le besoin de modèles plus compacts. Le réseau RC équivalent est la solution la plus souvent utilisée. Toutefois, ses paramètres doivent souvent être ajustés à l'aide de mesures ou de simulation. Dans ce contexte d'identification de système, les méthodes statistiques seront comparées aux méthodes classiquement utilisées pour la prédiction thermique.
L'ACI FoDoMuSt se propose d'élaborer un processus de fouille de données multi-stratégies pour la reconnaissance automatique d'objets géographiques sur des images satellitaires ou aériennes. Ces dernières sont segmentées afin d'isoler des polygones définis par un ensemble de descripteurs de bas niveaux. Afin de leur affecter une sémantique, on applique dans un premier temps une classification. Si aucun objet géographique n'est identifié, on tente alors un appariement du polygone avec les concepts d'une ontologie d'objets géographiques. Un algorithme de navigation dans l'ontologie et une mesure de comparaison sémantique ont ainsi été développés, paramétrables selon le contexte d'appariement. Cette mesure évalue la pertinence d'un appariement et comprend une composante locale (comparaison au niveau du concept) et une composante globale (combinaison linéaire de mesures locales). La méthode proposée a été développée en JAVA et intégrée à la plate-forme FoDoMuSt. Les premières expérimentations et évaluations humaines sont très encourageantes.
Dans cet article nous étudions la contribution des techniques de fouille de données à l'amélioration des services de communications instantanées sur IP tel que la messagerie instantanée (IM) et la téléphonie sur IP (ToIP).
Dans cet article nous abordons le problème de la classification (ou clustering) dans le but de découvrir des classes avec recouvrements. Malgré quelques avancées récentes dans ce domaines, motivées par des besoins applicatifs importants (traitements des données multimédia par exemple), nous constatons l'absence de solutions théoriques à ce problème. Notre étude consiste alors à proposer une nouvelle formulation du problème de classification par partitionnement, adaptée à la recherche d'un recouvrement des données en classes d'objets similaires. Cette approche se fonde sur la dénition d'un critère objectif de qualité d'un recouvrement et d'une solution algorithmique visant à optimiser ce critère. Nous proposons deux évaluations de ce travail permettant d'une part d'appréhender le fonctionnement global de l'algorithme sur des données simples (vitesse de convergence, visualisation des résultats) et d'autre part d'évaluer quantitativement le bénéfice d'une telle approche sur une application de classification de documents textuels.
Histogram representation of a large set of data is a good way to summarize and visualize data and is frequently performed in order to optimize query estimation in DBMS. In this paper, we show the performance and the properties of two strategies for an optimal construction of histograms on a single real valued descriptor on the base of a prior choice of the number of buckets. The first one is based on the Fisher algorithm, while the second one is based on a geometrical procedure for the interpolation of the empirical distribution function by a piecewise linear function. The goodness of fit is computed using the Wasserstein metric between distributions. We compare the proposed method performances against some existing ones on artificial and real datasets.
Afin de comparer l'organisation sociale d'une paysannerie médiévale avant et après la guerre de Cent Ans nous étudions la structure de réseaux sociaux construits à partir d'un corpus de contrats agraires. Faibles diamètres et fort clustering révèlent des graphes en petit monde. Comme beaucoup de grands réseaux d'interaction étudiés ces dernières années ces graphes sont sans échelle typique. Les distributions des degrés de leurs sommets sont bien ajustées par une loi de puissance tronquée par une coupure exponentielle. Ils possèdent en outre un club-huppé, c'est à dire un noyau dense et de faible diamètre regroupant les individus à forts degrés. La forme particulière des éléments propres du laplacien permet d'extraire des communautés qui se répartissent en étoile autour du club huppé.
L'objectif de la fouille de données est la découverte sophistiquée de connaissances lisibles, surprenantes et possiblement utiles. Les aspects surprenant et utile font partie de la sémantique et nécessitent l'utilisation des connaissances du domaine, ce qui cause souvent le problème d'acquisition de la connaissance. Notre découverte des règles d'exception simultanée peut être une réponse à ce problème. Nous envisageons de trouver les connaissances surprenantes et possiblement utiles à travers notre forme de paire de règles d'exception. Les autres méthodes inventées concernent l'index d'évaluation et la recherche exhaustive. Plusieurs applications médicales seront présentées sur lesquelles nos propositions ont été appliquées.
Le travail présenté dans cet article, rentre dans le cadre de la gestion des données privées en vue de la substitution, appelée remplaçabilité, dynamique des services Web. Trois contributions sont apportées, (1) modélisation des politiques privées spécifiant les règles d'utilisation des données privées, prenant en compte des aspects se rapportant aux services Web, (2) étendre les protocoles de conversations des services Web par le modèle proposé, afin d'apporter les primitives nécessaires pour l'analyse des protocoles en présence de ces règles, (3) définition d'un mécanisme d'analyse de la remplaçabilité d'un service par un autre en vue de ses politiques privées.
RAS (Reference Annotation System) est un outil d'annotation de documents. Cet outil est le résultat de l'implémentation de notre approche d'annotation basée sur le contexte de citation. L'approche est indépendante du contenu et utilise un regroupement thématique des références construit à partir d'une classification floue non-supervisée. L'outil présenté dans cet article a été expérimentée et évaluée avec la base de documents scientifiques Citeseer.
Notre objectif est de transformer les documents Web vers un schéma médiateur XML défini a priori. C'est une étape nécessaire pour de nombreuses tâches de recherche d'information concernant le Web Sémantique, les documents semi-structurés, le traitement de sources hétérogènes, etc. Elle permet d'associer une structure sémantiquement riche à des documents dont le formats ne contient que des informations de présentation. Nous proposons de traiter ce problème comme un problème d'apprentissage structuré en le formalisant comme une transformation d'arbre en arbre.Notre méthode de transformation comporte deux étapes. Dans une première étape, une grammaire hors-contexte probabiliste permet de générer un ensemble de solutions candidates. Dans une deuxième étape, ces solutions candidates sont ordonnées grâce à un algorithme de ré-ordonnancement à base de perceptron à noyau. Cette étape d'ordonnancement nous permet d'utiliser de manière efficace des caractéristiques complexes définies à partir du document d'entrée et de la solution candidate.
Les données vidéo ont la particularité d'être très volumineuses alors qu'elles contiennent peu d'information sémantique. Pour les analyser, il faut réduire la quantité d'information dans l'espace de recherche. Les données vidéo sont souvent considérées comme l'ensemble des pixels d'une succession d'images analysées séquentiellement. Dans cet article, nous proposons d'utiliser une analyse en composantes principales (ACP) pour réduire la dimensionnalité des informations sans perdre la nature tridimensionnelle des données initiales. Nous commençons par considérer des sous-séquences, dont le nombre de trames est le nombre de dimensions dans l'espace de représentation. Nous appliquons une ACP pour obtenir un espace de faible dimension où les points similaires sémantiquement sont proches. La sous-séquence est ensuite divisée en blocs tridimensionnels dont on projette l'ellipsoïde d'inertie dans le premier plan factoriel. Nous déduisons enfin le mouvement présent dans les blocs à partir des ellipses ainsi obtenues. Nous présenterons les résultats obtenus pour un problème de vidéosurveillance.
La classification des images sonar est d'une grande importance par exemple pour la navigation sous-marine ou pour la cartographie des fonds marins. En effet, le sonar offre des capacités d'imagerie plus performantes que les capteurs optiques en milieu sous-marin. La classification de ce type de données rencontre plusieurs difficultés en raison des imprécisions et incertitudes liées au capteur et au milieu. De nombreuses approches ont été proposées sans donner de bons résultats, celles-ci ne tenant pas compte des imperfections des données. Pour modéliser ce type de données, il est judicieux d'utiliser les théories de l'incertain comme la théorie des sous-ensembles flous ou la théorie des fonctions de croyance. Les machines à vecteurs de supports sont de plus en plus utilisées pour la classification automatique aux vues leur simplicité et leurs capacités de généralisation. Il est ainsi possible de proposer une approche qui tient compte de ces imprécisions et de ces incertitudes au coeur même de l'algorithme de classification. L'approche de la régression par SVM que nous avons introduite permet cette modélisation des imperfections. Nous proposons ici une application de cette nouvelle approche sur des données réelles particulièrement complexes, dans le cadre de la classification des images sonar.
Dans cet article, nous présentons une approche de la segmentation thématique fondée sur une représentation en vecteurs sémantiques des phrases et des calculs de distance entre ces vecteurs. Les vecteurs sémantiques sont générés par le système SYGFRAN, un analyseur morpho-syntaxique et conceptuel de la langue française. La segmentation thématique s'effectue elle en recherchant des zones de transition au sein du texte grâce aux vecteurs sémantiques. L'évaluation de cette méthode s'est faite sur les données du défi DEFT'06.
Cet article propose une méthodologie de recherche d'information qui utilise l'analyse conceptuelle conjointement avec la sémantique dans le but de fournir des réponses contextuelles à des requêtes sur le web. Le contexte conceptuel défini dans cet article peut être global – c'est-à-dire stable – ou instantané – c'est-à-dire borné par le contexte global. Notre méthodologie consiste en une première phase de pré traitement permettant de construire le contexte global, et une seconde phase de traitement en ligne des requêtes des utilisateurs, associées au contexte instantané. Notre processus de recherche d'information est illustré à travers une expérimentation dans le domaine du tourisme.
Nous introduisons la notion de sous-base k-faible pour les règles d'association valides au sens de la confiance. Ces sous-bases k-faibles sont caractérisées en termes d'opérateurs de fermeture correspondant à des familles de Moore k-faiblement hiérarchiques.
Les bases de données issues du monde réel contiennent souvent de nombreuses informations non renseignées. Durant le processus d'extraction de connaissances dans les bases de données, une phase de traitement spécifique de ces données est souvent nécessaire, permettant de les supprimer ou de les compléter. Lors de l'extraction de séquences fréquentes, ces données incomplètes sont la plupart du temps occultées. Ceci conduit parfois à l'élimination de plus de la moitié de la base et l'information extraite n'est plus représentative. Nous proposons donc de ne plus éliminer les enregistrements incomplets, mais d'utiliser l'information partielle qu'ils contiennent. La méthode proposée ignore en fait temporairement certaines données incomplètes pour les séquences recherchées. Les expérimentations sur jeux de données synthétiques montrent la validité de notre proposition aussi bien en terme de qualité des motifs extraits que de robustesse aux valeurs manquantes.
Nous nous intéressons à un mécanisme permettant la construction de réponses combinés à partir de plusieurs graphes RDF. Nous imposons, par souci de cohérence, que cette combinaison soit réalisée uniquement si les graphes RDF ne se contredisent pas. Pour déterminer la non-contradiction entre deux graphes RDF nous utilisons une mesure de similarité, calculée au moment de l'ajout de documents RDF dans la base de documents.
Avec le développement de compteurs communicants, les consommations d'énergie électrique pourront à terme être télérelevées par les fournisseurs d'électricité à des pas de temps pouvant aller jusqu'à la seconde. Ceci générera des informations en continu, à un rythme rapide et en quantité importante. Les Systèmes de Gestion de Flux de Données (SGFD), aujourd'hui disponibles sous forme de prototypes, ont vocation à faciliter la gestion de tels flux. Cette communication décrit une étude expérimentale pour analyser les avantages et limites de l'utilisation de deux prototypes de SGFD (STREAM et TelegraphCQ) pour la gestion de données de consommation électrique.
Le but dans ce travail consiste à concevoir et réaliser un Outil Logiciel, en utilisant les concepts du Web Usage Mining pour offrir aux web masters l'ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les décisions adéquates. Il s'agit en fait, d'extraire de l'information à partir du fichier log du serveur Web, hébergeant le site Web, et de prendre les décisions pour découvrir les habitudes des internautes, et de répondre à leurs besoins en adaptant le contenu, la forme et l'agencement des pages web.
La construction d'ontologies à partir de textes reste une tâche coûteuse en temps qui justifie l'émergence de l'Ontology Learning. Notre système, Dynamo, s'inscrit dans cette mouvance, en apportant une approche originale basée sur une architecture multi-agent adaptative. En particulier, l'article présente le coeur de notre approche, un algorithme distribué de classification hiérarchique qui s'applique sur les résultats d'un analyseur syntaxique. Cet algorithme est évalué et comparé à un algorithme centralisé plus conventionnel. Forts de ces résultats, nous discutons ses limites et dressons en perspective les aménagements à effectuer pour aller vers une solution complète de construction d'ontologies.
Les algorithmes de fouille de données sont maintenant capables de traiter de grands volumes de données mais les utilisateurs sont souvent submergés par la quantité de motifs générés. En outre, dans certains cas, que ce soit pour des raisons de confidentialité ou de coûts, les utilisateurs peuvent ne pas avoir accès directement aux données et ne disposer que des motifs. Les utilisateurs n'ont plus alors la possibilité d'approfondir à partir des données initiales le processus de fouille de façon à extraire des motifs plus spécifiques. Pour remédier à cette situation, une solution consiste à gérer les motifs. Ainsi, dans cet article, nous présentons un cadre théorique permettant à un utilisateur de manipuler, en post-traitement, une collection de motifs préalablement extraite. Nous proposons de représenter la collection sous la forme d'un graphe qu'un utilisateur pourra ensuite exploiter à l'aide d'opérateurs algébriques pour y retrouver des motifs ou en chercher de nouveaux.
La reconstruction de réseaux de gènes est un des défis majeurs de la post-génomique. A partir de données d'expression issues de puces à ADN, différentes techniques existent pour inférer des réseaux de gènes. Nous proposons dans ce papier une approche pour la visualisation de réseaux d'interactions entre gènes à partir de données d'expression. L'originalité de notre approche est de superposer des règles avec des sémantiques différentes au sein d'un même support visuel et de ne générer que les règles qui impliquent des gènes dits centraux. Ceux-ci sont spécifiés en amont par les experts et permettent de limiter la génération des règles aux seuls gènes qui intéressent les spécialistes. Une implémentation a été réalisée dans le logiciel libre MeV de l'institut TIGR.
Ce programme effectue une segmentation en phrases d'un texte. Contrairement aux procédures classiques, nous n'utilisons pas d'annotations préliminaires et tirons parti d'un apprentissage guidé par l'utilisateur.
Nous proposons dans cet article une méthode de clustering qui combine l'analyse dynamique et l'analyse statistique pour caractériser des états. Il s'agit d'une méthode de fouille de données qui travaille sur des ensembles de séries temporelles pour détecter des états; ces états représentent les informations les plus significatives du système. L'objectif de cette méthode non supervisée est d'extraire de la connaissance à partir de l'analyse des séries temporelles multiples. Elle s'appuie sur la détection de singularités dans les séries temporelles et sur l'analyse des corrélations des séries entre les intervalles définis par ces singularités. Pour l'application présentée, les séries temporelles sont des signaux biochimiques mesurés durant un bioprocédé. Cette approche est donc utilisée pour confirmer et enrichir la connaissance des experts du domaine des bioprocédés sans utiliser la connaissance a priori de ces experts. Elle est appliquée à la recherche d'états physiologiques dans un bioprocédé de type fed-batch.
Nous nous intéressons à l'estimation de la distribution des rangs d'une variable cible numérique conditionnellement à un ensemble de prédicteurs numériques. Pour cela, nous proposons une nouvelle approche non paramétrique Bayesienne pour effectuer une partition rectangulaire optimale de chaque couple (cible, prédicteur) uniquement à partir des rangs des individus. Nous montrons ensuite comment les effectifs de ces grilles nous permettent de construire un estimateur univarié de la densité conditionnelle sur les rangs et un estimateur multivarié utilisant l'hypothèse Bayesienne naïve. Ces estimateurs sont comparés aux meilleures méthodes évaluées lors d'un récent Challenge sur l'estimation d'une densité prédictive. Si l'estimateur Bayésien naïf utilisant l'ensemble des prédicteurs se révèle peu performant, l'estimateur univarié et l'estimateur combinant deux prédicteurs donne de très bons résultats malgré leur simplicité.
Cet article présente un cadre sociotechnique pour le KM. Cette vision sociotechnique du KM permet : (1) d'écarter le KM d'un souci commercial ; (2) faire le clivage des différentes technologies du KM ; et (3) de s'interroger sur les paradigmes associés aux composants social et technique du KM. C'est précisément ce dernier point que cet article développe afin d'identifier les mécanismes génériques du KM. Plus précisément, l'aspect social est décrit à travers l'approche organisationnelle du KM, l'approche managériale du KM, et l'approche biologique du KM, alors que l'aspect technique est décrit à travers l'approche ingénierie des connaissances et compétences du KM. Ces approches nous conduisent aussi à donner un tableau comparatif entre ces visions organisationnelles, managériales et biologiques du KM.
Le problème de choix d'architecture d'un réseau de neurones multicouches reste toujours très difficile à résoudre dans un processus de fouille de données. Ce papier recense quelques algorithmes de recherche d'architectures d'un réseau de neurones pour les tâches de classification. Il présente également une analyse théorique et expérimentale de ces algorithmes. Ce travail confirme les difficultés de choix des paramètres d'apprentissage (modèle, nombre de couches, nombre de neurones par couches, taux d'apprentissage, algorithme d'apprentissage,...) communs à tout processus de construction de réseaux de neurones et les difficultés de choix de paramètres propres à certains algorithmes.
Nous présentons dans cet article une extension de XQuery que nous avons développée pour interroger le contenu et la structure de documents XML. Cette extension consiste à intégrer dans XQuery le langage NEXI, un sous-ensemble de XPath, défini dans le cadre de l'initiative INEX. Notre proposition est double : (i) équiper NEXI d'une sémantique floue, (ii) intégrer NEXI dans XQuery au moyen d'une métafonction appelée nexi, ayant une requête NEXI comme paramètre, et d'une extension de la clause for de l'opérateur FLWOR de XQuery. De plus, nous décrivons le prototype paramétrable que nous avons développé au dessus de deux moteurs XQuery classiques : Galax et Saxon.
Cet article présente une méthode permettant d'interpréter la sortie d'un modèle de classification ou de régression. L'interprétation se base sur l'importance de la variable et l'importance de la valeur de la variable. Cette approche permet d'interpréter la sortie du modèle pour chaque instance.
En préparation des données pour la classification supervisée, les méthodes filtres usuellement utilisées pour la sélection de variables sont efficaces en temps de calcul. Néanmoins, leur nature univariée ne permet pas de détecter les redondances ou les interactions constructives entre variables. Cet article présente une nouvelle méthode permettant d'évaluer l'importance prédictive jointe d'une paire de variables de façon automatique, rapide et fiable. Elle est basée sur un partitionnement de chaque variable exogène, en intervalles dans le cas numérique et groupes de valeurs dans le cas catégoriel. La grille de données exogène résultante permet alors d'évaluer la corrélation entre la paire de variables exogènes et la variable endogène. Le meilleur partitionnement bivarié est recherché au moyen d'une approche Bayésienne de la sélection de modèle. Les expérimentations démontrent les apports de la méthode, notamment une amélioration significative des performances en classification.
Dans cet article, nous nous intéressons à Fuzzy C-Means (FCM), une technique très connue pour la classification floue. Nous proposons un algorithme efficace basé sur la programmation DC (Difference of Convexe functions) et DCA (DC Algorithm) pour résoudre ce problème. Les expériences numériques comparatives avec l'algorithme standard FCM sur les données réelles montrent la robustesse, la performance de cet nouvel algorithme DCA et sa supériorité par rapport à FCM.
Dans ce papier, une nouvelle plate-forme d'alignement et de visualisation des ontologies, appelée POVA (Prototype OWL-Lite Visual Alignment), est décrite. Le module d'alignement implémente une nouvelle approche d'alignement d'ontologies remédiant au problème de la circularité et de l'intervention de l'utilisateur.
En fouille de règles, certaines situations exceptionnelles défient le bon sens. C'est le cas de la règle R : a --> c et b --> c et (a et b) --> non c. Une telle règle, que nous étudions dans l'article, est appelée règle d'exception. A la suite des travaux précurseurs de E. Suzuki et Y. Kodratoff (1999), qui ont étudié un autre type de règle d'exception, nous cherchons ici à caractériser les conditions d'apparition de la règle R dans le cadre de l'Analyse Statistique Implicative.
Cet article est consacré au problème de la catégorisation multilingue qui consiste à catégoriser des documents de différentes langues en utilisant le même classifieur. L'approche que nous proposons est basée sur l'idée d'étendre l'utilisation de WordNet dans la catégorisation monolingue vers la catégorisation multilingue.
Parmi les outils de visualisation de données multidimensionnelles figurent d'une part les méthodes fondées sur la décomposition aux valeurs singulières, et d'autre part les méthodes de classification, incluant les cartes auto-organisées de Kohonen. Comment valider ces visualisations ? On présente sept procédures de validation par bootstrap qui dépendent des données, des hypothèses, des outils : a) le bootstrap partiel, qui considère les réplications comme des variables supplémentaires; b) le bootstrap total de type 1, qui réanalyse les réplications avec changements éventuels de signes des axes; c) le bootstrap total de type 2 qui corrige aussi les interversions d'axes; d) le bootstrap total de type 3, sur lequel on insistera, qui corrige les réplications par rotations procrustéenne; e) le bootstrap spécifique (cas des hiérarchies d'individus statistiques et des données textuelles). f) le bootstrap sur variables. g) les extensions des procédures précédentes à certaines cartes auto-organisées.
Dans cet article, nous présentons un algorithme multi-agents de clustering dynamique. Ce type de clustering doit permettre de gérer des données évolutives et donc être capable d'adapter en permanence les clusters construits.
Cet article montre l'intérêt de combiner des méthodes numériques et symboliques pour obtenir une annotation sémantique des images IRM du cerveau humain. Il s'agit d'identifier des structures anatomiques du cortex cérébral humain, en utilisant conjointement des connaissances a priori de nature numérique et une ontologie des structures corticales du cerveau représentée en OWL DL, étendue par des règles SWRL. Ces connaissances symboliques a priori représentées dans des langages standards du Web deviennent non seulement partageables mais permettent aussi un raisonnement automatique qui aide l'utilisateur à la labellisation des structures anatomiques mises en évidence dans des images IRM du cerveau d'un individu donné.
Le projet B-Ontology a pour but l'extraction, l'organisation et l'exploitation de connaissances biographiques à partir de dépêches de presse. Sa réalisation requiert l'intégration de diverses technologies, principalement l'extraction d'information, les ontologies et bases de connaissances, les techniques de data mining. Cet article propose un aperçu des choix réalisés dans le cadre du projet. Cette démarche permet également de définir un environnement d'outils utiles pour les applications d'extraction et de gestion de connaissances.
L'extraction de motifs séquentiels est un défi important pour la communauté fouille de données. Même si les représentations condensées ont montré leur intérêt dans le domaine des itemsets, à l'heure actuelle peu de travaux considèrent ce type de représentation pour extraire des motifs. Cet article propose d'établir les premières bases formelles pour obtenir les bornes inférieures et supérieures du support d'une séquence S. Nous démontrons que ces bornes peuvent être dérivées à partir des sous-séquences de S et prouvons que ces règles de dérivation permettent la construction d'une nouvelle représentation condensée de l'ensemble des motifs fréquents. Les différentes expérimentations menées montrent que notre approche offre une meilleure représentation condensée que celles des motifs clos et cela sans perte d'information.
La recherche de règles d'association est une question centrale en Extraction de Connaissances dans les Données (ECD). Dans cet article, nous nous intéressons plus particulièrement à la restitution visuelle de règles pertinentes dans un corpus très important. Nous proposons ainsi un prototype basé sur une approche de type "wrapper" par intégration des phases d'extraction et de visualisation de l'ECD. Tout d'abord, le processus d'extraction génère une base générique de règles et dans un second temps, la tâche de visualisation s'appuie sur un processus de regroupement ("clustering") permettant de grouper et de visualiser un sous-ensemble de règles d'association génériques. Le rendu visuel à l'écran exploite une représentation de type "Fisheye view" de manière à obtenir simultanément une représentation globale des différents groupes de règles et une vue détaillée du groupe sélectionné.
Cet article décrit une étude de cas exhibant les qualités de la plateforme de visualisation de graphes Tulip, démontrant l'apport de la visualisation à la fouille de données interactive et à l'extraction de connaissances. Le calcul d'un graphe à partir d'indices de similarité est un exemple typique où l'exploration visuelle et interactive de graphes vient en appui au travail de fouille de données. Nous penchons sur le cas où l'on souhaite étudier une collection de documents afin d'avoir une idée des thématiques abordées dans la collection.
Nous présentons une méthode d'exploration des résultats des algorithmes d'apprentissage par arbre de décision (comme C4.5). La méthode présentée utilise simultanément une visualisation radiale, focus+context, fisheye et hiérarchique pour la représentation et l'exploration des résultats des algorithmes d'arbre de décision. L'utilisateur peut ainsi extraire facilement des règles d'induction et élaguer l'arbre obtenu dans une phase de post-traitement. Cela lui permet d'avoir une meilleure compréhension des résultats obtenus. Les résultats des tests numériques avec des ensembles de données réelles montrent que la méthode proposée permet une bien meilleure compréhension des résultats des arbres de décision.
WebdocEnrich est une approche d'enrichissement sémantique automatique de documents HTML hétérogènes qui exploite une description du domaine pour enrichir le contenu des documents et les représenter en XML.
Le temps nécessaire pour écouter un flux audio est un facteur réduisant l'accès efficace àde grandes archives de parole. Une première approche, la structuration automatique des données,permet d'utiliser un moteur de recherche pour cibler plus rapidement l'information. Leslistes de résultats générées sont longues dans un souci d'exhaustivité. Alors que pour des documentstextuels, un coup d'oeil discrimine un résultat interessant d'un résultat non pertinant,il faut écouter l'audio dans son intégralité pour en capturer le contenu. Nous proposons doncd'utiliser le résumé automatique afin de structurer les résultats des recherches et d'en réduirela redondance.
On s'intéresse à la construction d'arbres de décision sur des données symboliques de type intervalle en utilisant le critère de découpage binaire de Kolmogorov-Smirnov. Nous proposons une approche permettant d'affecter un individu à la fois aux deux noeuds fils générés par le partitionnement d'un noeud non terminal. Le but de cette méthode est de prendre en compte le positionnement de la donnée à classer par rapport à la donnée seuil de coupure.
Nous présentons un algorithme génétique semi-interactif de sélectionde dimensions dans les grands ensembles de données pour la détectiond'individus atypiques (outliers). Les ensembles de données possédant unnombre élevé de dimensions posent de nombreux problèmes aux algorithmesde fouille de données, une solution est d'effectuer un pré-traitement afin de neretenir que les dimensions "intéressantes". Nous utilisons un algorithmegénétique pour le choix du sous-ensemble de dimensions à retenir. Par ailleursnous souhaitons donner un rôle plus important à l'utilisateur dans le processusde fouille, nous avons donc développé un algorithme génétique semi-interactifoù l'évaluation des solutions n'élimine pas complètement la fonctiond'évaluation mais la couple avec une évaluation de l'utilisateur. Enfin,l'importante réduction du nombre de dimensions nous permet de visualiser lesrésultats de l'algorithme de détection d'outlier. Cette visualisation permet àl'expert des données d'étiqueter les éléments atypiques (erreurs ou simplementdes individus différents de la masse).
Dans la littérature, de nombreux travaux traitent de méthodes d'alignementd'ontologies. Ils utilisent, pour la plupart, des relations basées sur desmesures de similarité qui ont la particularité d'être symétriques. Cependant, peude travaux évaluent l'intérêt d'utiliser des mesures d'appariement asymétriquesdans le but d'enrichir l'alignement produit. Ainsi, nous proposons dans ce papierune méthode d'alignement extensionnelle et asymétrique basée sur la découvertedes implications significatives entre deux ontologies. Notre approche,basée sur le modèle probabiliste d'écart à l'indépendance appelé intensité d'implication,est divisée en deux parties consécutives : (1) l'extraction, à partir ducorpus textuel associé à l'ontologie, et l'association des termes aux concepts;(2) la découverte et sélection des implications génératrices les plus significativesentre les concepts. La méthode proposée est évaluée sur deux jeux de donnéesréels portant respectivement sur des profils d'entreprises et sur des cataloguesde cours d'universités. Les résultats obtenus montrent que l'on peut trouver desrelations pertinentes qui sont ignorées par un alignement basé seulement sur desmesures de similarité.
La technique des motifs fréquents a été utilisée pour améliorer lepouvoir prédictif des stratégies quantitatives. Innovant dans le contexte desmarchés financiers, notre méthode associe une signature aux configurations demarché fréquentes. Un système de « trading » automatique sélectionne lesmeilleures signatures par une procédure de « back testing » itérative et les utiliseen combinaison avec l'indicateur technique pour améliorer sa performance.L'application des motifs fréquents à cette problématique des indicateurstechniques est une contribution originale. Au sens du test t de Student,notre méthode améliore nettement les approches sans signatures. La techniquea été testé sur des données journalières type taux d'intérêt et actions. Notreanalyse des indicateurs (Williams%R, BN et croisement des moments) a montréque qu'une approche par signatures est particulièrement bien adaptée auxstratégies à mémoire courte.
Dans cet article, nous présentons un modèle de fouille des usages dela vidéo pour améliorer la qualité de l'indexation. Nous proposons une approchebasée sur un modèle à deux niveaux représentant le comportement des utilisateursexploitant un moteur de recherche vidéo. Le premier niveau consiste àmodéliser le comportement lors de la lecture d'une vidéo unique (comportementintra vidéo), le second à modéliser le comportement sur l'ensemble d'une session(comportement inter video). A partir de cette représentation, nous avonsdéveloppé un algorithme de regroupement, adapté à la nature particulière de cesdonnées. L'analyse des usages de la vidéo nous permet d'affiner l'indexationvidéo sur la base de l'intérêt des utilisateurs.
Cet article présente un système automatique d'annotation sémantiquede pages web. Les systèmes d'annotation automatique existants sont essentiellementsyntaxiques, même lorsque les travaux visent à produire une annotationsémantique. La prise en compte d'informations sémantiques sur le domaine pourl'annotation d'un élément dans une page web à partir d'une ontologie supposed'aborder conjointement deux problèmes : (1) l'identification de la structuresyntaxique caractérisant cet élément dans la page web et (2) l'identification duconcept le plus spécifique (en termes de subsumption) dans l'ontologie dontl'instance sera utilisée pour annoter cet élément. Notre démarche repose sur lamise en oeuvre d'une technique d'apprentissage issue initialement des wrappersque nous avons articulée avec des raisonnements exploitant la structure formellede l'ontologie.
L'apprentissage de structure des réseaux bayésien à partir de donnéesest un problème NP-difficile pour lequel de nombreuses heuristiques ont été proposées.Dans cet article, nous proposons une nouvelle méthode inspirée des travauxsur la recherche de motifs fréquents corrélés pour identifier les causalitésentre les variables. L'algorithme opère en quatre temps : (1) la découvertepar niveau des motifs fréquents corrélés minimaux ; (2) la construction d'ungraphe non orienté à partir de ces motifs ; (3) la détection des V_structures etl'orientation partielle du graphe ; (4) l'élimination des arêtes superflues par destests d'indépendance conditionnelle. La méthode, appliquée au réseau Asia, permetde retrouver la structure du graphe initial. Nous l'appliquons ensuite auxdonnées d'une étude épidémiologique cas-témoins du cancer du nasopharynx(NPC). L'objectif est de dresser un profil statistique type de la population étudiéeet d'apporter un éclairage utile sur les différents facteurs impliqués dans leNPC.
Cet article propose d'utiliser l'entropie informationnelle pouranalyser des modèles de chroniques découverts selon une approchestochastique (Bouché et Le Goc, 2005). Il décrit une adaptation de l'algorithmeTemporalID3 (Console et Picardi, 2003) permettant de découvrir des modèlesde chroniques à partir d'un ensemble d'apprentissage contenant des séquencesd'occurrences d'événements discrets. Ces séquences représentent des suitesd'alarmes générées par un système à base de connaissance de monitoring et dediagnostic de systèmes dynamiques. On montre sur un exemple que l'approcheentropique complète l'approche stochastique en identifiant les classesd'événements qui contribuent le plus significativement à la prédiction d'uneoccurrence d'une classe particulière.
Nous présentons une nouvelle méthode d'induction d'arbre de décision appelée MuMTree (pour Multi Models Tree) utilisable pour les modes d'apprentissage supervisé, non supervisé, supervisé à plusieurs variables cibles. Nous présentons les différents principes nécessaires pour réaliser un tel arbre de décision. Nous illustrons ensuite, sur un cas de modélisation multi-cibles, les avantages de cette méthode par rapport à un arbre de décision classique.
The analysis of gene expression data in DNA chips is an importanttool used in genomic research whose main objectives range from the study ofthe functionality of specific genes and their participation in biological processto the reconstruction of diseases's conditions and their subsequent prognosis.Gene expression data are arranged in matrices where each gene corresponds toone row and every column represents one specific experimental condition. Thebiclustering techniques have the purpose of finding subsets of genes that showsimilar activity patterns under a subset of conditions. Our approach consists ofa biclustering algorithm based on local nearness. The algorithm searches forbiclusters in a greedy fashion, starting with two–genes biclusters and includingas much as possible depending on a distance threshold which guarantees thesimilarity of gene behaviors.
Récemment la communauté Extraction de Connaissances s'est intéressée à de nouveaux modèles où les données arrivent séquentiellement sous la forme d'un flot rapide et continu, i.e. les data streams. L'une des particularités importantes de ces flots est que seule une quantité d'information partielle est disponible au cours du temps. Ainsi après différentes mises à jour successives, il devient indispensable de considérer l'incertitude inhérente à l'information retenue. Dans cet article, nous introduisons une nouvelle approche statistique en biaisant les valeurs supports pour les motifs fréquents. Cette dernière a l'avantage de maximiser l'un des deux paramètres (précision ou rappel) déterminés par l'utilisateur tout en limitant la dégradation sur le paramètre non choisi. Pour cela, nous définissons les notions de bordures statistiques. Celles-ci constituent les ensembles de motifs candidats qui s'avèrent très pertinents à utiliser dans le cas de la mise à jour incrémentale des streams. Les différentes expérimentations effectuées dans le cadre de recherche de motifs séquentiels ont montré l'intérêt de l'approche et le potentiel des techniques utilisées.
Lesméthodes factorielles d'analyse exploratoire statistique définissentdes directions orthogonales informatives à partir d'un ensemble de données.Elles conduisent par exemple à expliquer les proximités entre individus à l'aided'un groupe de variables caractéristiques.Dans le contexte du datamining lorsqueles tableaux de données sont de grande taille, une méthode de cartographie synthétiques'avère intéressante. Ainsi une carte auto-organisatrice (SOM) est uneméthode de partitionnement munie d'une structure de graphe de voisinage -surles classes- le plus souvent planaire. Des travaux récents sont développés pourétendre le SOM probabiliste Generative Topographic Mapping (GTM) aux modèlesde mélanges classiques pour données discrètes. Dans ce papier nous présentonset étudions un modèle génératif symétrique de carte auto-organisatricepour données binaires que nous appelons Bernoulli Aspect Topological Model(BATM). Nous introduisons un nouveau lissage et accélérons la convergence del'estimation par une initialisation originale des probabilités en jeu.
Les modèles conditionnels du type modèles de Markov d'entropiemaximale et champs de Markov conditionnels apportent des réponses auxlacunes des modèles de Markov cachés traditionnellement employés pour laclassification et la segmentation de séquences. Ces modèles conditionnels ontété essentiellement utilisés jusqu'à présent dans des tâches d'extractiond'information ou d'étiquetage morphosyntaxique. Cette contribution explorel'emploi de ces modèles pour des données de nature différente, de type« signal », telles que la parole ou l'écriture en ligne. Nous proposons desarchitectures de modèles adaptées à ces tâches pour lesquelles nous avonsdérivé les algorithmes d'inférence et d'apprentissage correspondant. Nousfournissons des résultats expérimentaux pour deux tâches de classification etd'étiquetage de séquences.
Le choix du taux d'élagage est crucial dans le but d'acquérir une terminologiede qualité à partir de corpus de spécialité. Cet article présente uneétude expérimentale consistant à déterminer le taux d'élagage le plus adapté.Plusieurs mesures d'évaluation peuvent être utilisées pour déterminer ce tauxtels que la précision, le rappel et le Fscore. Cette étude s'appuie sur une autremesure d'évaluation qui semble particulièrement bien adaptée pour l'extractionde la terminologie : les courbes ROC (Receiver Operating Characteristics).
Ces dernières années, la classification croisée ou classification parblocs, c'est-à-dire la recherche simultanée d'une partition des lignes et d'unepartition des colonnes d'un tableau de données, est devenue un outil très utiliséen fouille de données. Dans ce domaine, l'information se présente souvent sousforme de tableaux de contingence ou tableaux de co-occurrence croisant les modalitésde deux variables qualitatives. Dans cet article, nous étudions le problèmede la classification croisée de ce type de données en nous appuyant sur un modèlede mélange probabiliste. En utilisant l'approche vraisemblance classifiante,nous proposons un algorithme de classification croisée basé sur la maximisationalternée de la vraisemblance associée à deux mélanges multinomiaux classiqueset nous montrons alors que sous certaines contraintes restrictives, on retrouveles critères du Chi2 et de l'information mutuelle. Des résultats sur des donnéessimulées et des données réelles illustrent et confirment l'efficacité et l'intérêt decette approche.
Cet article présente un nouveau modèle de représentation pour la classificationde documents XML. Notre approche permet de prendre en compte soitla structure seule, soit la structure et le contenu de ces documents. L'idée estde représenter un document par l'ensemble des sous-chemins de l'arbre XMLde longueur comprise entre n et m, deux valeurs fixées a priori. Ces cheminssont ensuite considérés comme de simples mots sur lesquels on peut appliquerdes méthodes standards de classification, par exemple K-means. Nous évaluonsnotre méthode sur deux collections: la collection INEX et les rapports d'activitéde l'INRIA. Nous utilisons un ensemble de mesures bien connues dans le domainede la recherche d'information lorsque les classes sont connues a priori.Lorsqu'elles ne sont pas connues, nous proposons une analyse qualitative desrésultats qui s'appuie sur les mots (chemins) les plus caractéristiques des classesgénérées.
Dans cet article, nous proposons un système de classification descomptes-rendus mammographiques, reposant sur une ontologie radiologiquedécrivant les signes radiologiques et les différentes classes de la classificationACR des systèmes BIRADS dans le langage OWL. Le système est conçu pour,extraire les faits issus des textes libres de comptes-rendus en étant dirigé parl'ontologie, puis inférer la classe correspondante et en déduire l'attitude à tenirà partir de la classification ACR. Ce travail présente la construction d'une ontologieradiologique mammaire dans le langage OWL et son intérêt pour classerautomatiquement les comptes-rendus de mammographies.
On présente deux méthodes de classification hiérarchique ascendantede variables quantitatives et de fréquences. Chaque noeud de ces hiérarchiesregroupe deux classes de variables à partir d'une analyse factorielle particulièrebasée sur les variables représentatives de ces deux classes. Par cette méthode,on dispose, à chaque pas, d'un plan factoriel permettant de représenter àla fois les variables des deux classes fusionnées et l'ensemble des individus.Ces derniers se positionnent dans ce plan suivant leurs valeurs pour les variablesconsidérées. Ainsi, l'interprétation des noeuds obtenus s'effectue facilementà partir de l'examen de ces représentations factorielles. La répartition desindividus observée dans chacun de ces plans factoriels permet également dedéfinir une segmentation des individus en total accord avec la hiérarchie desvariables obtenues. On montre le fonctionnement des méthodes sur des exemplesréels.
L'extraction non supervisée et incrémentale de classes sur un flot dedonnées (data stream clustering) est un domaine en pleine expansion. La plupartdes approches visent l'efficacité informatique. La nôtre, bien que se prêtantà un passage à l'échelle en mode distribué, relève d'une problématiquequalitative, applicable en particulier au domaine de la veille informationnelle :faire apparaître les évolutions fines, les « signaux faibles », à partir des thématiquesextraites d'un flot de documents. Notre méthode GERMEN localise defaçon exhaustive les maxima du paysage de densité des données à l'instant t,en identifiant les perturbations locales du paysage à t-1 et modifications defrontières induites par le document présenté. Son caractère optimal provient deson exhaustivité (à une valeur du paramètre de localité correspond un ensembleunique de maxima, et un découpage unique des classes qui la rend indépendantede tout paramètre d'initialisation et de l'ordre des données.
Les étiqueteurs morphosyntaxiques sont de plus en plus performantset cependant, un véritable problème apparaît lorsque nous voulons étiqueterdes corpus de spécialité pour lesquels nous n'avons pas de corpus annotés. Lacorrection des ambiguïtés difficiles est une étape importante pour obtenir uncorpus de spécialité parfaitement étiqueté. Pour corriger ces ambiguïtés et diminuerle nombre de fautes, nous utilisons une approche itérative appelée InductionProgressive. Cette approche est une combinaison d'apprentissage automatique,de règles rédigées par l'expert et de corrections manuelles qui secombinent itérativement afin d'obtenir une amélioration de l'étiquetage tout enrestreignant les actions de l'expert à la résolution de problèmes de plus en plusdélicats. L'approche proposée nous a permis d'obtenir un corpus de biologiemoléculaire « correctement » étiqueté. En utilisant ce corpus, nous avons effectuéune étude comparative de quatre étiqueteurs supervisés.
Cet article présente deux modes de représentation de l'informationdans le cadre d'une problématique en sciences du vivant. Le premier, appliqué àla microbiologie prévisionnelle, s'appuie sur deux formalismes, le modèle relationnelet les graphes conceptuels, interrogés uniformément via une même interface.Le second, appliqué aux technologies des céréales, utilise le seul modèlerelationnel. Cet article décrit les caractéristiques des données et compare les solutionsde représentation adoptées dans les deux systèmes.
L'obtention d'une classification des pages d'un site web en fonctiondes navigations extraites des fichiers "logs" du serveur peut s'avérer très utilepour évaluer l'adéquation entre la structure du site et l'attente des utilisateurs. Onconstruit une telle typologie en s'appuyant une mesure de dissimilarité entre lespages, définie à partir des navigations. Le choix de la mesure la plus appropriéeà l'analyse du site est donc fondamental. Dans cet article, nous présentons unsite de petite taille dont les pages sont classées en catégories sémantiques parun expert. Nous confrontons ce classement aux partitions obtenues à partir dediverses dissimilarités afin d'en étudier les avantages et inconvénients.
Le choix des mesures d'intérêt (MI) afin d'évaluer les règles d'associationest devenu une question importante pour le post-traitement des connaissanceen ECD. Dans la littérature, de nombreux auteurs ont discuté et comparéles propriétés des MI afin d'améliorer le choix des meilleures mesures. Cependant,il s'avère que la qualité d'une règle est contextuelle : elle dépend à la fois dela structure de données et des buts du décideur. Ainsi, certaines mesures peuventêtre appropriées dans un certain contexte, mais pas dans d'autres. Dans cet article,nous présentons une nouvelle approche contextuelle mise en applicationpar un nouvel outil, ARQAT, permettant à un décideur d'évaluer et de comparerle comportement des MI sur ses jeux de données spécifiques. Cette approche estbasée sur l'analyse visuelle d'un graphe de corrélation entre des MI objectives.Nous employons ensuite cette approche afin de comparer et de discuter le comportementde trente-six mesures d'intérêt sur deux ensembles de données a prioritrès opposés : un premier dont les données sont fortement corrélées et un secondaux données faiblement corrélées. Alors que nous attendions des différences importantesentre les graphes de corrélation de ces deux jeux d'essai, nous avonspu observer des stabilités de corrélation entre certaines MI qui sont révélatricesde propriétés indépendantes de la nature des données observées. Ces stabilitéssont récapitulées et analysées.
Basel 2 regulations brought new interest in supervised classification methodologies for predicting default probability for loans. An important feature of consumer credit is that predictors are generally categorical. Logistic regression and linear discriminant analysis are the most frequently used techniques but are often unduly opposed. Vapnik's statistical learning theory explains why a prior dimension reduction (eg by means of multiple correspondence analysis) improves the robustness of the score function. Ridge regression, linear SVM, PLS regression are also valuable competitors. Predictive capability is measured by AUC or Gini's index which are related to the well known non-parametric Wilcoxon-Mann-Whitney test. Among methodological problems, reject inference is an important one, since most samples are subject to a selection bias. There are many methods, none being satisfactory. Distinguish between good and bad customers is not enough, especially for long-term loans. The question is then not only “if”, but “when” the customers default. Survival analysis provides new types of scores.
L'extraction de règles d'association génère souvent un grand nombrede règles. Pour les classer et les valider, de nombreuses mesures statistiquesont été proposées ; elles permettent de mettre en avant telles ou telles caractéristiquesdes règles extraites. Elles ont pour point commun d'être fonctioncroissante du nombre de transactions et aboutissent bien souvent àl'acceptation de toutes les règles lorsque la base de données est de grandetaille. Dans cet article, nous proposons une mesure inspirée de la notion de valeur-test. Elle présente comme principale caractéristique d'être insensible à lataille de la base, évitant ainsi l'écueil des règles fallacieusement significatives.Elle permet également de mettre sur un même pied, et donc de les comparer,des règles qui auront été extraites de bases de données différentes. Elle permetenfin de gérer différents seuils de signification des règles. Le comportement dela mesure est détaillé sur un exemple.
L'objet de la recherche présentée est de concevoir un environnementinformatique d'apprentissage qui permette de réduire l'écart entre la formationthéorique des chirurgiens et leur formation pratique, qui se dérouleprincipalement sur le mode du compagnonnage. L'article expose laméthodologie et quelques illustrations du travail didactique d'analyse desconnaissances et du système d'enseignement / apprentissage en milieuhospitalier (chirurgie orthopédique) ainsi que partie de la formalisationinformatique de cette connaissance. Cette modélisation permet la prise encompte dans l'environnement informatique de connaissances pragmatiquespour le diagnostic des connaissances de l'utilisateur en fonction des actionsqu'il effectue à l'interface pendant la résolution d'un problème (pose de visdans le bassin), et la prise de décision didactique qui suit : quelle rétroactionfournir pour affiner le diagnostic, et/ou permettre l'apprentissage souhaité.
Les systèmes pair-à-pair (peer-to-peer, P2P, égal-à-égal) se sont popularisésces dernières années avec les systèmes de partage de fichiers sur Internet.De nombreuses recherches concernant l'optimisation de la localisationdes données ont émergé et constituent un axe de recherche très actif. La priseen compte de la sémantique du contenu des pairs dans le routage des requêtespermet d'améliorer considérablement la localisation des données. Nous nousconcentrons sur l'approche PlanetP, faisant usage de la notion de filtre de Bloom,qui consiste à propager une signature sémantique des pairs (filtres de Bloom) àtravers le réseau. Nous présentons cette approche et en proposons une amélioration: la création de filtres de Bloom dynamiques, dans le sens où leur tailledépend de la charge des pairs (nombre de documents partagés).
Dans de nombreux domaines, la recherche de connaissances temporellesest très appréciée. Des techniques ont été proposées aussi bien en fouille dedonnées qu'en apprentissage, afin d'extraire et de gérer de telles connaissances,en les associant également à la spécification de contraintes temporelles (e.g.: fenêtretemporelle maximale), notamment dans le contexte de la recherche de motifsséquentiels. Cependant, ces contraintes sont souvent trop rigides ou nécessitentune bonne connaissance du domaine pour ne pas extraire des informationserronées. C'est pourquoi nous proposons une approche basée sur la constructionde graphes de séquences afin de prendre en compte des contraintes de tempsplus souples. Ces contraintes sont relâchées par rapport aux contraintes de tempsprécédemment proposées. Elles permettent donc d'extraire plus de motifs pertinents.Afin de guider l'analyse des motifs obtenus, nous proposons égalementun niveau de précision des contraintes temporelles pour les motifs extraits.
Les méthodes de représentation sémantique des mots à partir d'une analyse statistique sont basées sur des comptes de co-occurences entre mots et unités textuelles. Ces méthodes ont des paramétrages complexes, notamment le type d'unité textuelle utilisée comme contexte. Ces paramètres déterminent fortement la qualité des résultats obtenus. Dans cet article, nous nous intéressons au paramètrage de la technique dite Hyperspace Analogue to Language (HAL).Nous proposons une nouvelle méthode pour explorer ses paramètres discriminants. Cette méthode est basée sur l'analyse d'un graphe de voisinage d'une liste de mots de référence pré-classés. Nous expérimentons cette méthode et en donnons les premiers résultats qui renforcent et complètent des résultats issus de travaux précédents.
La navigation au sein de bases de connaissances reste un problèmeouvert. S'il existe plusieurs paradigmes de visualisation, peu de travaux sur lesretours d'expérience sont disponibles. Dans le cadre de cet article nous noussommes intéressés aux différents paradigmes de navigation interactive au seinde bases documentaires annotées sémantiquement ; l'accès à la base deconnaissances s'effectuant à travers l'ontologie du domaine d'application. Cesparadigmes ont été évalués dans le cadre d'une application industrielle(mécanique des fluides et échangeurs thermiques) en fonction de critèresdéfinis par les utilisateurs. L'analyse des retours d'expérience1 nous a permisde spécifier et de réaliser un nouveau navigateur dédié à la gestion dedocuments techniques annotés par une ontologie de domaine : le « Eye Tree »,navigateur de type « polar fisheye view ».
Nous décrivons dans cet article une chaine de traitement complète etgénérique permettant d'extraire automatiquement les champs numériques (numérosde téléphone, codes clients, codes postaux) dans des documents manuscritslibres. Notre chaïne de traitement est constituée des trois étapes suivantes:localisation des champs numériques potentiels selon une approche markoviennesans reconnaissance chiffre ni segmentation, reconnaissance des séquences extraites,et vérification des hypothèses de localisation / reconnaissance en vue delimiter la fausse alarme génerée lors de l'étape de localisation. L'évaluation denotre système sur une base de 300 courriers manuscrits montre des performancesen rappel-précision intéressantes.
Dans cet article, nous présentons une méthode mixte de segmentationd'objets visuels dans une séquence d'images d'une vidéo combinant à la foisune segmentation basée régions et l'estimation de mouvement par flot optique.L'approche développée est basé sur une minimisation d'une fonctionnelled'énergie (E) qui fait intervenir les probabilités d'appartenance (densité) avecune gaussienne, en tenant compte des informations perceptuelles de couleur etde texture des régions d'intérêt. Pour améliorer la méthode de détection et desuivi, nous avons étendu la formulation énergétique de notre modèle decontour actif en incluant une force supplémentaire issue du calcul du flot optique.Nous montrons l'intérêt de cette approche mixte en terme de temps de calculet d'extraction d'objets vidéo complexes, et nous présentons les résultatsobtenus sur des séquences de corpus vidéo couleur.
Ces dernières années, de nouvelles contraintes sont apparues pour lestechniques de fouille de données. Ces contraintes sont typiques d'un nouveaugenre de données : les “data streams”. Dans un processus de fouille appliquésur un data stream, l'utilisation de la mémoire est limitée, de nouveaux élémentssont générés en permanence et doivent être traités le plus rapidement possible,aucun opérateur bloquant ne peut être appliqué sur les données et celles-ci nepeuvent être observées qu'une seule fois. A l'heure actuelle, la majorité des travauxrelatifs à l'extraction de motifs dans les data streams ne concernent pas lesmotifs temporels. Nous montrons dans cet article que cela est principalement dûau phénomène combinatoire qui est lié à l'extraction de motifs séquentiels. Nousproposons alors un algorithme basé sur l'alignement de séquences pour extraireles motifs séquentiels dans les data streams. Afin de respecter la contrainte d'unepasse unique sur les données, une heuristique gloutonne est proposée pour segmenterles séquences. Nous montrons enfin que notre proposition est capabled'extraire des motifs pertinents avec un support très faible.
Nous présentons un système pour l'inférence de programmes d'extraction de relations dans les documents Web. Il utilise les vues textuelle et structurelle sur les documents. L'extraction des relations est incrémentale et utilise des méthodes de composition et d'enrichissement. Nous montrons que notre système est capable d'extraire des relations pour les organisations existantes dans les documents Web (listes, tables, tables tournées, tables croisées).
Nous présentons ici un système d'extraction et d'identification d'entitésnommées complexes à l'intention des corpus de spécialité biomédicale. Nousavons développé une méthode qui repose sur une approche mixte à base d'ensemblede règles a priori et de dictionnaires contrôlés. Cet article expose lestechniques que nous avons mises en place pour éviter ou minimiser les problèmesde synonymie, de variabilité des termes et pour limiter la présence denoms ambigus. Nous décrivons l'intégration de ces méthodes au sein du processusde reconnaissance des entités nommées. L'intérêt de cet outil réside dans lacomplexité et l'hétérogénéité des entités extraites. Cette méthode ne se limitepas à la détection des noms des gènes ou des protéines, mais s'adapte à d'autresdescripteurs biomédicaux. Nous avons expérimenté cette approche en mesurantles performances obtenues sur le corpus de référence GENIA.
Dans cet article, nous proposons une méthode de classification croiséepermettant de classer des protéines, d'une part, et de classer des descripteurs (3-grammes) selon leurs pertinences par rapport aux groupes de protéines obtenus,d'autres part.
La gestion des connaissances, enjeu majeur pour l'industrie, est entréedans une phase concrète de déploiement. La conjonction d'une maturitédes organisations dans la maîtrise de leur métier, la consolidation de méthodeset les outils évolutifs pour faire vivre un patrimoine de connaissances favorisentl'émergence de projets significatifs et leur diffusion opérationnelle au seinde grands groupes industriels. ICARE chez PSA Peugeot Citroën réalisé avecl'environnement Ardans Knowledge Maker en est ici l'exemple.
Le problème de l'exploitation des règles associatives est devenu primordial,puisque le nombre des règles associatives extraites des jeux de donnéesréelles devient très élevé. Une solution possible consiste à ne dériver qu'unebase générique de règles associatives. Cet ensemble de taille réduite permet degénérer toutes les règles associatives via un système axiomatique adéquat. Danscet article, nous proposons une nouvelle approche FAST-MGB qui permet dedériver, directement à partir du contexte d'extraction formel, une base génériqueminimale de règles associatives.
High-dimensional collections of 0-1 data occur in many applications. The attributes insuch data sets are typically considered to be unordered. However, in many cases there is anatural total or partial order underlying the variables of the data set. Examples of variablesfor which such orders exist include terms in documents and paleontological sites in fossil datacollections. We describe methods for finding fragments of total orders from such data, basedon finding frequently occurring patterns. We also discuss techniques for finding good totalorderings (seriation) based on spectral ordering and MCMC methods
La quantité de sources d'information disponible sur Internet fait dessystèmes d'échanges pair-à-pair (P2P) un genre nouveau d'architecture qui offreà une large communauté des applications pour partager des fichiers, des calculs,dialoguer ou communiquer en temps réel. Dans cet article, nous proposonsune nouvelle approche pour améliorer la localisation d'une ressource sur un réseauP2P non structuré. En utilisant une nouvelle heuristique, nous proposonsd'extraire des motifs qui apparaissent dans un grand nombre de noeuds du réseau.Cette connaissance est très utile pour proposer aux utilisateurs des fichierssouvent demandés (en requête ou en téléchargement) et éviter une trop grandeconsommation de la bande passante.
Ce qui caractérise la fouille de données spatiales est la nécessité de prendre en compte les interactions des objets dans l'espace. Les méthodes classiques de fouille de données sont mal adaptées pour ce type d'analyse. Nous proposons dans cet article une approche basée sur la programmation logique inductive. Elle se base sur deux idées. La première consiste à matérialiser ces interactions spatiales dans des tables de distances, ramenant ainsi la fouille de données spatiales à la fouille de fonnées multi-tables. La seconde transforme les données en logique du premier ordre et applique ensuite la programmation logique inductive. Cet article présentera cette approche. Il décrira son application à la classification supervisée par arbre de décision spatial. Il présentera aussi les expérimentations réalisées et les résultats obtenus sur l'analyse de la contamination des coquillages dans la lagune de Thau.
La découverte d'informations cachées dans les bases de données multimédiasest une tâche difficile à cause de leur structure complexe et à la subjectivitéliée à leur interprétation. Face à cette situation, l'utilisation d'un indexest primordiale. Un index multimédia permet de regrouper les données selondes critères de similarité. Nous proposons dans cet article d'apporter une améliorationà une approche déjà existante d'interrogation d'images par le contenu .Nous proposons une méthode efficace pour mettre à jour, localement, les graphesde voisinage qui constituent notre structure d'index multimédia. Cette méthodeest basée sur une manière intelligente de localisation de points dans un espacemultidimensionnel. Des résultats prometteurs sont obtenus après des expérimentationssur diverses bases de données.
Intégrer le traitement de requêtes de recherche d'information dans unmédiateur XML est un problème difficile. Ceci est notamment dû au fait quecertaines sources de données ne permettent pas de recherche sur mot-clefs etdistance ni de classer les résultats suivant leur pertinence. Dans cet article nousabordons l'intégration des fonctionnalités principales du standard XQuery Textdans XLive, un médiateur XML/XQuery. Pour cela nous avons choisid'indexer des vues virtuelles de documents. Les documents virtuelssélectionnés sont transformés en objets des sources. L'opérateur de sélectiondu médiateur est étendu pour supporter des recherches d'information sur lesdocuments de la vue. La recherche sur mots-clefs et le classement de résultatsont ainsi supportés. Notre formule de classement de résultats est adaptée auformat de données semi-structurées, basé sur le nombre de mots-clefs dans lesdifférents éléments et la distance entre les éléments d'un résultat.
OWL est un langage pour la description d'ontologies sur le Web. Cependant,en tant que langage, OWL ne fournit aucun moyen pour interpréter lesontologies qu'il décrit, et étant orienté machine, il reste difficilement compréhensiblepar l'humain. On propose une approche de visualisation, d'interrogationet de vérification de documents OWL, regroupées dans un unique environnementgraphique : le modèle des graphes conceptuels.
La synthèse en chimie organique consiste à concevoir de nouvellesmolécules à partir de réactifs et de réactions. Les experts de la synthèse s'appuientsur de très grandes bases de données de réactions qu'ils consultent à traversdes procédures d'interrogation standard. Un processus de découverte denouvelles réactions leur permettrait de mettre au point de nouveaux procédés desynthèse. Cet article présente une modélisation des réactions par des graphes etintroduit une méthode de fouille de ces graphes de réaction qui permet de faireémerger des motifs génériques utiles à la prédiction de nouvelles réactions. Enfinl'article fait le point sur l'état actuel de ce travail de recherche en présentantle modèle général dans lequel s'intégrera un nouvel algorithme de fouille deréactions chimiques.
Dans cet article nous nous attaquons au problème du forage de trèsgrandes bases de données distribuées. Le résultat visé est un modèle qui soit etprédictif et descriptif, appelé méta-classificateur. Pour ce faire, nous proposonsde miner à distance chaque base de données indépendamment. Puis, il s'agitde regrouper les modèles produits (appelés classificateurs de base), sachant quechaque forage produira un modèle prédictif et descriptif, représenté pour nos besoinspar un ensemble de règles de classification. Afin de guider l'assemblage del'ensemble final de règles, qui sera l'union des ensembles individuels de règles,un coefficient de confiance est attribué à chaque règle de chaque ensemble. Cecoefficient, calculé par des moyens statistiques, représente la confiance que nouspouvons avoir dans chaque règle en fonction de sa couverture et de son taux d'erreurface à sa capacité d'être appliquée correctement sur de nouvelles données.Nous démontrons dans cet article que, grâce à ce coefficient de confiance, l'agrégationpure et simple de tous les classificateurs de base pour obtenir un agrégatde règles produit un méta-classificateur rapide et efficace par rapport aux techniquesexistantes.
CiteSeer and Google-Scholar are huge digital libraries which provideaccess to (computer-)science publications. Both collections are operated likespecialized search engines, they crawl the web with little human interventionand analyse the documents to classify them and to extract some metadata fromthe full texts. On the other hand there are traditional bibliographic data baseslike INSPEC for engineering and PubMed for medicine. For the field of computerscience the DBLP service evolved from a small specialized bibliographyto a digital library covering most subfields of computer science. The collectionsof the second group are maintained with massive human effort. On the longterm this investment is only justified if data quality of the manually maintainedcollections remains much higher than that of the search engine style collections.In this paper we discuss management and algorithmic issues of data quality. Wefocus on the special problem of person names
Nos travaux visent à proposer une mémoire d'expertises décisionnellespermettant de conserver et de manipuler non seulement les données décisionnellesmais aussi l'expertise analytique des décideurs. Les données décisionnellessont représentées au travers de concepts multidimensionnels etl'expertise associée est matérialisée grâce au concept d'annotation
Dans cet article nous proposons d'exploiter des mesures décrivant laqualité des données pour définir la qualité des règles d'associations résultantd'un processus de fouille. Nous proposons un modèle décisionnel probabilistebasé sur le coût de la sélection de règles légitimement, potentiellement intéressantesou inintéressantes si la qualité des données à l'origine de leur calcul estbonne, moyenne ou douteuse. Les expériences sur les données de KDD-CUP-98 montrent que les 10 meilleures règles sélectionnées d'après leurs mesuresde support et confiance ne sont intéressantes que dans le cas où la qualité deleurs données est correcte voire améliorée.
Pour comprendre et représenter les évolutions du bâti, question renouvelée avec le développement des NTIC, l'analyste s'appuie sur des connaissances évolutives ayant dans notre champ d'application - le patrimoine architectural – un caractère spatialisable (par l'attachement à un lieu lambda) mais aussi des caractéristiques handicapantes (hétérogénéité, incertitudes et contradictions, etc.). En réponse, nous utilisons ce caractère spatialisable pour intégrer les ressources constituant le jeu de connaissances propre à chaque édifice: théorie, sources documentaires, observations. Cette démarche que nous nommons modélisation informationnelle a pour objectif un gain de compréhension du lieu architectural et des informations qui lui sont associées. Notre contribution introduit les filiations de cette démarche, le cadre méthodologique qui la matérialise, et discute de son application au cas concret de la place centrale de Cracovie (Rynek Glowny) pour en évaluer l'apport potentiel en matière de gestion et de visualisation de connaissances.
La fouille de données textuelles constitue un champ majeur dutraitement automatique des données. Une large variété de conférences, commeTREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouillede textes juridiques, dans l'objectif est le classement automatique de ces textes.Nous utilisons des outils d'analyses linguistiques (extraction de terminologie)dans le but de repérer les concepts présents dans le corpus. Ces conceptspermettent de construire un espace de représentation de faible dimensionnalité,ce qui nous permet d'utiliser des algorithmes d'apprentissage basés sur desmesures de similarité entre individus, comme les graphes de voisinage. Nouscomparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sontutilisés sans réduction de la dimensionnalité.
La recherche de médicaments passe par la synthèse de molécules candidatesdont l'efficacité est ensuite testée. Ce processus peut être accéléré enidentifiant les molécules non solubles, car celles-ci ne peuvent entrer dans lacomposition d'un médicament et ne devraient donc pas être étudiées. Des techniquesont été développées pour induire un modèle de prédiction de l'indice desolubilité, utilisant principalement des réseaux de neurones ou des régressionslinéaires multiples. La plupart des travaux actuels visent à enrichir les donnéesde caractéristiques supplémentaires sur les molécules. Dans cet article, nous étudionsl'intérêt de la construction automatique d'attributs basée sur la structureintrinsèquement multi-relationnelle des données. Les attributs obtenus sont utilisésdans un algorithme d'arbre de modèles, auquel on associe une méthodede bagging. Les tests réalisés montrent que ces méthodes donnent des résultatscomparables aux meilleures méthodes du domaine qui travaillent sur des attributsconstruits par les experts.
La problématique générale présentée dans ce papier concerne lessystèmes intelligents, dédiés pour l'aide à la prise de décision dans le domaineradar. Les premiers travaux ont donc consisté après avoir adapté le processusd'extraction de connaissances à partir de données (ECD) au domaine radar, àmettre en oeuvre les étapes en amont de la phase de fouille de données. Nousnous limitons dans ce papier à la phase de préparation des données (imagesISAR : Inverse Synthetic Aperture Radar). Nous introduisons ainsi la notion dequalité comme moyen d'évaluer l'imperfection dans les données radarsexpérimentales.
Nous présentons une nouvelle approche pour le traitement des ensemblesde données de très grande taille en fouille visuelle de données. Les limitesde l'approche visuelle concernant le nombre d'individus et le nombre dedimensions sont connues de tous. Pour pouvoir traiter des ensembles de donnéesde grande taille, une solution possible est d'effectuer un prétraitement del'ensemble de données avant d'appliquer l'algorithme interactif de fouille visuelle.Pour ce faire, nous utilisons la théorie du consensus (avec une affectationvisuelle des poids). Nous évaluons les performances de notre nouvelle approchesur des ensembles de données de l'UCI et du Kent Ridge Bio MedicalDataset Repository.
La recherche d'un schéma médiateur à partir d'un ensemble de schémasXML est une problématique actuelle où les résultats de recherche issusde la fouille de données arborescentes peuvent être adoptés. Dans ce contexte,plusieurs propositions ont été réalisées mais les méthodes de représentation desarborescences sont souvent trop coûteuses pour permettre un véritable passageà l'échelle. Dans cet article, nous proposons des algorithmes de recherche desous-schémas fréquents basés sur une méthode originale de représentation deschémas XML. Nous décrivons brièvement la structure adoptée pour ensuitedétailler les algorithmes de recherche de sous-arbres fréquents s'appuyant surune telle structure. La représentation proposée et les algorithmes associés ontété évalués sur différentes bases synthétiques de schémas XML montrant ainsil'intérêt de l'approche proposée
Au cours de ces dernières années, de nombreuses techniques de streammining ont été proposées afin d'analyser des flux de données en temps réel.Dans cet article, nous montrons comment nous avons utilisé des techniques destream mining permettant la recherche d'objets massifs hiérarchiques (hierarchicalheavy hitters) dans un flux de données pour identifier en temps réel dans unréseau IP les préfixes dont la contribution au trafic dépasse une certaine proportionde ce trafic pendant un intervalle de temps donné.
Ce papier présente la version adaptative d'un algorithmed'extraction d'épisodes temporels développé précédemment. Les trois paramè-tres de réglages de l'algorithme ne sont plus fixes. Ils sont modifiés en ligne enfonction de la variance estimée du signal que l'on veut décomposer en épiso-des temporels. La version adaptative de l'algorithme a été utilisée pour recon-naître automatiquement des aspirations trachéales à partir de plusieures varia-bles physiologiques enregistrés sur des patients hospitalisés en réanimation.Des résultats préliminaires sont présentés dans ce papier.
Ce papier présente une approche qui s'appuie sur une ontologie pourreconnaître automatiquement des concepts spécifiques à un domaine dans uncorpus en langue naturelle. La solution proposée est non-supervisée et peuts'appliquer à tout domaine pour lequel une ontologie a été déjà construite. Uncorpus du domaine est utilisé dans lequel les concepts seront reconnus. Dansune première phase, des connaissances sont extraites de ce corpus en faisantappel à des fouilles de textes. Une ontologie du domaine est utilisée pour étiqueterces connaissance. Le papier donne un aperçu des techniques de fouillesemployées et décrit le processus d ‘étiquetage. Les résultats d‘une premièreexpérimentation dans le domaine de l'accidentologie sont aussi présentés
La communauté de fouille de données a développé un grand nombre d'indices permettantde mesurer la qualité des règles d'association (RA) selon diverses sémantiques (Guillet,2004). Cependant ces sémantiques, qui permettent d'interpréter les règles simples, s'avèrentd'utilisation trop complexe pour un expert dans le cas de règles à prémisse composée. Notreobjectif est donc de sélectionner les règles à prémisse composée de type AB→C quiapportent une information supplémentaire à celle des règles simples A→C et B→C. Pourcela nous définissons un indice de gain d'une règle composée par rapport aux règles simples.Dans l'application présentée, nous extrayons des RA de résultats de classifications pouren faciliter l'analyse . Le gain a permis de filtrer des règles d'interprétation simple
La classification suivant le plus proche voisin est une règle simple etperformante. Sa mise en oeuvre pratique nécessite, tant pour des raisons de coûtde calcul que de robustesse, de sélectionner les instances à conserver. La partitionde Voronoi induite par les prototypes constitue la structure sous-jacente àcette règle. Dans cet article, on introduit un critère descriptif d'évaluation d'unetelle partition, quantifiant le compromis entre nombre de cellules et discriminationde la variable cible entre les cellules. Une heuristique d'optimisation estproposée, tirant partie des propriétés des partitions de Voronoi et du critère. Laméthode obtenue est comparée avec les standards sur une vingtaine de jeux dedonnées de l'UCI. Notre technique ne souffre d'aucun défaut de performanceprédictive, tout en sélectionnant un minimum d'instances. De plus, elle ne surapprendpas.
Nous présentons un nouvel algorithme de SVM (Support VectorMachine ou Séparateur à Vaste Marge) linéaire et non-linéaire, parallèle etdistribué permettant le traitement de grands ensembles de données dans untemps restreint sur du matériel standard. A partir de l'algorithme de Newton-GSVM proposé par Mangasarian, nous avons construit un algorithmeincrémental, parallèle et distribué permettant d'améliorer les performances entemps d'exécution et mémoire en s'exécutant sur un groupe d'ordinateurs. Cenouvel algorithme a la capacité de classifier un million d'individus en 20dimensions et deux classes en quelques secondes sur un ensemble de dix PC
Dans cet article, nous montrons comment les techniques de fouilles de données peuvent résoudre efficacement le problème de la réécriture de requêtes en termes de vues en présence de contraintes de valeurs. A partir d'une formalisation du problème de la réécriture dans le cadre de la logique de description ALN(Ov), nous montrons comment ce problème se rattache à un cadre de découverte de connaissances dans les bases de données. L'exploitation de ce cadre nous permet de bénéficier de solutions algorithmiques existantes pour la résolution du problème de réécriture. Nous proposons une implémentation de cette approche, puis nous l'expérimentons. Les premiers résultats démontrent l'intérêt d'une telle approche en termes de capacité à traiter un grand nombre de sources de données.
Le logiciel Teximus Expertise est un outil évolué de gestion dynamiquede connaissances basé sur les notions de référentiel sémantique. Cette suiteintégrée facilite le partage de connaissances et d'informations dans les entreprises.
L'analyse statistique implicative traite des tableaux sujets xvariables afin d'extraire règles et métarègles statistiques entre les variables.L'article interroge les structures obtenues représentées par graphe et hiérarchieorientés afin de dégager la responsabilité des sujets ou des groupes de sujets(variables supplémentaires) dans la constitution des chemins du graphe ou desclasses de la hiérarchie. On distingue les concepts de typicalité pour signifier laproximité des sujets avec le comportement moyen de la population envers lesrègles statistiques extraites, puis de contribution pour quantifier le rôlequ'auraient les sujets par rapport aux règles strictes associées. Un exemple dedonnées réelles, traité à l'aide du logiciel CHIC, illustre et montre l'intérêt deces deux concepts.
On ne peut s'intéresser aux textes sans s'intéresser à leur nature. La nature des textes permet de distinguer les textes d'un point de vue primaire. Elle est utilisée pour identifier les textes artificiels, pour la reconnaissance de la langue, afin d'identifier les SPAMS... En ce sens, la méthode la plus connue reste encore la méthode de Zipf. Cet article propose une nouvelle méthode basée sur un automate. L'automate construit un signal pour chaque texte. L'automate est présenté en détail et des expérimentations montrent son utilité dans les domaines aussi divers que ceux cités précédemment/
Ce travail s'intègre dans la problématique générale de la recherched'information ; et plus particulièrement dans la personnalisation et la qualitéd'information. Dans cet article nous proposons un modèle multidimensionnelde la qualité de l'information décrivant les différents facteurs de qualité influantsur la personnalisation de l'information. Ce modèle permet de structurerles différents facteurs de qualité de l'information dans une hiérarchie afind'assister l'utilisateur dans la construction de son propre profil selon ses besoinset ses exigences en termes de qualité.
Les systèmes d'informations géographiques (SIG) sont utilisés pouraméliorer l'efficacité des entreprises et des services publics, en associantméthodes d'optimisation et prise en compte de la dimension géographique.Cependant, les bases de données géographiques (BDG) stockées dans les SIGsont restreintes à l'application pour laquelle elles ont été conçues. Souvent, lesutilisateurs demeurent contraints de l'existant et se trouvent dans le besoin dedonnées complémentaires pour une prise de décision adéquate. D'où, l'idée del'enrichissement de l'aspect descriptif des BDG existantes. Pour atteindre cetobjectif, nous proposons une approche qui consiste à intégrer un module defouille de données textuelles au SIG lui même. Il s'agit de proposer uneméthode distribuée de résumé de documents multiples à partir de corpus enligne.L'idée est de faire coopérer un ensemble d'agents s'entraidant afind'aboutir à un résumé optimal.
Ce papier est consacré à la simulation ou à la réalisation automatiquede schémas tactiques par un groupe d´agents footballeurs autonomes. Son objectifest de montrer ce que peuvent apporter des techniques d'apprentissagepar renforcement à des agents réactifs conçus pour cette tâche. Dans un premiertemps, nous proposons une plateforme et une architecture d'agents capabled'effectuer des schémas tactiques dans des cas relativement simples. Ensuite,nous mettons en oeuvre un algorithme d'apprentissage par renforcementpour permettre aux agents de faire face à des situations plus complexes. Enfin,une série d'expérimentations montrent le gain apporté aux agents réactifs parl'utilisation d'algorithmes d'apprentissage.
Le transit des flux d'information dans le réseau Internet à l'échellemondiale est régi par des accords commerciaux entre systèmes autonomes, accordsqui sont mis en oeuvre via le protocole de routage BGP. La négociationde ces accords commerciaux repose implicitement sur une hiérarchie des systèmesautonomes et la position relative de deux systèmes débouche sur un accordde type client/fournisseur (un des systèmes, le client, est nettement mieuxclassé que l'autre, le fournisseur, et le client paye le fournisseur pour le transitdes flux d'information) ou sur un accord de type "peering" (transit gratuit dutrafic entre les deux systèmes). En dépit de son importance, il n'existe pas dehiérarchie officielle de l'Internet (les clauses commerciales des accords entresystèmes autonomes ne sont pas nécessairement publiques) ni de consensus surla façon d'établir une telle hiérarchie. Nous proposons une heuristique simpleinspirée de la notion de "centralité spectrale" issue de l'analyse des réseaux sociauxpour analyser la position relative des systèmes autonomes de l'Internet àpartir des informations des seules informations de connectivité entre systèmesautonomes.
Cet article propose une comparaison graphique de certains indices depertinence pour évaluer l'intérêt des règles d'association. Nous nous sommesappuyés sur une étude existante pour sélectionner quelques indices auxquelsnous avons ajouté l'indice de Jaccard et l'indice d'accords désaccords (IAD).Ces deux derniers nous semblent plus adaptés pour discriminer les règles intéressantesdans le cas où les items sont des événements peu fréquents. Une applicationest réalisée sur des données réelles issues du secteur automobile
Cet article traite du regroupement d'unités textuelles dans une perspectived'aide à l'élaboration d'ontologies spécialisées. Le travail présenté s'inscritdans le cadre du projet BIOTIM. Nous nous concentrons ici sur l'une desétapes de construction semi-automatique d'une ontologie qui consiste à structurerun ensemble d'unités textuelles caractéristiques en classes susceptibles dereprésenter les concepts du domaine. L'approche que nous proposons s'appuiesur la dénition d'une nouvelle mesure non-symétrique permettant d'évaluer laproximité entre lemmes, en utilisant leurs contextes d'apparition dans les documents.En complément de cette mesure, nous présentons un algorithme declassication non-supervisée adapté à la problématique et aux données traitées.Les premières expérimentations présentées sur les données botaniques laissentpercevoir des résultats pertinents pouvant être utilisés pour assister l'expert dansla détermination et la structuration des concepts du domaine.
Les ontologies sont au coeur du processus de gestion des connaissances.Différentes mesures sémantiques ont été proposées dans la littératurepour évaluer quantitativement l'importance de la liaison sémantique entre pairesde concepts. Cet article propose une synthèse analytique des principales mesuressémantiques basées sur une ontologie modélisée par un graphe et restreinte iciaux liens hiérarchiques is-a. Après avoir mis en évidence différentes limites desmesures actuelles, nous en proposons une nouvelle, la PSS (Proportion of SharedSpecificity), qui sans corpus externe, tient compte de la densité des liens dans legraphe reliant deux concepts
Les résultats des méthodes de fouille de données sont difficilementinterprétables par un utilisateur n'ayant pas l'expertise requise. Dans ce papiernous proposons un outil permettant aux utilisateurs d'interpréter les résultatsissus des méthodes de classification non supervisée. Cet outil est basé sur desmétadonnées utilisées pour formaliser le processus d'interprétationautomatique. Ces métadonnées vont servir à l'utilisateur pour comprendre dansquelles circonstances les données originales ont été collectées et de quellemanière elles ont été agrégées puis classifiées. L'intérêt de ce travail porte surla souplesse qu'auront les utilisateurs à pouvoir interpréter facilement lesclasses obtenues. Nous développons notre approche basée sur l'utilisation desmétadonnées. Nous traduirons notre méthodologie par un exemple concret.
Cet article aborde le problème de l'utilisation d'un modèle de connaissancedans un contexte de fouille de données. L'approche méthodologique proposéemontre l'intérêt de la mise en oeuvre de réseaux bayésiens couplée à l'extractionde règles d'association dites delta-fortes (membre gauche minimal, fréquenceminimale et niveau de confiance contrôlé). La découverte de règles potentiellementutiles est alors facilitée par l'exploitation des connaissances décritespar l'expert et représentées dans le réseau bayésien. Cette approche estvalidée sur un cas d'application concernant la fouille de données d'interruptionsopérationnelles dans l'industrie aéronautique.
Un certain nombre de travaux en fouille de données se sont intéressés à l'extraction de motifs et à la génération de règles d'association à partir de ces motifs. Cependant, ces travaux se sont jusqu'à présent, centrés sur la notion de motifs fréquents. Le premier algorithme à avoir permis l'extraction de tous les motifs fréquents est Apriori mais d'autres ont été mis au point par la suite, certains n'extrayant que des sous-ensembles de ces motifs (motifs fermés fréquents, motifs fréquents maximaux, générateurs minimaux). Dans cet article, nous nous intéressons aux motifs rares qui peuvent également véhiculer des informations importantes. Les motifs rares correspondent au complémentaire des motifs fréquents. A notre connaissance, ces motifs n'ont pas encore été étudiés, malgré l'intérêt que certains domaines pourraient tirer de ce genre de modèle. C'est en particulier le cas de la médecine, où par exemple, il est important pour un praticien de repérer les symptômes non usuels ou les effets indésirables exceptionnels qui peuvent se déclarer chez un patient pour une pathologie ou un traitement donné.
Les systèmes de gestion des connaissances servent de support pour lacréation et la diffusion de mémoires d'entreprises qui permettent de capitaliser,conserver et enrichir les connaissances des experts. Dans ces systèmes, l'interactionavec les experts est effectuée avec des outils adaptés dans lesquels uneformalisation graphique des connaissances est utilisée. Cette formalisation estsouvent basée au niveau théorique sur des modèles de graphes mais de façonpratique, les représentations visuelles sont souvent des arbres et des limitationsapparaissent par rapport aux représentations basées sur des graphes. Dans cetarticle nous présentons le modèle utilisé par le serveur de connaissances Atanorqui utilise des arbres pour visualiser les connaissances, et nous développons unenouvelle approche qui permet de représenter les mêmes connaissances sous laforme de graphes en niveaux. Une analyse comparative des deux méthodes dansun contexte industriel de maintenance permet de mettre en valeur l'apport desgraphes dans le processus de visualisation graphique des connaissances.
Nous présentons dans cet article une méthode de visualisation interactivede données numériques ou symboliques permettant à un utilisateur expertdu domaine d'obtenir des informations et des connaissances pertinentes. Nousproposons une approche nouvelle en adaptant l'utilisation des points d'intérêtsdans un contexte de fouille visuelle de données. A partir d'un ensemble de pointsd'intérêt disposés sur un cercle, les données sont visualisées à l'intérieur de cecercle en fonction de leur similarité à ces points d'intérêt. Des opérations interactivessont alors définies : sélectionner, zoomer, changer dynamiquement lespoints d'intérêts. Nous évaluons les propriétés d'une telle visualisation sur desdonnées aux caractéristiques connues. Nous décrivons une application réelle encours dans le domaine de l'exploration de données issues d'enquêtes de satisfaction.
Cet article décrit le projet MEAT (Mémoire d'Expériences pourl'Analyse du Transcriptome) dont le but est d'assister les biologistes travaillantdans le domaine des puces à ADN, pour l'interprétation et la validation de leursrésultats. Nous proposons une aide méthodologique et logicielle pour construireune mémoire d'expériences pour ce domaine. Notre approche, basée surles technologies du web sémantique, repose sur l'utilisation des ontologies etdes annotations sémantiques sur des articles scientifiques et d'autres sourcesde connaissances du domaine. Notre approche peut être généralisée à d'autresdomaines requérant des expérimentations et traitant un grand flux de données(protéomique, chimie,etc.).
Les techniques de Web Usage Mining existantes sont actuellementbasées sur un découpage des données arbitraire (e.g. "un log par mois") ou guidépar des résultats supposés (e.g. "quels sont les comportements des clients pourla période des achats de Noël ? "). Ces approches souffrent des deux problèmessuivants. D'une part, elles dépendent de cette organisation arbitraire des donnéesau cours du temps. D'autre part elles ne peuvent pas extraire automatiquementdes "pics saisonniers" dans les données stockées. Nous proposons d'exploiterles données pour découvrir de manière automatique des périodes "denses" decomportements. Une période sera considérée comme "dense" si elle contient aumoins un motif séquentiel fréquent pour l'ensemble des utilisateurs qui étaientconnectés sur le site à cette période.
Cet article présente une approche (ACKA an Approach for Cooperative Knowledge Acquisition) participative et coopérative d'acquisition de connaissances nécessaires pour la construction d'un modèle de simulation basé sur des agents. Elle est basée sur le principe de jeu de rôles dans une réunion d'entreprise. Nous proposons de construire un modèle multi-acteurs, représentant un modèle initial du système multi-agents. Dans cette étude, Nous appliquons ACKA pour construire un modèle multi-acteurs pour la compréhension des processus de décision dans les ?rmes de la ?liere avicole. En particulier, nous cherchons à comprendre les impacts des comportements individuels sur la gestion de l'utilisation des matières premières agricoles.
Nous présentons une méthodologie d'extraction, de gestion et d'exploitation de connaissances dans un contexte multi-experts. Elle repose sur trois étapes : extraction des connaissances de chaque expert, gestion des connaissances individuelles afin de constituer une base de connaissances commune et exploitation de cette base afin de fournir une aide à la décision aux experts. La méthodologie proposée a été mise en œuvre au Cameroun avec cinq experts en micro-finance. Elle a donné des résultats en adéquation avec les pratiques des experts. Au-delà, on envisage de mettre en œuvre un système de capitalisation des connaissances. Il doit permettre d'analyser rapidement un plus grand nombre de situations, les experts restant en nombre limité, et contribuer à un transfert de compétences pour former les décideurs locaux. En effet, les experts sont en général membres d'ONG et restent rarement plus de deux ans sur place.
Devant la prolifération des données complexes qui ne cessent de croître, et la diversité des structures qui se multiplient, la conception des schémas de base de données en général et des schémas objet-relationnels en particulier, est devenue une activité difficile et complexe, qui fait appel à des connaissances variées. Lors de la conception d'un schéma, l'utilisateur (non averti) doit connaître la théorie sous-jacente au modèle de données, de façon à énoncer son modèle, syntaxiquement correct lui permettant de construire un schéma de base de données objet-relationnel répondant à ses besoins. Plusieurs outils spécialisés dans la conception de schémas de base de données provenant aussi bien de la communauté académique que du monde industriel, tels Super, Totem, Rational/Rose, etc. ont été développés dans des contextes et avec des buts souvent très différents. Affin de répondre à ce besoin pressant, nous avons proposé une solution consistant en l'élaboration d'environnements intégrés facilitant la cohabitation de plusieurs modèles et techniques utilisés lors de la conception d'un schéma de base de données. Il s'agit d'offrir une plate-forme logicielle appelée AID (Aided Interface for Database design) offrant des mécanismes opératoires uniformes représentant un soutien graphique et interactif pour une conception incrémentale basée sur des manipulations directes et systémiques des graphes au travers d'une palette graphique d'opérateurs. L'innovation d'AID est son approche systémique qui facilite l'expression des besoins par le concepteur averti ou non, en lui automatisant sa tâche.
Notre travail s'appuie sur l'analyse d'un corpus bibliographique dans le domaine de la géotechnique à l'aide de cartes réalisées avec la plateforme Stanalyst®. Celui-ci intègre un algorithme de classification automatique non hiérarchique (les K-means axiales) donnant des résultats dépendant du nombre de classes demandé. Cette instabilité rend difficile toute comparaison entre classifications, et laisse un doute quant au choix du nombre de classes nécessaire pour représenter correctement un domaine. Nous comparons les résultats de classifications selon 3 protocoles : (1) analyse des intitulés des classes ; (2) relations entre les classes à partir des membres communs ; (3) règles d'association floues. Les graphes obtenus présentant des similitudes remarquables, nous privilégions les règles d'association floues : elles sont extraites automatiquement et se basent sur la description des classes et non des membres. Ceci nous permet donc d'analyser des classifications issues de corpus différents.
Dans cet article nous appliquons l'analyse de données symboliques au graphe de connaissances d'un agent. Nous présentons une mesure de similarité entre des données symboliques adaptée à nos graphes de connaissances. Nous utilisons les pyramides symboliques pour extraire un nouvel objet symbolique. Le nouvel objet est ensuite réinséré dans le graphe où il peut être utilisé par l'agent, faisant ainsi évoluer sa sémantique. Il peut alors servir d'individu lors des analyses ultérieures, permettant de découvrir de nouveaux concepts prenant en compte l'évolution de la sémantique.
Cet article concerne la découverte de signatures (ou modèles de chroniques) à partir d'une séquence d'événements discrets (alarmes) générée par un agent cognitif de surveillance (Monitoring Cognitive Agent ou MCA).Considérant un couple (Processus, MCA) comme un générateur stochastique d'événements discrets, deux représentations complémentaires permettent de caractériser les propriétés stochastiques et temporelles d'un tel générateur : une chaîne de Markov à temps continu et une superposition de processus de Poisson. L'étude de ces deux représentations duales permet de découvrir des "signatures" décrivant les relations stochastiques et temporelles entre événements dans une séquence. Ces signatures peuvent alors être utilisées pour reconnaître des comportements spécifiques, comme le montre l'application de l'approche à un outil de production industriel piloté par un système Sachem, le MCA développé et utilisé par le groupe Arcelor pour aider au pilotage de ses outils de production.
Nous présentons la méthode INSYSE (INterface SYntaxe SEmantique) pour l'annotation de documents textuels. Notre objectif est de construire des annotations sémantiques de ces résumés pour interroger le corpus sur la fonction des gènes et leurs relations de causalité avec certaines maladies. Notre approche est semi-automatique, centrée sur (1) l'extraction d'informations lexico-syntaxiques à partir de certaines phrases du corpus comportant des lexèmes de causation, et (2) l'élaboration de règles basées sur des grammaires d'unification permettant d'acquérir à partir de ces informations des schémas conceptuels instanciés. Ceux-ci sont traduits en annotations RDF(S) sur la base desquelles le corpus de textes peut être interrogé avec le moteur de recherche sémantique Corese.
Pour reconnaitre les objets cartographiques dans les images satellitales on a besoin d'un modèle d'objet qu'on recherche. Nous avons développé un système d'apprentissage qui construit le modèle structurel d'objets cartographiques automatiquement a partir des images satellitales segmentées. Les images contenants les objets sont décomposées en formes primitives et sont transformées en Graphes Relationnels Attribués (ARGs). Nous avons généré les modèles d'objets a partir de ces graphes, en utilisant des algorithmes d'appariement de graphes. La qualité d'un modèle est évaluée par la distance d'édition des exemples a ce modèle. Nous sommes parvenus a obtenir des modèles de ponts et de ronds-points qui sont compatibles avec les modèles construits manuellement.
L'inférence de signatures de facteurs de transcription à partir des données puces à ADN a déjà été étudié dans la communauté bioinformatique. La principale difficulté à résoudre est de trouver un ensemble d'heuristiques pertinentes, afin de contrôler la complexité de résolution de ce problème NP-difficile. Nous proposons dans cet article une solution heuristique alternative à celles utilisées dans les approches bayésiennes, fondée sur la recherche de motifs fréquents maximaux dans une matrice discrétisée issue des données numériques de puces ADN. Notre méthode est appliquée sur des données de cancer de vessie de l'Institut Curie et de l'Hôpital Henri Mondor de Créteil.
Le formalisme des modèles graphiques connait actuellement un essor dans les domaines du "machine learning". En particulier, les réseaux bayésiens sont capables d'effectuer des raisonnements probabilistes à partir de données incomplètes alors que peu de méthodes sont actuellement capables d'utiliser les bases d'exemples incomplètes pour leur apprentissage. En s'inspirant du principe de AMS-EM proposé par (Friedman, 1997) et des travaux de(Chow & Liu, 1968), nous proposons une méthode permettant de faire l'apprentissage de réseaux bayésiens particuliers, de structure arborescente, à partir de données incomplètes. Une étude expérimentale expose ensuite des résultats préliminaires qu'il est possible d'attendre d'une telle méthode, puis montre le gain potentiel apporté lorsque nous utilisons les arbres obtenus comme initialisation d'une méthode de recherche gloutonne comme AMS-EM.
L'utilisation d'un algorithme d'apprentissage non supervisé de type k-Means sur un jeu de séries temporelles amène à se poser deux questions : Celle du choix d'une mesure de similarité et celle du choix d'une méthode effectuant l'agrégation de plusieurs séries afin d'en estimer le centre (i.e. calculer les k moyennes). Afin de répondre à la première question, nous présentons dans cet article les principales mesures de similarité existantes puis nous expliquons pourquoi l'une d'entre elles (appelée Dynamic Time Warping) nous paraît la plus adaptée à l'apprentissage non supervisé. La deuxième question pose alors problème car nous avons besoin d'une méthode d'agrégation respectant les caractéristiques bien particulières du Dynamic Time Warping. Nous pensons que l'association de cette mesure de similarité avec l'agrégation Euclidienne peut générer une perte d'informations importante dans le cadre d'un apprentissage sur la "forme" des séries. Nous proposons donc une méthode originale d'agrégation de séries temporelles, compatible avec le Dynamic Time Warping, qui améliore ainsi les résultats obtenus à l'aide de l'algorithme des k-Means.
Un problème important de la production automatique de règles de classification concerne la durée de génération de ces règles ; en effet, les algorithmes mis en œuvre produisent souvent des règles pendant un certain temps assez long. Nous proposons une nouvelle méthode de classification à partir d'une base de données images. Cette méthode se situe à la jonction de deux techniques : l'algèbre de P-tree et l'arbre de décision en vue d'accélérer le processus de classification et de recherche dans de grandes bases d'images. La modélisation que nous proposons se base, d'une part, sur les descripteurs visuels tels que la couleur, la forme et la texture dans le but d'indexer les images et, d'autre part, sur la génération automatique des règles de classification à l'aide d'un nouvel algorithme C4.5(P-tree). Pour valider notre méthode, nous avons développé un système baptisé C.I.A.D.P-tree qui a été implémenté et confronté à une application réelle dans le domaine du traitement d'images. Les résultats expérimentaux montrent que cette méthode réduit efficacement le temps de classification.
Le critère de découpage binaire de Kolmogorov-Smirnov nécessite un ordre total des valeurs prises par les variables explicatives. Nous pouvons ordonner des intervalles fermés bornés de nombres réels de différentes façons. Notre contribution dans cet article consiste à évaluer et à comparer des arbres de décision obtenus sur des données de type intervalle à l'aide du critère de découpage binaire de Kolmogorov-Smirnov étendu à ce type de données (Mballo et al. 2004). Pour ce faire, nous axons notre attention sur le taux d'erreur mesuré sur l'échantillon de test. Pour estimer ce paramètre, nous divisons aléatoirement chaque base de données en deux parties égales en terme d'effectif (à un objet près) pour construire deux arbres. Ces deux arbres sont d'abord testés par un même échantillon puis par deux échantillons différents.
Une image est un support d'information qui a montré son efficacité. Néanmoins une image comporte souvent plusieurs zones, l'arrière plan et une zone d'intérêt privilégiée. La vision humaine permet la segmentation de manière naturelle et intégrant toute la connaissance que le sujet peut avoir de l'objectif visé par l'image. Nous proposons ici une méthode de détermination des régions d'intérêt d'une image numérique comme zones saillantes. Les lois de Zipf et Zipf inverse sont adaptées au traitement des images et permettent d'évaluer la complexité structurelle d'une image. Une comparaison des modèles locaux évalués sur des imagettes permet de mettre en évidence une région de l'image. Deux méthodes de classification ont été utilisées pour la détermination de la région d'intérêt : la partition d'un nuage de points représentant les caractéristiques associées aux imagettes, et les réseaux de neurones. Cette méthode de détection permet d'obtenir des zones d'intérêt conformes à la perception humaine. On opère une hiérarchisation sur les zones en fonction de la structuration de l'information élémentaire, les pixels.
Cet article a pour but de montrer les possibilités offertes par le logiciel CHIC (Classification Hiérarchique Implicative et Cohésitive) pour effectuer certaines analyses de données. Il est basé sur la théorie de l'Analyse Statistique Implicative ou A.S.I. développée par Régis Gras et ses collaborateurs. Le principe premier de l'A.S.I. repose sur la problématique d'une mesure des règles d'association du type : «si a alors b» dans une population instanciant les variables a et b. CHIC enrichit sa réponse, établie sur des bases statistiques, en évaluant la responsabilité des sujets dans l'élection de la règle. L'article présent explique la démarche à suivre pour utiliser le logiciel ainsi que les possibilités offertes par celui-ci.
Les modèles de mélange, qui supposent que l'échantillon est formé de sous-populations caractérisées par une distribution de probabilité, constitue un support théorique intéressant pour étudier la classification automatique. On peut ainsi montrer que l'algorithme des k-means peut être vu comme une version classifiante de l'algorithme d'estimation EM dans un cas particulièrement simple de mélange de lois normales. Lorsque l'on cherche à classifier les lignes (ou les colonnes) d'un tableau de contingence, il est possible d'utiliser une variante de l'algorithme des k-means, appelé Mndki2, en s'appuyant sur la notion de profil et sur la distance du khi-2. On obtient ainsi une méthode simple et efficace pouvant s'utiliser conjointement à l'analyse factorielle des correspondances qui s'appuie sur la même représentation des données. Malheureusement et contrairement à l'algorithme des k-means classique, les liens qui existent entre les modèles de mélange et la classification ne s'appliquent pas directement à cette situation. Dans ce travail, nous montrons que l'algorithme Mndki2 peut être associé, à une approximation près, à un modèle de mélange de lois multinomiales.
Le nombre de documents issus d'une requête sur le Web devient de plus en plus important. Cela nous amène à chercher des solutions pour aider l'utilisateur qui est confronté à cette masse de données. Une alternative possible à un affichage linéaire non triée selon un critère, consiste à effectuer une classification des résultats. C'est dans ce but que l'on s'intéresse aux cartes auto-organisatrices de Kohonen qui sont issues d'un d'algorithme de classification non supervisée. Cependant, il faut ajouter des contraintes à cet algorithme afin qu'il soit adapté à la classification des résultats d'une requête. Par exemple, il doit être déterministe. De plus la classification obtenue dépend fortement de la distance utilisée pour comparer deux documents. On évalue alors l'impact de différentes distances ou dissimilarités, afin de trouver la plus adaptée à notre problème. Un compromis doit également être trouvé entre le temps d'exécution de l'algorithme et la qualité de la classification obtenue. Pour cela, l'utilisation d'un échantillonnage est envisagée. Enfin, ces travaux sont intégrés dans un prototype qui permet de visualiser les résultats en trois dimensions et d'interagir avec eux.
Ces dernières années ont mis en évidence la croissance et la diversité des informations électroniques accessibles sur le web. C'est ainsi que les systèmes d'intégration de données tels que des médiateurs ont été conçus pour intégrer ces données distribuées et hétérogènes dans une vue uniforme. Pour faciliter l'intégration des données à travers différents systèmes, XML a été adopté comme format standard pour échanger des informations. XQuery est un langage d'intégration des données à travers différents systèmes, XML a été adopté comme format standard pour échanger des informations. XQuery est un langage d'interrogation pour XML qui s'est imposé pour les systèmes basés sur XML. Ainsi XQuery est employé sur des systèmes de médiation pour concevoir des vues définies sur plusieurs sources. Pour optimiser l'évaluation de requêtes, les vues sont matérialisées lors de la mise à jour des sources, car dans le contexte de sources web, très peu d'informations sont fournies par les sources. Les méthodes habituellement proposées ne peuvent pas être appliquées. Cet article étudie comment mettre à jour des vues matérialisées XML sur des sources web, au sein d'une architecture de médiation.
Nous proposons une méthode d'apprentissage automatique pour la sélection de passages susceptibles de contenir la réponse à une question dans les systèmes de Question-Réponse (QR). Les systèmes de RI ad hoc ne sont pas adaptés à cette tâche car les passages recherchés ne doivent pas uniquement traiter du même sujet que la question mais en plus contenir sa réponse. Pour traiter ce problème les systèmes actuels ré-ordonnent les passages renvoyés par un moteur de recherche en considérant des critères sous forme d'une somme pondérée de fonctions de scores. Nous proposons d'apprendre automatiquement les poids de cette combinaison, grâce à un algorithme de réordonnancement défini dans le cadre du Boosting, qui sont habituellement déterminés manuellement. En plus du cadre d'apprentissage proposé, l'originalité de notre approche réside dans la définition des fonctions allouant des scores de pertinence aux passages. Nous validons notre travail sur la base de questions et de réponses de l'évaluation TREC-11 des systèmes de QR. Les résultats obtenus montrent une amélioration significative des performances en terme de rappel et de précision par rapport à un moteur de recherche standard et à une méthode d'apprentissage issue du cadre de la classification.
Le but de ce travail est de faciliter l'interprétation d'une classification pyramidale construite sur un tableau de données symboliques. Alors que dans une hiérarchie binaire le nombre de paliers est égal à n-1, si n est le nombre d'individus à classer, dans le cas d'une pyramide ce dernier peut atteindre n(n-1)/2. Afin de réduire ce nombre, on élague la pyramide et on utilise un critère de sélection de paliers basé sur la hauteur. De plus on décrit tous les paliers retenus par des variables que l'on sélectionne également en utilisant "le degré de généralité" ainsi que des mesures de dissimilarités de type symbolique-numérique. L'aide à l'interprétation se sert d'outils graphiques et interactifs grâce à la bibliothèque OpenGL. Enfin une simulation montre comment évoluent ces sélections quand le nombre de classes et de variables croit.
Ce travail a pour objectif la construction automatique d'un entrepôt thématique de données, à partir de documents de format divers provenant du Web. L'exploitation de cet entrepôt est assurée par un moteur d'interrogation fondé sur une ontologie. Notre attention porte plus précisément sur les tableaux extraits de ces documents et convertis au format XML, aux tags exclusivement syntaxiques. Cet article présente la transformation de ces tableaux, sous forme XML, en un formalisme enrichi sémantiquement dont la plupart des tags et des valeurs sont des termes construits à partir de l'ontologie.
Très populaire et très efficace pour l'estimation de paramètres d'un modèle de mélange, l'algorithme EM présente l'inconvénient majeur de converger parfois lentement. Son application sur des tableaux de grande taille devient ainsi irréalisable. Afin de remédier à ce problème, plusieurs méthodes ont été proposées. Nous présentons ici le comportement d'une méthode connue, LEM, et d'une variante que nous avons proposée récemment eLEM. Celles-ci permettent d'accélérer la convergence de l'algorithme, tout en obtenant des résultats similaires à celui-ci. Dans ce travail, nous nous concentrons sur l'aspect classification, et nous illustrons le bon comportement de notre variante sur des données continues simulées et réelles.
Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d'expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des éléments XML et une sélection linguistique basée sur un typage syntaxique des mots. Nous illustrons ces principes sur la collection des rapports d'activité 2003 des équipes de recherche de l'Inria en cherchant des groupements d'équipes (Thèmes) à partir du contenu de différentes parties de ces rapports. Nous comparons nos premiers résultats avec les thèmes de recherche officiels de l'Inria.
La fonction de correspondance, qui permet de sélectionner et de classer les documents par rapport à une requête est un composant essentiel dans tout système de recherche d'information. Nous proposons de modéliser une fonction de correspondance prenant en compte à la fois le contenu et les liens hypertextes des pages Web. Nous avons expérimenté notre système sur la collection de test TREC-9, et nous concluons que pour certains types de requêtes, inclure le texte ancre associé aux liens hypertextes des pages dans la fonction de similarité s'avère plus efficace.
Nous traitons l'extension de l'algorithme Apriori et des règles d'association aux cas des données symboliques diagrammes et intervalles. La méthode proposée nous permet de découvrir des règles d'association au niveau des concepts. Cette extension implique notamment de nouvelles définitions pour le support et la confiance afin d'exploiter la structure symbolique des données. Au fil de l'article l'exemple classique du panier de la ménagère est développé. Ainsi, plutôt que d'extraire des règles entre différents articles appartenant à des mêmes transactions enregistrées dans un magasin comme dans le cas classique, nous extrayons des règles d'association au niveau des clients afin d'étudier leurs comportements d'achat.
Les bases de données inductives intègrent le processus de fouille de données dans une base de données qui contient à la fois les données et les connaissances induites. Nous nous proposons d'étendre les données traitées afin de permettre l'extraction de motifs temporels fréquents et non fréquents à partir d'un ensemble de séquences d'évènements. Les motifs temporels visés sont des chroniques qui permettent d'exprimer des contraintes numériques sur les délais entre les occurrences d'évènements.
Cet article décrit la génération automatique et l'utilisation d'une base de patterns pour le go 19x19. La représentation utilisée est celle des K plus proches voisins. Les patterns sont engendrés en parcourant des parties de professionnels. Les probabilités d'appariement et de jeu des patterns sont également estimées à ce moment là. La base créée est intégrée dans un programme existant, Indigo. Soit elle est utilisée comme un livre d'ouvertures en début de partie, soit comme une extension des bases pré-existantes du générateur de coups du programme. En terme de niveau de jeu, le gain résultant est estimé à 15 points en moyenne.
Le Catalogue et Index des Sites Médicaux Francophones (CISMeF) recense les principales ressources institutionnelles de santé en français. La description de ces ressources, puis leur accès par les utilisateurs, se fait grâce à la terminologie CISMeF, fondée sur le thésaurus américain Medical Subject Headings (MeSH). La version française du MeSH comprend tous les descripteurs MeSH, mais de nombreux synonymes américains restent à traduire. Afin d'enrichir la terminologie, nous proposons ici une méthode de traduction automatique de ces synonymes. Pour ce faire, nous avons constitué deux corpus parallèles anglais/français du domaine médical. Après alignement semi-automatique des corpus paragraphe à paragraphe, nous avons procédé automatiquement à l'appariement bilingue des termes. Pour cela, le lexique constitué des descripteurs MeSH américains et de leur traduction en français a fourni les couples amorces qui ont servi de point de départ à la propagation syntaxique des liens d'appariement. 217 synonymes ont pu être traduits, avec une précision de 70%.
Trouver et classer les documents pertinents par rapport à une requête est fondamental dans le domaine de la recherche d'information. Notre étude repose sur la localisation des termes dans les documents. Nous posons l'hypothèse que plus les occurrences des termes d'une requête se retrouvent proches dans un document alors plus ce dernier doit être positionné en tête de la liste de réponses. Nous présentons deux variantes de notre modèle à zone d'influence, la première est basée sur une notion de proximité floue et la seconde sur une notion de pertinence locale.
L'extraction de règles d'association est devenue aujourd'hui une tâche populaire en fouille de données. Cependant, l'algorithme Apriori et ses variantes restent dédiés aux bases de données renfermant des informations catégoriques.Nous proposons dans cet article QuantMiner, qui est un outil que nous avons développé dans le but d'extraire des règles d'association gérant variables catégoriques et numériques. L'outil que nous proposons repose sur un algorithme génétique permettant de découvrir de façon dynamique les intervalles des variables numériques apparaissant dans les règles.Nous présentons également une application réelle de notre outil sur des données médicales relatives à la maladie de l'athérosclérose et donnons des résultats de notre expérience pour la description et la caractérisation de cette maladie.
Nous développons un logiciel, Exit, capable d'aider un expert à extraire des termes qu'il trouve pertinents dans des textes de spécialité. Tout est mis en place pour faciliter le travail de l'expert afin qu'il puisse consacrer son temps à la seule reconnaissance des termes pertinents. Pour cela, différentes mesures statistiques et de nombreuses options d'extraction sont disponibles dans Exit. Afin d'utiliser au mieux les connaissances de l'expert, notre approche est semi-automatique. De plus, l'expert construit des termes pouvant inclure des termes précédemment extraits ce qui rend itératif et constructif notre processus de formation des termes. Enfin, l'ergonomie du logiciel a profité des enseignements tirés lors de son utilisation pour une compétition internationale d'extraction de connaissances.
Pour nous attaquer au problème du forage de très grandes bases de données distribuées, nous proposons d'étudier deux approches. La première est de télécharger seulement un échantillon de chaque base de données puis d'y effectuer le forage. La deuxième approche est de miner à distance chaque base de données indépendamment, puis de télécharger les modèles résultants, sous forme de règles de classification, dans un site central où l'agrégation de ces derniers est réalisée. Dans cet article, nous présentons une vue d'ensemble des techniques d'échantillonnage les plus communes. Nous présentons ensuite cette nouvelle technique de forage distribué des données où la mécanique d'agrégation est basée sur un coefficient de confiance attribué à chaque règle et sur de très petits échantillons de chaque base de données. Le coefficient de confiance d'une règle est calculé par des moyens statistiques en utilisant le théorème limite centrale. En conclusion, nous présentons une comparaison entre les meilleures techniques d'échantillonnage que nous avons trouvées dans la littérature, et notre approche de forage distribué des données (FDD) basée sur l'agrégation de modèles.
Cet article présente une méthode permettant la découverte non supervisée de motifs fréquents représentatifs de symboles sur des images de documents. Les symboles sont considérés comme des entités graphiques porteurs d'information et les images de document sont représentées par des graphes relationnels attribués. Dans un premier temps, la méthode réalise la découverte de sous-graphes disjoints fréquents et fait correspondre pour chacun d'eux un symbole différent. Une recherche des règles d'association entre ces symboles permet alors d'accéder à une partie des connaissances du domaine décrit par ces symboles. L'objectif à terme est d'utiliser les symboles découverts pour la classification ou la recherche d'images dans un flux hétérogène de document là ou une approche supervisée n'est pas envisageable.
La finalité de ce papier est d'analyser l'apport de techniques de fouille de données textuelles à une méthodologie de construction d'ontologie à partir de textes. Le domaine d'application de cette expérimentation est celui de l'accidentologie routière. Dans ce contexte, les résultats des techniques de fouille de données textuelles sont utilisés pour orienter la construction d'une ressource terminologique à partir de procès-verbaux d'accidents. La méthode TERMINAE et l'outil du même nom offrent le cadre général pour la modélisation de la ressource. Le papier présente les techniques de fouille employées et l'intégration des résultats des fouilles dans les différentes étapes du processus de construction de la ressource.
L'extraction de règles d'association est souvent exploitée comme méthode de fouille de données. Cependant, une des limites de cette approche vient du très grand nombre de règles extraites et de la difficulté pour l'analyste à appréhender la totalité de ces règles. Nous proposons donc de pallier ce problème en structurant l'ensemble des règles d'association en hiérarchies. La structuration des règles se fait à deux niveaux. Un niveau global qui a pour objectif de construire une hiérarchie structurant les règles extraites des données. Nous définissons donc un premier type de subsomption entre règles issue de la subsomption dans les treillis de Galois. Le second niveau correspond à une analyse locale des règles et génère pour une règle donnée une hiérarchie de généralisation de cette règle qui repose sur des connaissances complémentaires exprimées dans un modèle terminologique. Ce niveau fait appel à un second type de subsomption inspiré de la subsomption en programmation logique inductive. Nous définissons ces deux types de subsomptions, développons un exemple montrant l'intérêt de l'approche pour l'analyste et étudions les propriétés formelles des hiérarchies ainsi proposées.
Nous présentons dans cet article une nouvelle approche de fouille qui permet d'appliquer des algorithmes de construction d'arbres de décision en répondant à deux objectifs : (1) traiter des bases volumineuses, (2) en des temps de traitement acceptables. Le premier objectif est atteint en intégrant ces algorithmes au cœur des SGBD, en utilisant uniquement les outils fournis par ces derniers. Toutefois, les temps de traitement demeurent longs, en raison des nombreuses lectures de la base. Nous montrons que, grâce aux index bitmap, nous réduisons à la fois la taille de la base d'apprentissage et les temps de traitements. Pour valider notre approche, nous avons implémenté la méthode ID3 sous forme d'une procédure stockée dans le SGBD Oracle.
Il n'est plus à rappeler que le corpus textuel, est tel qu'il est actuellement, intraitable à l'échelle que sa croissance nous confirme l'obligation d'utiliser des outils automatique de traitement. Cet article s'intéresse plus particulièrement à la caractérisation de textes et par là même à celle d'auteurs. A l'heure actuelle, toutes les méthodes existant travaillent sur le document fini, sans admettre qu'un cheminement existe entre le début du document et sa fin. Nous proposons une méthode tentant d'apporter cette notion d'évolution textuelle en traitant le texte par un automate et l'évaluation choisie. Puis nous présenterons des résultats validés par des experts, obtenus sur un corpus d'entretiens sociologiques.
La gestion des ressources humaines repose d'une part sur la connaissance des individus et de leurs compétences et d'autre part sur la connaissance de l'organisation et de ses métiers. C'est par la "mise en correspondance" de ces connaissances qu'il est possible d'améliorer l'emploi, de valoriser les connaissances et les compétences individuelles et de mieux gérer l'organisation. Cette mise en correspondance nécessite une représentation explicite des connaissances, ce qui permet de répondre à de nouveaux besoins : annuaire de compétences, gestion des projets et des retours d'expériences, identification des connaissances à risques, etc.Nous verrons dans le cadre de cet article l'intérêt de l'approche ontologique tant d'un point de vue méthodologique pour la clarification des notions mises en jeu dans le cadre de la GPECC (Gestion Prévisionnelle des Emplois des Compétences et des Connaissances) que pour la construction, la représentation et la maintenance des référentiels des compétences, des connaissances et des métiers. Elle permet en particulier une gestion de l'information par la terminologie et le sens métier propre à l'organisation.