Ontology Alignment Evaluation Initiative - OAEI 2017 Campaign

MultiFarm Results for OAEI 2017

In this page, we report the results of the OAEI 2017 campaign for the MultiFarm track. The details on this data set can be found at the MultiFarm web page.

If you notice any kind of error (wrong numbers, incorrect information on a matching system, etc.) do not hesitate to contact us (for the mail see below in the last paragraph on this page).

Experimental setting

We have conducted an evaluation based on the blind data set. This data set includes the matching tasks involving the edas and ekaw ontologies (resulting in 55 x 24 tasks). Participants were able to test their systems on the open subset of tasks, available via the SEALS repository. The open subset counts on 45 x 25 tasks and it does not include Italian translations.

We distinguish two types of matching tasks :

  1. those tasks where two different ontologies (edas-ekaw, for instance) have been translated into two different languages;
  2. those tasks where the same ontology (edas-edas) has been translated into two different languages.

As we could observe in previous evaluations, for the tasks of type (ii), good results are not directly related to the use of specific techniques for dealing with cross-lingual ontologies, but on the ability to exploit the fact that both ontologies have an identical structure.

Participants

This year, 8 systems (out of 22) have participated in the MultiFarm track (i.e., those that have been assigned to the task in the registration phase) : AML, CroLOM, KEPLER, LogMap, LogMapLite, SANOM, WikiV3, and XMAP. LogMapLite does not implement any specific cross-lingual strategy. The number of participants is stable with respect to the last campaign (7 in 2016, 5 in 2015, 3 in 2014, 7 in 2013, and 7 in 2012). The reader can refer to the OAEI papers coming soon for a detailed description of the strategies adopted by each system.

For this track, we observe that

In the following, we report the results for the systems listed above.

Evaluation results

Execution setting and runtime

The systems have been executed on a Windows machine configured with 8GB of RAM running under a i7-7500U CPU 2.70GHz x4 processors. All measurements are based on a single run. As below, we can observe large differences in the time required for a system to complete the 55 x 24 matching tasks. Note as well that the concurrent access to the SEALS repositories during the evaluation period may have an impact in the time required for completing the tasks.

Overall results

The table below presents the aggregated results for the matching tasks. They have been computed using the Alignment API 4.6 and can slightly differ from those computed with the SEALS client. We haven't applied any threshold on the results. They are measured in terms of classical precision and recall.

Overall, as expected, systems implementing cross-lingual techniques outperform the non-cross-lingual systems. However, as stated above, this year we did not run all systems and focus on the systems that have been registered for the task. In this task, AML outperforms all other systems in terms of F-measure for task (i), keeping its top place in this task. AML is followed by LogMap, CroLOM, KEPLER and WikiV3.

With respect to the task (ii), AML has relatively low performance, due mainly to some errors in parsing the alignments for which a confidence higher than 1 was generated. KEPLER has provided the higher F-measure for task (ii), followed by LogMap, CroLOM and AML. We observe that WikiV3 is able to maintain its performance in both tasks.

Not all systems are able to generated alignments for all pairs of languages and runtime largely differs.

Different ontologies (i) Same ontologies (ii)
System Time #pairs Size Prec. F-m. Rec. Size Prec. F-m. Rec.
AML 677 55 8.21 .72(.72) .46(.46) .35(.35) 45.54 .89(.96) .26(.28) .16(.17)
CroLOM 5501 55 8.56 .55(.55) .36(.36) .28(.28) 38.76 .89(.90) .40(.40) .26(.27)
KEPLER 2180 55 10.63 .43(.43) .31(.31) .25(.25) 58.34 .90(.90) .52(.52) .38(.38)
LogMap 57 55 6.99 .73(.73) .37(.37) .25(.25) 46.80 .95(.96) .42(.43) .28(.28)
LogMapLite 38 55 1.16 .36(.36) .04(.04) .02(.02) 94.5 .02(.02) .01(.03) .01(.02)
SANOM 22 30 2.86 .43(.79) .13(.25) .08(.15) 8.33 .54(.99) .06(.12) .03(.06)
WikiV3 1343 55 11.89 .30(.30) .25(.25) .21(.21) 29.37 .62(.62) .23(.23) .14(.14)
XMAP 102 27 3.84 .24(.50) .06(.14) .04(.09) 15.76 .66(.91) .10(.14) .06(.09)
MultiFarm aggregated results per matcher, for each type of matching task -- different ontologies (i) and same ontologies (ii). Time is measured in minutes. #pairs indicates the number of pairs of languages the tool is able to generated (non empty) alignments. Size indicates the average of the number of generated correspondences for the tests where an (non empty) alignment has been generated. Two kinds of results are reported : those do not distinguishing empty and erroneous (or not generated) alignments and those -- indicated between parenthesis -- considering only non empty generated alignments for a pair of languages.

Language specific results (type i)

Table below presents the results per pair of language, involving matching different ontologies (test cases of type i). 5 cross-lingual systems out of 7 were able to deal with all pairs of languages (AML, CroLOM, KEPLER, LogMap and WikiV3). While the only non-specific system was able to generate non empty (but erroneous) results for all pairs, specific systems as SANOM and XMap have problems to deal with ar, cn and ru languages and hence were not able to generate alignments for most pairs involving these languages. This behaviour has also been observed in the last campaign for specific systems.

For the group of systems implementing cross-lingual strategies, their top f-measure include the pairs es-it (AML), nl-pt (CroLOM), de-pt (KEPLER), en-nl (LogMap), es-it (SANOM), it-pt (WikiV3), es-pt (XMap). We can observe that most of the systems better deal with the pairs involving pt, it, es, nl, de and en languages. This may due to the coverage or performance of the resources and translations for these languages, together with the fact that dealing with comparable languages can make the task easier. In fact, we can also observe that for most systems, the worst results have been produced for the pairs involving ar, cn, cz and ru. The exceptions are SANOM and XMap, for which, worst results also include the pairs es, nl and pt or fr, en and it, respectively.

With respect to the only non cross-lingual system, LogMapLite, it in fact takes advantage of comparable languages, in the absence of specific strategies. This can be corroborated by the fact that it has generated its best f-measure for the pairs de-en, es-pt, it-pt, es-it. This (expected) fact has been observed along the campaigns.

MultiFarm results per pair of languages (55 pairs), for the test cases of type (i)
AML CroLOM KEPLER LogMap LogMapLite SANOM WikiV3 XMap
test Prec. FMeas. Rec. Prec. FMeas. Rec. Prec. FMeas. Rec. Prec. FMeas. Rec. Prec. FMeas. Rec. Prec. FMeas. Rec. Prec. FMeas. Rec. Prec. FMeas. Rec.
ar-cn 0,59 0,24 0,15 0,41 0,18 0,11 0,49 0,20 0,13 0,62 0,19 0,11 0,00 NaN 0,00 NaN NaN 0,00 0,22 0,16 0,13 NaN NaN 0,00
ar-cz 0,71 0,40 0,28 0,65 0,36 0,25 0,49 0,25 0,17 0,72 0,40 0,28 0,00 NaN 0,00 NaN NaN 0,00 0,20 0,17 0,14 NaN NaN 0,00
ar-de 0,67 0,37 0,26 0,60 0,37 0,26 0,52 0,29 0,20 0,73 0,37 0,25 0,00 NaN 0,00 NaN NaN 0,00 0,22 0,14 0,10 NaN NaN 0,00
ar-en 0,74 0,39 0,26 0,64 0,40 0,29 0,55 0,30 0,21 0,73 0,41 0,28 0,00 NaN 0,00 NaN NaN 0,00 0,22 0,21 0,21 NaN NaN 0,00
ar-es 0,68 0,44 0,33 0,61 0,38 0,27 0,50 0,28 0,20 0,69 0,36 0,25 0,00 NaN 0,00 NaN NaN 0,00 0,24 0,22 0,21 NaN NaN 0,00
ar-fr 0,62 0,37 0,26 0,57 0,33 0,23 0,41 0,21 0,14 0,64 0,29 0,19 0,00 NaN 0,00 NaN NaN 0,00 0,27 0,25 0,23 NaN NaN 0,00
ar-it 0,73 0,46 0,34 0,69 0,37 0,26 0,52 0,27 0,18 0,69 0,22 0,13 0,00 NaN 0,00 NaN NaN 0,00 0,23 0,20 0,17 NaN NaN 0,00
ar-nl 0,69 0,39 0,27 0,63 0,38 0,27 0,47 0,25 0,17 0,74 0,41 0,28 0,00 NaN 0,00 NaN NaN 0,00 0,26 0,20 0,16 NaN NaN 0,00
ar-pt 0,71 0,48 0,37 0,64 0,38 0,28 0,53 0,33 0,24 0,72 0,38 0,25 0,00 NaN 0,00 NaN NaN 0,00 0,18 0,17 0,16 NaN NaN 0,00
ar-ru 0,65 0,29 0,19 0,61 0,25 0,16 0,62 0,29 0,19 0,77 0,41 0,28 0,00 NaN 0,00 NaN NaN 0,00 0,27 0,21 0,17 NaN NaN 0,00
cn-cz 0,63 0,32 0,22 0,43 0,20 0,13 0,33 0,22 0,16 0,72 0,27 0,17 0,00 NaN 0,00 NaN NaN 0,00 0,23 0,15 0,11 NaN NaN 0,00
cn-de 0,64 0,35 0,24 0,52 0,26 0,17 0,36 0,23 0,17 0,71 0,23 0,13 0,00 NaN 0,00 NaN NaN 0,00 0,18 0,09 0,06 NaN NaN 0,00
cn-en 0,67 0,32 0,21 0,41 0,22 0,15 0,37 0,26 0,20 0,85 0,22 0,13 0,00 NaN 0,00 NaN NaN 0,00 0,16 0,13 0,11 NaN NaN 0,00
cn-es 0,69 0,41 0,29 0,46 0,24 0,17 0,38 0,25 0,19 0,66 0,25 0,15 0,00 NaN 0,00 NaN NaN 0,00 0,26 0,18 0,14 NaN NaN 0,00
cn-fr 0,67 0,39 0,27 0,51 0,24 0,15 0,32 0,23 0,17 0,69 0,23 0,14 0,00 NaN 0,00 NaN NaN 0,00 0,26 0,18 0,13 NaN NaN 0,00
cn-it 0,66 0,33 0,22 0,43 0,23 0,16 0,38 0,24 0,18 0,79 0,12 0,06 0,00 NaN 0,00 NaN NaN 0,00 0,25 0,16 0,12 NaN NaN 0,00
cn-nl 0,67 0,34 0,23 0,40 0,21 0,14 0,37 0,23 0,16 0,70 0,21 0,12 0,00 NaN 0,00 NaN NaN 0,00 0,26 0,16 0,11 NaN NaN 0,00
cn-pt 0,65 0,41 0,30 0,44 0,24 0,17 0,42 0,29 0,22 0,77 0,25 0,15 0,00 NaN 0,00 NaN NaN 0,00 0,30 0,23 0,19 NaN NaN 0,00
cn-ru 0,65 0,39 0,28 0,31 0,19 0,14 0,48 0,32 0,24 0,73 0,31 0,19 0,00 NaN 0,00 NaN NaN 0,00 0,23 0,16 0,13 NaN NaN 0,00
cz-de 0,68 0,47 0,36 0,61 0,39 0,29 0,44 0,35 0,30 0,70 0,39 0,27 0,93 0,13 0,07 0,90 0,22 0,12 0,42 0,31 0,25 0,71 0,17 0,10
cz-en 0,81 0,48 0,34 0,64 0,42 0,31 0,42 0,32 0,27 0,79 0,50 0,37 0,65 0,07 0,04 0,89 0,26 0,15 0,28 0,27 0,27 0,48 0,09 0,05
cz-es 0,77 0,57 0,45 0,64 0,42 0,32 0,40 0,34 0,29 0,68 0,39 0,27 0,82 0,05 0,02 0,98 0,20 0,11 0,32 0,26 0,22 0,62 0,11 0,06
cz-fr 0,78 0,54 0,41 0,64 0,40 0,29 0,37 0,29 0,23 0,66 0,39 0,28 0,00 NaN 0,00 0,80 0,16 0,09 0,29 0,24 0,20 0,09 0,01 0,01
cz-it 0,77 0,53 0,40 0,77 0,05 0,03 0,39 0,29 0,22 0,77 0,37 0,24 0,83 0,05 0,03 1,00 0,21 0,12 0,35 0,28 0,23 0,56 0,07 0,04
cz-nl 0,78 0,56 0,44 0,60 0,42 0,33 0,43 0,32 0,25 0,72 0,45 0,33 0,80 0,08 0,04 0,94 0,24 0,14 0,36 0,30 0,26 0,72 0,15 0,08
cz-pt 0,72 0,55 0,45 0,65 0,43 0,32 0,47 0,40 0,36 0,72 0,44 0,32 0,88 0,11 0,06 1,00 0,20 0,11 0,33 0,28 0,24 0,58 0,18 0,10
cz-ru 0,75 0,52 0,39 0,62 0,42 0,32 0,45 0,39 0,34 0,75 0,46 0,33 0,00 NaN 0,00 NaN NaN 0,00 0,35 0,30 0,26 NaN NaN 0,00
de-en 0,79 0,47 0,33 0,58 0,47 0,39 0,47 0,39 0,33 0,78 0,44 0,31 0,89 0,20 0,11 0,91 0,33 0,20 0,36 0,29 0,25 0,65 0,27 0,17
de-es 0,67 0,48 0,37 0,56 0,44 0,36 0,44 0,33 0,27 0,73 0,39 0,26 0,50 0,01 0,01 0,92 0,28 0,16 0,35 0,28 0,23 0,73 0,04 0,02
de-fr 0,73 0,50 0,38 0,60 0,46 0,37 0,38 0,29 0,23 0,75 0,43 0,30 0,75 0,05 0,02 0,80 0,23 0,13 0,30 0,24 0,19 0,18 0,06 0,04
de-it 0,75 0,52 0,40 0,56 0,42 0,34 0,44 0,33 0,26 0,70 0,34 0,22 0,83 0,05 0,03 0,84 0,30 0,18 0,36 0,28 0,23 0,57 0,08 0,04
de-nl 0,73 0,48 0,36 0,56 0,44 0,37 0,47 0,34 0,27 0,78 0,45 0,32 0,90 0,10 0,05 0,86 0,28 0,16 0,38 0,27 0,21 0,71 0,12 0,07
de-pt 0,70 0,49 0,37 0,60 0,46 0,37 0,50 0,41 0,35 0,70 0,38 0,26 0,87 0,07 0,04 0,88 0,19 0,10 0,36 0,27 0,21 0,72 0,11 0,06
de-ru 0,67 0,42 0,30 0,47 0,25 0,17 0,49 0,35 0,27 0,78 0,44 0,31 0,00 NaN 0,00 NaN NaN 0,00 0,42 0,30 0,23 NaN NaN 0,00
en-es 0,77 0,45 0,32 0,56 0,44 0,37 0,40 0,32 0,27 0,72 0,45 0,33 0,75 0,03 0,02 0,80 0,31 0,19 0,31 0,29 0,27 0,67 0,11 0,06
en-fr 0,80 0,45 0,31 0,55 0,42 0,35 0,36 0,27 0,22 0,70 0,43 0,31 0,79 0,10 0,05 0,79 0,28 0,17 0,23 0,20 0,18 0,44 0,23 0,15
en-it 0,79 0,44 0,30 0,50 0,40 0,34 0,45 0,34 0,27 0,71 0,41 0,29 0,86 0,09 0,05 0,82 0,33 0,21 0,27 0,23 0,20 0,39 0,15 0,09
en-nl 0,80 0,48 0,34 0,55 0,46 0,39 0,42 0,32 0,26 0,80 0,54 0,40 0,86 0,13 0,07 0,77 0,31 0,20 0,28 0,23 0,20 0,66 0,18 0,10
en-pt 0,79 0,49 0,36 0,56 0,45 0,37 0,50 0,39 0,33 0,76 0,52 0,39 0,86 0,09 0,05 0,94 0,23 0,13 0,26 0,24 0,22 0,69 0,19 0,11
en-ru 0,74 0,38 0,26 0,55 0,30 0,21 0,44 0,32 0,26 0,90 0,48 0,33 0,00 NaN 0,00 0,00 NaN 0,00 0,26 0,23 0,20 0,33 0,01 0,00
es-fr 0,76 0,55 0,43 0,58 0,46 0,38 0,30 0,27 0,24 0,69 0,40 0,28 0,00 NaN 0,00 0,85 0,26 0,15 0,28 0,28 0,28 0,19 0,08 0,05
es-it 0,75 0,59 0,49 0,54 0,45 0,39 0,38 0,33 0,29 0,63 0,27 0,17 0,94 0,16 0,09 0,75 0,46 0,33 0,35 0,34 0,34 0,38 0,33 0,29
es-nl 0,74 0,58 0,48 0,56 0,48 0,43 0,36 0,32 0,29 0,71 0,40 0,28 0,00 NaN 0,00 0,63 0,12 0,07 0,31 0,26 0,23 0,00 NaN 0,00
es-pt 0,73 0,58 0,49 0,54 0,47 0,42 0,42 0,39 0,36 0,70 0,45 0,33 0,82 0,20 0,11 0,64 0,27 0,17 0,36 0,36 0,37 0,42 0,37 0,33
es-ru 0,72 0,51 0,39 0,55 0,36 0,26 0,47 0,41 0,36 0,76 0,41 0,28 0,00 NaN 0,00 NaN NaN 0,00 0,34 0,31 0,28 NaN NaN 0,00
fr-it 0,74 0,50 0,38 0,55 0,42 0,34 0,34 0,29 0,25 0,67 0,35 0,24 0,00 NaN 0,00 0,86 0,32 0,20 0,31 0,30 0,30 0,15 0,03 0,02
fr-nl 0,74 0,55 0,44 0,56 0,46 0,39 0,33 0,27 0,23 0,71 0,42 0,30 0,90 0,09 0,05 0,77 0,24 0,14 0,35 0,27 0,22 0,78 0,25 0,15
fr-pt 0,75 0,55 0,44 0,59 0,47 0,39 0,39 0,33 0,28 0,67 0,39 0,28 0,50 0,01 0,01 0,80 0,14 0,08 0,28 0,26 0,25 0,24 0,09 0,06
fr-ru 0,73 0,49 0,37 0,53 0,31 0,22 0,35 0,28 0,24 0,74 0,36 0,24 0,00 NaN 0,00 NaN NaN 0,00 0,32 0,28 0,26 NaN NaN 0,00
it-nl 0,72 0,53 0,42 0,54 0,45 0,38 0,39 0,30 0,24 0,75 0,36 0,24 0,85 0,06 0,03 0,80 0,16 0,09 0,43 0,33 0,27 NaN NaN 0,00
it-pt 0,74 0,59 0,50 0,50 0,42 0,36 0,36 0,32 0,28 0,64 0,33 0,23 0,92 0,17 0,09 0,81 0,32 0,20 0,40 0,40 0,39 NaN NaN 0,00
it-ru 0,68 0,46 0,35 0,54 0,35 0,26 0,37 0,27 0,22 0,82 0,28 0,17 0,00 NaN 0,00 NaN NaN 0,00 0,34 0,29 0,25 NaN NaN 0,00
nl-pt 0,76 0,59 0,48 0,60 0,50 0,43 0,44 0,36 0,30 0,70 0,45 0,33 0,86 0,06 0,03 0,84 0,13 0,07 0,40 0,34 0,30 0,74 0,07 0,04
nl-ru 0,74 0,51 0,39 0,57 0,39 0,29 0,43 0,33 0,26 0,79 0,46 0,33 0,00 NaN 0,00 0,00 NaN 0,00 0,31 0,26 0,22 NaN NaN 0,00
pt-ru 0,71 0,49 0,37 0,54 0,34 0,24 0,45 0,36 0,30 0,75 0,47 0,34 0,00 NaN 0,00 NaN NaN 0,00 0,28 0,24 0,21 NaN NaN 0,00

NaN: division per zero, likely due to empty alignment.

Conclusions

From 22 participants, 8 were evaluated in MultiFarm. In terms of performance, the f-measure for blind tests remains relatively stable across campaigns. AML and LogMap keep their positions with respect to the previous campaigns, followed by the CroLOM and KEPLER. Still, all systems privilege precision in detriment to recall and the results are below the ones obtained for the Conference original dataset. We can observe as well that the systems are not able to provide good results or deal with pairs involving specific languages, as ar, cn and ru.

References

[1] Christian Meilicke, Raul Garcia-Castro, Fred Freitas, Willem Robert van Hage, Elena Montiel-Ponsoda, Ryan Ribeiro de Azevedo, Heiner Stuckenschmidt, Ondrej Svab-Zamazal, Vojtech Svatek, Andrei Tamilin, Cassia Trojahn, Shenghui Wang. MultiFarm: A Benchmark for Multilingual Ontology Matching. Accepted for publication at the Journal of Web Semantics.

An authors version of the paper can be found at the MultiFarm homepage, where the data set is described in details.

Contact

This track is organized by Cassia Trojahn dos Santos, with the help of Elodie Thieblin. If you have any problems working with the ontologies, any questions or suggestions, feel free to write an email to cassia [.] trojahn [at] irit [.] fr or elodie [.] thieblin [at] irit [.] fr