Perspektive Natur Biotechnologie 25. 1251 - 1255 (2007) Veröffentlicht am: 7. November 2007 doi: 10.1038nbt1346 Die OBO-Gießerei: koordinierte Evolution von Ontologien zur Unterstützung der biomedizinischen Datenintegration Barry Smith 1. Michael Ashburner 2. Cornelius Rosse 3. Jonathan Bard 4. William Bug 5. Werner Ceusters 6. Louis J Goldberg 7. Karen Eilbeck 8. Amelia Irland 9. Christopher J Mungall 10. Das OBI-Konsortium 11. Neocles Leontis 12. Philippe Rocca-Serra 9. Alan Ruttenberg 13. Susanna-Assunta Sansone 9 Richard H Scheuermann 14. Nigam Shah 15. Patricia L Whetzel 16 amp Suzanna Lewis 10 Der Wert jeder Art von Daten wird stark verbessert, wenn sie in einer Form existiert, die es erlaubt, mit anderen Daten integriert zu werden. Ein Ansatz zur Integration ist durch die Annotation von mehreren Körper von Daten mit gemeinsamen kontrollierten Vokabeln oder Ontologien. Leider hat der Erfolg dieses Ansatzes zu einer Verbreitung von Ontologien geführt, die selbst Hindernisse für die Integration schafft. Das OBO-Konsortium (Open Biomedical Ontologies) verfolgt eine Strategie zur Überwindung dieses Problems. Bestehende OBO-Ontologien, einschließlich der Gen-Ontologie, werden einer koordinierten Reform unterzogen, und neue Ontologien werden auf der Grundlage eines sich entwickelnden Satzes gemeinsamer Prinzipien entwickelt, die die Entwicklung der Ontologie bestimmen. Das Ergebnis ist eine expandierende Familie von Ontologien, die interoperabel und logisch gut geformt ist und genaue Darstellungen der biologischen Realität zu integrieren. Wir beschreiben diese OBO-Gießerei-Initiative und geben Richtlinien für diejenigen, die sich vielleicht beteiligen möchten. Einleitung Bei der Suche nach dem, was biologisch und klinisch signifikant ist in den Schwärmen von Daten, die von heutigen High-Throughput-Technologien erzeugt werden, beinhaltet eine gemeinsame Strategie die Erstellung und Analyse von Annotationen, die Primärdaten mit Ausdrücken in kontrollierten, strukturierten Vokabeln verknüpfen und damit die Daten erzeugen Zur Suche und zur algorithmischen Verarbeitung 1. Die erfolgreichste solche Bemühung, gemessen sowohl durch die Anzahl der Benutzer als auch durch die Reichweite über Arten und Granularitäten, ist die Gene Ontology (GO) 2. Es gibt über 11 Millionen Annotationen in Bezug auf Genprodukte, die in der UniProt, Ensembl und anderen Datenbanken, die sich in der GO 3 befinden, von denen eine halbe Million manuell von Fachkuratoren in verschiedenen Modellorganisationsgemeinschaften auf der Grundlage der Analyse von experimentellen Ergebnissen in 52.000 wissenschaftlichen Zeitschriftenartikeln (ebi. ac. ukGOA). Daten, die sich auf etwa 180.000 Gene beziehen, wurden auf diese Weise manuell kommentiert, ein Bestreben, das nun in dem Referenzgenom-Projekt verfeinert und systematisiert wird (US National Institutes of Health National Human Genome Research Institute gewährt 2P41HG002273-07), das umfassende GO-Annotationen zur Verfügung stellt Sowohl das menschliche Genom als auch ein repräsentativer Satz von Modell-Organismus-Genomen zur Unterstützung der Forschung auf den primären molekularen Systemen, die die menschliche Gesundheit beeinflussen. Von der retrospektiven Kartierung bis zur prospektiven Standardisierung Die Domäne der Molekularbiologie ist durch die Verfügbarkeit großer Mengen von gut definierten Daten gekennzeichnet, die ohne Einschränkung als Inputs zur algorithmischen Verarbeitung verwendet werden können. Im klinischen Bereich stehen dagegen nur begrenzte Datenmengen für Forschungszwecke zur Verfügung, die immer noch überwiegend aus natursprachlichem Text bestehen. Auch wenn systematischere klinische Daten vorliegen, bedeutet die Verwendung von lokalen Codierungsschemata, dass diese Daten nicht in einer für die Forschung nützlichen Weise kumulieren. Ein Ansatz zur Lösung dieses Problems ist das Unified Medical Language System (UMLS) 5. ein Kompendium von einigen 100 Quellenvokabeln kombiniert durch einen Prozess der retrospektiven Kartierung auf der Grundlage der Identifizierung der Synonymität Beziehungen zwischen konstituierenden Begriffe. Die UMLS hat sehr nützliche Ergebnisse für Anwendungen wie Indizierung und Abruf von Dokumenten ergeben. Aber da die separaten Vokabeln keine gemeinsame Architektur haben 6, 7. UMLS-Zuordnungen verschmelzen nicht ihre Begriffe zusammen in jedes einzelne System 8. In zunehmendem Maße wird daher die Notwendigkeit für Strategien der prospektiven Standardisierung erkannt, die die fortschreitende Verbesserung und gegenseitige Ausrichtung der für das Management, die Beschreibung und die Veröffentlichung von biomedizinischen Daten verwendeten Rahmenbedingungen bewirken sollen. Zwei auffällige Produkte dieser Tendenz sind die US National Cancer Institute Krebs Biomedical Informatics Grid (caBIG) Projekt 9 und HL7s Referenzinformation Modell (RIM) (hl7.org). CaBIG versucht, alle Krebsforschungsdaten in einer gemeinsamen Cyberinfrastruktur zu integrieren, indem sie die Art und Weise, in der diese Daten erfasst, formatiert, verarbeitet und gespeichert werden, standardisiert. Die HL7 RIM bietet in ähnlicher Weise einen Standard für den Austausch, die Verwaltung und die Integration aller für die Gesundheitsversorgung relevanten Informationen, von der klinischen Genomik bis zur Krankenhausabrechnung. Da sowohl CaBIG als auch HL7 sich auf die Meta-Level-Frage konzentrieren, wie Daten und Informationen in Computer - und Messaging-Systemen dargestellt werden sollen, kann man argumentieren, dass sie der objektspezifischen Frage nicht gerecht werden, wie sie am besten vertreten werden kann Proteine, Organismen, Krankheiten oder medikamentöse Wechselwirkungen, die für die biomedizinische Forschung von primärem Interesse sind 7, 10. Ein kollaboratives Experiment in der Ontologie-Entwicklung Im Jahr 2001 initiierten Ashburner und Lewis eine Strategie, um diese Frage der Frage auf die Frage zu stellen, indem sie OBO, einen Schirmkörper für die Entwickler von Life-Science-Ontologien, OBO wendet die Grundprinzipien an, die dem Erfolg des GO zugrunde liegen, nämlich, dass Ontologien offen, orthogonal, in einer gut spezifizierten Syntax instanziiert und dazu bestimmt sind, einen gemeinsamen Raum von Identifikatoren zu teilen. 11. Ontologien müssen in dem Sinne offen sein, dass sie und die Daten, die in ihren Begriffen beschrieben sind, sollten ohne Einschränkung oder Lizenz zur Nutzung zur Verfügung stehen und somit für neue Zwecke ohne Einschränkung gelten. Sie sind auch empfänglich für die Veränderung als Ergebnis der Gemeinschaftsdebatte. Sie müssen orthogonal sein, um die Additivität der Annotationen zu gewährleisten und die Vorteile der modularen Entwicklung zu nutzen. Sie müssen syntaktisch in guter Ordnung sein, um die algorithmische Verarbeitung zu unterstützen. Und sie müssen ein gemeinsames System von Identifikatoren verwenden, um Rückwärtskompatibilität mit Legacy-Annotationen zu ermöglichen, während sich die Ontologien entwickeln. OBO umfasst mittlerweile über 60 Ontologien und seine Rolle als Ontologie-Informationsressource wird vom NIH Roadmap National Center for Biomedical Ontology (NCBO) über sein BioPortal 12 unterstützt. Gleichzeitig haben die Entwickler einer Teilmenge von OBO-Ontologien die Initiative initiiert OBO-Gießerei, ein kollaboratives Experiment, das auf der freiwilligen Akzeptanz von Teilnehmern eines sich entwickelnden Satzes von Prinzipien (erhältlich bei obofoundry. org) basiert, die die des ursprünglichen OBO erweitern, indem sie darüber hinaus verlangen, dass Ontologien (i) in einer gemeinsamen Anstrengung entwickelt werden, (Ii) gemeinsame Beziehungen verwenden, die eindeutig definiert sind, (iii) Verfahren für die Rückmeldung von Nutzern zur Verfügung stellen und aufeinanderfolgende Versionen identifizieren und (iv) einen klar begrenzten Gegenstand haben (so dass eine Ontologie, die beispielsweise Zellkomponenten gewidmet ist, nicht Begriffe wie Datenbank oder Integer enthalten). Eine grafische Darstellung der Abdeckung der ersten Gießerei-Ontologien ist in Tabelle 1 dargestellt. Bisherige Fortschritte Seit der Gründung der OBO-Gießerei wurden Ontologien wie der GO und das Fundamentale Modell der Anatomie (FMA) 13 reformiert und neue Ontologien auf der Grundlage ihrer Prinzipien 14, 15, 16 geschaffen. Vielleicht am wichtigsten, haben Ontologien Wurde zur Ruhe gelegt Vor der OBO-Gießerei gab es mindestens vier zelltypische Ontologien: eine von Bard, Rhee und Ashburner 17. andere von Kelso et al. 18. eine dritte implizite innerhalb der GO und die vierte eine Subkontologie innerhalb der FMA. Die ersten drei bilden nun eine einzelne Zelltyp-Ontologie (CL) 19., die selbst mit den in der FMA enthaltenen zelltypischen Darstellungen integriert ist. Die Gießerei-Initiative dient auch der Angleichung der Ontologie-Entwicklungsbemühungen, die von separaten Gemeinschaften durchgeführt werden, beispielsweise bei der Erforschung verschiedener Modellorganismen. Das Potenzial einer solchen Forschung, Ergebnisse zu liefern, die für das Verständnis der menschlichen Krankheit wertvoll sind, beruht auf unserer Fähigkeit, zuverlässige Vergleichsquellen zu machen. Weil so viel Modell-Organismus-Daten auf anatomische Strukturen lokalisiert sind, ist das Zeichnen von Schlussfolgerungen auf der Grundlage solcher Vergleiche durch den Mangel an Koordination in der anatomischen Ontologie-Entwicklung unter verschiedenen Gemeinschaften behindert worden. Einige Ontologien repräsentieren die Struktur, andere repräsentieren die Funktion, aber andere stellen Entwicklungsstadien dar, und einige zeichnen auf Kombinationen von diesen, in einer Weise, die Chancen für automatisches Argumentieren schließen. Die Gießerei hat eine Roadmap für die inkrementelle Auflösung dieses Problems durch die Einleitung der Common Anatomy Reference Ontology (CARO) erstellt 14., die Leitlinien sowohl für Modell-Organismus-Gemeinschaften mit Legacy-Anatomie Ontologien, die Reformen in Richtung zu initiieren wollen Kompatibilität und für Gemeinschaften, die neue Ontologien von Grund auf neu bauen wollen. CARO basiert auf den Top-Level-Typen der FMA und dient als Vorlage für die Schaffung der Fish Multi-Species, Ixodidae und Argasidae (Tick), Moskito und Xenopus Anatomie Ontologien sowie als Grundlage für Reformen der Drosophila Und Zebrafisch Anatomie Ontologien 19. Die Ontologie für biomedizinische Untersuchungen (OBI) befasst sich mit der Notwendigkeit von kontrollierten Vokabeln, die Integration von experimentellen Daten zu unterstützen, die ursprünglich in der transkriptomischen Domäne von der Microarray Gen Expression Data Society (MGED) identifiziert wurden, die die MGED Ontology 20 als Annotationsressource entwickelte Für Microarray-Daten. Als Reaktion auf die Anerkennung konvergenter Bedürfnisse in Bereichen wie Protein - und Metabolitencharakterisierung wurde diese Anstrengung erweitert, um das zu werden, was ursprünglich als FuGO bekannt war. 21. FuGO wurde 2006 weiter ausgebaut, um klinische und epidemiologische Forschung, Biomedizinische Bildgebung und eine Vielzahl weiterer Experimentierdomänen zu werden, was heute OBI ist, eine Ontologie, die die koordinierte Darstellung von Entwürfen, Protokollen, Instrumentierung, Materialien, Prozessen, Daten und Arten von Analysen in allen Bereichen der biologischen und biomedizinischen Untersuchung ermöglicht. Fünfundzwanzig Gruppen sind jetzt in den Aufbau von OBI (obi. sfcommunity) involviert, und die Gießerei-Disziplin hat sich für ihre verteilte Entwicklung als wesentlich erwiesen. Im Gegensatz zu den meisten OBO-Ontologien, die das OBO-Dateiformat und die zugehörige OBO-Edit-Software verwenden, die von Modellorganismus und anderen Biologengemeinschaften bevorzugt wird, verwendet OBI die OWL-DL Web Ontology Language. Die Notwendigkeit, OWL - und OBO-Ontologien interoperabel zu machen, hat die Schaffung von bidirektionalen OBOx02013OWL-Umwandlungstools 22 ausgelöst, die Daten, die in Bezug auf die GO - und andere OBO-Ontologien kommentiert wurden, mit den im Rahmen des Semantic Web 23 im Rahmen des Semantic Web 23 befindlichen Datenelemente eine einflussreiche Initiative integrieren Um OWL-Ontologien zu nutzen, um Wissen in verteilten Computersystemen zu kodieren 24. Modelle der guten Praxis Jede Gießerei-Ontologie bildet eine grafentheoretische Struktur, wobei die Begriffe durch Kanten verbunden sind, die Beziehungen wie Isa oder Teil von Assertionen wie Serotonin asa biogenen Amin oder Zytokinese Teil der Zellproliferation darstellen. Weil die Beziehungen in OBO-Ontologien ursprünglich in inkonsistenten Wegen verwendet wurden 25. Die OBO-Relation Ontology (RO) 26 wurde entwickelt, um Richtlinien für Ontologie-Builder in der konsequenten Formulierung von relationalen Behauptungen zu geben. Diese Leitlinien erweisen sich bereits in der Darstellung der anatomischen Veränderung 27 und bei der Verknüpfung diverser Bildsammlungen mit phylogenetischen Datensätzen 28. Weitere Bereiche, in denen die Gießerei Leitlinien vorsieht, sind die Namenskonventionen 29 und die Pfaddarstellungen 30. Das Modell der bewährten Praxis in der Formulierung von Definitionen ist die FMA 13. eine Darstellung von Arten von anatomischen Einheiten, die um zwei Backbone-Hierarchien von isa und partof-Beziehungen gebaut sind . Die FMA setzt eine Regel voraus, wobei alle Definitionen die Gattungsarten-Form nehmen: a A def. A B, dass Cs, wo B ist die isa Elternteil von A, und C sind die differentia markiert, dass Unterfamilie von Bs, die auch As sind. Zum Beispiel, Zell def. Eine anatomische Struktur, die als die Grenze die äußere Oberfläche einer maximal verbundenen Plasmamembran-Plasmamembran def aufweist. Eine Zellkomponente, die als ihre Teile eine maximale Phospholipid-Doppelschicht aufweist, in der Fälle von zwei oder mehr Arten von Protein eingebettet sind. Die Verankerungsdefinitionen in der isa-Hierarchie verringern auf diese Weise die Rolle der Meinung bei der Bestimmung, wo Begriffe in die Hierarchie gesetzt werden sollen, wodurch die Konsistenz sowohl innerhalb als auch zwischen den Ontologien gefördert und dazu beitragen, gemeinsame Fehler zu vermeiden 6, 7, 26. Um die Cross-Ontologie-Koordination zu maximieren, sollten zusammengesetzte Begriffe so weit wie möglich aus den Bestandteilen der Gießerei-Ontologien aufgebaut werden, die mit relationalen Ausdrücken aus dem RO 31 verbunden sind. Diese Methode der Cross-Produkte wird in einem der biologischen Projekte angewendet Die NCBO, zur Annotation von Drosophila. Zebrafisch und menschliche Allele für Gene, die in die Krankheit 12, 32 verwickelt sind. Spezialisten-Kuratoren assoziieren diese Allele mit Phänotyp-Beschreibungen, die mit Begriffen formuliert werden, die aus mehr als einer OBO-Gießerei ontologyx02014 z. B. zusammengesetzt sind, wobei der Begriff der phänotypischen Qualität Ontologie (PATO) eine erhöhte Konzentration mit dem FMA-Term-Blut komponiert wird Und der ChEBI-Term Glukose, um erhöhte Blutzucker-Phänotypen darzustellen. Eine solche Erstellung von Begriffen durch explizite Komposition vermeidet die Engpässe, die entstehen, wo, wie zum Beispiel in der Säugetier-Phänotyp-Ontologie, jeder neue Begriff für die Aufnahme in die Ontologie genehmigt werden muss, bevor er in Annotationen verwendet werden kann. Aber der Ansatz wird nur dann funktionieren, wenn die daraus resultierenden Begriffe eindeutig sind, und hier hilft die Gießerei die nötige Strenge. Das Orthogonalitätsprinzip hilft, die Notwendigkeit von willkürlichen Entscheidungen zwischen äquivalenten, scheinbaren Begriffen aus verschiedenen Ontologien zu reduzieren, die PATO-Phänotypen-Ontologie liefert Vorlagen für die Begriffsbildung und der RO liefert formell kohärenten Klebstoff für die Kombination 33. Der aktuelle Umfang der OBO-Gießerei-Initiative ist in Tabelle 2 zusammengefasst. Gießerei-Ontologien werden von Biologen mit einer gründlichen Kenntnis der zugrunde liegenden Wissenschaft erstellt und gepflegt. Wo Domänenexperten gemeinsam Ontologie, Daten und Annotationen kontrollieren (wie im Fall der GOUniprot-Kooperation), können alle drei in Tandem in einer Weise kuratiert werden, die in jeder Phase des Prozesses eine Wirklichkeitsprüfung bietet. Wie die Ergebnisse der Experimente sind Beschrieben in Annotationen, führt dies zu Erweiterungen oder Korrekturen der Ontologie, die wiederum zu einer besseren Annotation führen 35. Die Ergebnisse der Gießerei Arbeit kann dann von externen Gruppen als Benchmarksx02014 zum Beispiel angewendet werden, um zu identifizieren, Gene, die bei signifikanten Frequenzen im Menschen mutiert sind Krebs 36 oder zur Identifizierung von zellulären Komponenten, die an der Antigenverarbeitung 37 beteiligt sind, oder im Allgemeinen, um sonst geräuschvolle Ergebnisse des Text - und Datenbergbaus 38, 39, 40, 41 zu verfeinern. Die OBO Gießerei angewendet Neurophysiologie. Eine Demonstration der Nützlichkeit der Gießerei-Methodik wird durch laufende Arbeit zur Erstellung der NeuronDB-Datenbank im Senselab-Projekt (senselab. med. yale. edu) zur Verfügung gestellt. NeuronDB umfasst drei Arten von neuronalen Eigenschaften: spannungsgesteuerte Leitwerte, Neurotransmitter und Neurotransmitter-Rezeptoren. Eine anfängliche Darstellung von Neurotransmittern definierte eine isa-Hierarchie mit Klassen wie Neurotransmitter-Rezeptor und Unterklassen wie GABA-Rezeptor. In dieser anfänglichen Ontologie waren die Rezeptoren nicht definiert, und streng genommen hätte man beispielsweise nicht gewusst, ob ein Rezeptor ein Protein oder ein Proteinkomplex war. Die Gießerei stellte eine Reihe von Prinzipien und mindestens eine Aufgabe, die bei der Entscheidungsfindung ausgewertet werden kann, nämlich der Umfang jeder Ontologie sollte klar beschränkt werden und (durch Orthogonalität) kein Begriff in mehr als einer Ontologie erscheinen sollte. Bei der Überprüfung der vorhandenen Ontologien haben wir festgestellt, dass die GO Molecular Function (GO MF) Ontologie bereits Klassen wie Rezeptoraktivität (GO: 0004872) und eine Anzahl von Unterklassen hatte, die Rezeptoraktivitäten beschrieben haben, auf die in NeuronDB verwiesen wurde. Wir haben einhundertdreißig resultierende Rezeptorklassen überprüft. Wo sie existierten, haben wir MF-Klassen wiederverwenden, wo sie nicht waren, wir haben Unterklassen bestehender MF-Klassen erstellt und die Ergebnisse an GO zur zukünftigen Einbeziehung vorgelegt. Arrangieren von NeuronDB, um transparent mit GO zu interagieren, stellte den weiteren Vorteil dar, dass wir jetzt GO-Annotationen nutzen können, um die Proteine zu finden, die den Rezeptorklassen entsprechen, indem sie Annotationen zu den MF-Terme suchen. Dies ist ein Modell dafür, wie kleine Ontologie-Bauherren konstruktiv zum Wachstum der gemeinsamen Ressourcen beitragen können und gleichzeitig den Nutzern ihrer eigenen Ontologien zugute kommen. Neuroanatomie Zur Unterstützung der Forschung auf neurodegenerativen und neurologischen Erkrankungen im Biomedical Informatics Research Network (BIRN) 42. Die BIRN Ontology Task Force nutzt die Gießerei-Prinzipien, um mehrere große Domänen formal zu vertreten, einschließlich (i) Neuroanatomie 43. wo Annotationen nicht nur erfassen müssen Die strukturellen Systeme der partizipativen und topologischen Verbindung, aber auch zytoarchitektonische Parzellierungen wie die CA1-, CA2- und CA3-Regionen des Hippocampus, (ii) funktionale Systeme wie die Basalganglienschaltungen für die Motorenplanung und das motorische Gedächtnis und (iii) Neurochemie (für Beispiel von Hirnstamm-Monoaminkernen). Die Mitglieder der BIRN Ontology Task Force sehen die Gießerei als ein Framework, in dem diese verschiedenen Achsen algorithmisch kombiniert werden können, und sie integrieren die Ergebnisse in das BIRNs Neuroimage Atlasing-Projekt und verwenden sie, um räumlich abgebildete Microarray-Expressionsdaten mit den Maus-Imaging-Ergebnissen zu integrieren . Die Mindestinformationen für biologische und biomedizinische Untersuchungen (MIBBI). Diese Initiative stellt die ersten neuen Standard-Bemühungen dar, die OBO und die OBO-Gießerei als ihr Vorbild 44 aufnehmen. MIBBI stellt Informationsressourcen zur Verfügung, um die Konsolidierung der vielen präskriptiven Checklisten zu fördern, die Kernmetadatenelemente angeben, die bei der Meldung von Ergebnissen in einer Vielzahl von Experimenten enthalten sind Domains 45. Die Verbreitung solcher Mindestinformations-Checklisten hat es immer schwieriger gemacht, einen Überblick über bestehende Spezifikationen zu erhalten, unnötig Duplizierungen und Probleme zu schaffen, wenn Dritte versuchen, beschriebene Informationen zu verwenden. Das MIBBI Portal arbeitet analog zu OBO und dem NBCO Bioportal als offene Informationsquelle für alle Initiativen, die sich mit diesen Problemen auseinandersetzen. Die MIBBI Foundry fördert die kollaborative Entwicklung und Integration von Checklisten in orthogonale Module 46. Wie man wie OBO beitritt, ist die OBO Foundry eine offene Community. Jede Einzelperson oder Gruppe, die auf dem Gebiet der Biomedizin arbeitet, die der Initiative beitreten will, wird dazu ermutigt, und alle Diskussionsforen (aufgeführt bei obofoundry. org) stehen allen interessierten Parteien ohne Einschränkung offen. Der empfohlene erste Schritt ist, eine oder mehrere Mailinglisten in markanten Bereichen zu verbinden, um sich mit der Collaborative Methodik der Foundrys vertraut zu machen und Mitglieder mit überlappender Expertise zu identifizieren. Diejenigen mit neuen ontologischen Ressourcen sind eingeladen, sie zur informellen Betrachtung durch bestehende Mitglieder einzureichen, auf die eine Periode folgt, in der die Einhaltung der Gießerei-Prinzipien angegangen wird, insbesondere in Bezug auf potenzielle Konflikte in Überlappungsbereichen. Die Mitgliedschaft in der Gießerei-Initiative fließt dann von einer Verpflichtung zur inkrementellen Umsetzung dieser Prinzipien, wie sie sich im Laufe der Zeit entwickeln, mit den Gießerei-Koordinatoren (derzeit Ashburner, Lewis, Mungall und Smith) als Analoge von Zeitschriftenredakteuren, wobei die Arbeitsteilung, die sich ergibt Aus der Orthogonalität hilft sicherzustellen, dass die Entwicklungsentscheidungen von den Autoren der einzelnen Ontologien gemacht werden. Mit dem Beitritt zur Initiative verpflichten sich die Autoren einer Ontologie, mit anderen Mitgliedern zusammenzuarbeiten, um sicherzustellen, dass es für eine bestimmte Domäne eine Konvergenz auf einer einzigen Ontologie gibt. Kritik ist auch: Die Gießerei ist ein Versuch, die wissenschaftliche Methode auf die Aufgabe der Ontologie-Entwicklung anzuwenden, und so akzeptiert sie, dass keine Ressource jemals in einer Form existieren wird, die nicht weiter verbessert werden kann. Unser langfristiges Ziel ist, dass die durch biomedizinische Forschung erzeugten Daten ein einziges, konsequentes, kumulativ expandierendes und algorithmisch tragbares Ganzes bilden. Unsere Bemühungen, dieses Ziel zu verwirklichen, das sich noch sehr im Prüfungsstadium befindet, spiegeln einen Versuch wider, die Linie zwischen der für den wissenschaftlichen Fortschritt unentbehrlichen Flexibilität und der für eine erfolgreiche Koordination unentbehrlichen Prinzipien zu betreiben. Danksagungen Die Gießerei erhält Ad-hoc-Finanzierung unter dem BISC Gen e Ontology Consortium, MGED, NCBO und RNA Ontology Stipendien. Wir danken allen diesen Quellen und auch dem ACGT-Projekt der Europäischen Union und den Humboldt - und Volkswagen-Stiftungen. Referenzen Yue, L. amp Reisdorf, W. C. Pathway - und Ontologieanalyse: auftauchende Ansätze, die Transkriptomdaten und klinische Endpunkte verbinden. Curr. Mol Med. 5. 11821121 (2005). Artikel PubMed ChemPort Gene Ontology Konsortium. Das Gene Ontology (GO) Projekt im Jahr 2006. Nucleic Acids Res. 34 (Datenbankausgabe), D3228211D326 (2006). Artikel Camon, E. et al. Das Gene Ontology Annotation (GOA) Projekt. Genom Res. 13. 6628211672 (2003). Artikel PubMed ISI ChemPort Kohane, I. S. Et al. Aufbau nationaler elektronischer medizinischer Aufnahmesysteme über das World Wide Web. J. Am. Med. Informieren. Assoc. 3. 1918211207 (1996). PubMed ChemPort Bodenreider, O. Das Unified Medical Language System (UMLS): Integration der biomedizinischen Terminologie. Nucleinsäuren Res. 32 (Datenbankausgabe), D2678211D270 (2004). Artikel PubMed ISI ChemPort Ceusters, W. Smith, B. Kumar, A. amp Dhaen, C. Fehler in medizinischen Ontologien: Woher kommen sie und wie können sie erkannt werden Stud. Gesundheit Technol. Informieren. 102. 1458211164 (2004). PubMed Ceusters, W. Smith, B. amp Goldberg, L. Eine terminologische und ontologische Analyse des NCI-Thesaurus. Methoden Inf. Med. 44. 4988211507 (2005). PubMed ChemPort Campbell, K. E. Oliver, D. E. Amp Shortliffe, E. H. Das Unified Medical Language System. Auf dem Weg zu einem kollaborativen Ansatz zur Lösung terminologischer Probleme. J. Am. Med. Informieren. Assoc. 5. 12821116 (1998). PubMed ChemPort Buetow, K. H. Cyberinfrastruktur: Stärkung eines dritten Wegs in der biomedizinischen Forschung Wissenschaft 308. 8218211824 (2005). Artikel PubMed ChemPort Smith, B. amp Ceusters, W. HL7 RIM: ein inkohärenter Standard. Zucht. Gesundheit Technol. Informieren. 124. 1338211138 (2006). PubMed Ashburner, M. Mungall, C. J. amp Lewis, S. E. Ontologien für Biologen: ein Gemeinschaftsmodell für die Annotation von genomischen Daten. Kalter Frühling Harb. Symp. Quant. Biol. 68. 2278211236 (2003). Artikel PubMed ChemPort Rubin, D. L. Et al. Nationales Zentrum für biomedizinische Ontologie: Biomedizin durch strukturierte Organisation von wissenschaftlichen Erkenntnissen vorantreiben OMICS 10. 1858211198 (2006). Artikel PubMed ChemPort Rosse, C. amp Mejino, J. L.F. Das Grundmodell der Anatomie-Ontologie. In Anatomie Ontologien für Bioinformatik (Hrsg. Burger, A. et al.) (Springer, New York, in der Presse). Haendel, M. et al. CARO: die gemeinsame Anatomie Referenz Ontologie. In Anatomie Ontologien für Bioinformatik (Hrsg. Burger, A. et al.) (Springer, New York, in der Presse). Leontis, N. B. Et al. Das RNA-Ontologie-Konsortium: eine offene Einladung zur RNA-Community. RNA 12. 5338211541 (2006). Artikel PubMed ChemPort Natale, D. A. Et al. Rahmen für eine Protein-Ontologie. BMC Bioinformatik online (in der Presse). Bard, J. Rhee, S. Y. Amp ashburner, M. Eine Ontologie für Zelltypen. Genom Biol. Online 6. R21 (2005). Artikel Kelso, J. et al. EVOC: ein kontrolliertes Vokabular zur Vereinheitlichung von Genexpressionsdaten. Genom Res. 13. 122282111230 (2003). Artikel PubMed ChemPort Mabee, P. M. Et al. Phänotyp Ontologien: die Brücke zwischen Genomik und Evolution. Trends Ecol. Evol 22. 3458211350 (2007). Artikel PubMed Whetzel, P. L. Et al. Die MGED-Ontologie: eine Ressource für semantikbasierte Beschreibung von Microarray-Experimenten. Bioinformatik 22. 8668211873 (2006). Artikel PubMed ISI ChemPort Whetzel, P. L. Et al. Entwicklung von FuGO: eine Ontologie für funktionelle Genomforschung. OMICS 10. 1998211204 (2006). Artikel PubMed ISI ChemPort Golbreic, C. et al. OBO und OWL: Nutzung semantischer Web-Technologien für die Life Sciences. In Proceedings 6. International Semantic Web Conference (ISWC 2007), (Springer, in der Presse). Brinkley, J. F. Detwiler, L. T. Gennari, J. H. Rosse, C. amp Suciu, D. Ein Rahmen für die Verwendung von Referenz-Ontologien als Grundlage für das semantische Web. Proc. AMIA Fall Symposium. 2006. 958211100. Lacy, L. W. Eule: Darstellung von Informationen mit der Web-Ontologie-Sprache (Trafford Publishing, Victoria, BC, Kanada, 2005). Smith, B. Koumlhler, J. amp Kumar, A. Auf der Anwendung formaler Prinzipien auf die Daten der Life Science: eine Fallstudie in der Gene Ontologie. Datenintegration in der Life Sciences (DILS) Workshop 2004. 79821194. Smith, B. et al. Beziehungen in biomedizinischen Ontologien. Genom Biol. Online 6. R46 (2005). Artikel Bittner, T. amp Goldberg, L. J. Räumlicher Standort und seine Bedeutung für terminologische Schlussfolgerungen in Bio-Ontologien. BMC Bioinformatik 23. 167482111682 (2007). ChemPort Ramiacuterez, M. J. et al. Verknüpfung von digitalen Bildern mit phylogenetischen Datenmatrizen unter Verwendung einer morphologischen Ontologie. Syst Biol. 56. 2838211294 (2007). Artikel PubMed Schober, D. et al. Auf dem Weg zur Benennung von Konventionen für den Einsatz im kontrollierten Vokabular und Ontologietechnik. Bio-Ontologien-Workshop. ISMBECCB, Wien, 20. Juli 2007. 87821190. Ruttenberg, A. Rees, J. amp Zucker, J. Was BioPAX kommuniziert und wie man OWL erweitert, um es zu helfen. OWL: Erfahrungen und Richtungen Workshop-Serie ltowl-workshop. man. ac. ukacceptedLongsubmission26.pdf gt (2006). Hunter, L. amp Bada. M. Anreicherung von OBO-Ontologien. J. Biomed Informieren. 40. 3008211315 (2007). Artikel PubMed Hill, D. P. Blake, J. A. Richardson, J. E. amp Ringwald, M. Erweiterung und Integration der Gen-Ontologie (GO): Kombination von GO-Vokabeln mit externen Vokabeln. Genom Res. 12. 198282111991 (2002). Artikel PubMed ISI ChemPort Mungall, C. J. Obol: Integration von Sprache und Bedeutung in Bio-Ontologien. Comp. Funken Genomics 5. 5098211520 (2004). Artikel ChemPort Camon, E. et al. Die Gene Ontologie Annotation (GOA) Datenbank: Austausch von Wissen in Uniprot mit Gene Ontologie. Nucleinsäuren Res. 32 (Datenbankausgabe), D2628211D266 (2004). Artikel PubMed ISI ChemPort Blake, J. Hill, D. P. Amp Smith, B. Gene Ontologie Anmerkungen: was sie bedeuten und woher sie kommen. Bio-Ontologien-Workshop. ISMBECCB, Wien, 20. Juli 2007. 79821182. Sjoblom, T. et al. Die Konsens kodierenden Sequenzen von menschlichen Brust - und Darmkrebsarten. Wissenschaft 314. 2688211274 (2006). Artikel PubMed ISI ChemPort Lee, J. A. Et al. Komponenten der Antigenverarbeitung und des Präsentationsweges, die durch die Genexpressionsmikroarrayanalyse nach der B-Zell-Antigenrezeptor (BCR) stimuliert wurden. BMC Bioinformatik online 7. 237 (2006). Artikel Rebholz-Schuhmann, D. Kirsch, H. amp Couto, F. Fakten aus Text8212 ist Textabbau bereit, PLoS Biol zu liefern. Online 3. e65 (2005). Artikel Witte, R. Kappler, T. amp Baker, C. J.O. Ontologie Design für biomedizinischen Text Bergbau. In Semantic Web: Revolutionierende Wissensentdeckung in den Life Sciences (Hrsg. Baker C. J.O. amp Cheung, K.-H.) 2818211313 (Springer, New York, 2007). Zhang, S. amp Bodenreider, O. Ausrichtung mehrerer anatomischer Ontologien durch eine Referenz. Internationaler Workshop zum Ontologie-Matching (OM 2006) 1938211197 (2006). Luo, F. et al. Modulare Organisation von Protein-Interaktionsnetzwerken. Bioinformatik 23. 2078211214 (2007). Artikel PubMed ISI ChemPort Martone, M. E. Gupta, A. amp Ellisman, M. H. E-Neurowissenschaften: Herausforderungen und Triumphe bei der Integration verteilter Daten von Molekülen zu Gehirnen. Nat. Neurosci 7. 4678211472 (2004). Artikel PubMed ISI ChemPort Fong, L. et al. Eine ontologiegesteuerte Wissensumgebung für die subzelluläre Neuroanatomie. OWL Erlebnisse und Richtungen, 3. Internationaler Workshop. Innsbruck, Österreich, Juni 682117, 2007 (in der Presse). Taylor, C. F. Et al. Förderung der kohärenten Mindestanforderungen an die Erfassung von biologischen und biomedizinischen Untersuchungen: Das MIBBI-Projekt. Nat. Biotechnol (In der Presse). Brazma, A. et al. Minimale Informationen über ein Microarray-Experiment (MIAME) 8212Verfahren zu Standards für Microarray-Daten. Nat. Genet 29. 3658211371 (2001). Artikel PubMed ISI ChemPort Sansone, S. A. et al. Eine Strategie, die Synergien ausschöpft: die Arbeitsgruppe "Berichterstattungsstruktur für die biologische Untersuchung" (RSBI). OMICS 10. 1648211171 (2006). Artikel PubMed ISI ChemPort Grenon, P. Smith, B. amp Goldberg, L. Biodynamische Ontologie: Anwendung von BFO im biomedizinischen Bereich. In Ontologien in der Medizin (Hrsg. Pisanelli, D. M.) 20821138 (IOS, Amsterdam, 2004). Abteilung für Philosophie und New York State Center of Excellence in Bioinformatik und Life Sciences, Universität in Buffalo, 701 Ellicott Street, Buffalo, New York 14203, USA. Abteilung für Genetik, Universität Cambridge, Downing Street, Cambridge, CB2 3EH, UK. Abteilung für biologische Struktur, Kasten 357420, Universität von Washington, Seattle, Washington 98195, USA. Abteilung für Biomedizinische Wissenschaften, Universität Edinburgh, 1 George Square, Edinburgh EH8 9JZ, Schottland, UK. Abteilung für Neurobiologie und Anatomie, Drexel University College of Medicine, 2900 Queen Lane, Philadelphia, Pennsylvania 19129, USA. Abteilung für Psychiatrie und New York State Center of Excellence in Bioinformatik und Life Sciences, Universität in Buffalo, 701 Ellicott Street, Buffalo, New York 14203, USA. Abteilung für Mundbiologie und New York State Center of Excellence in Bioinformatik und Life Sciences, Universität in Buffalo, 701 Ellicott Street, Buffalo, New York 14203, USA. Eccles Institut für Humangenetik, Universität von Utah, 15 Nord 2030 Ost, Salt Lake City, Utah 84112, USA. Europäisches Bioinformatik-Institut, Wellcome Trust Genom Campus, Hinxton, Cambridge, CB10 1SD, UK. Life Sciences Division, Lawrence Berkeley National Lab, 1 Cyclotron Road, Berkeley, Kalifornien 94720, USA. Obi. sourceforgecommunityindex. php Abteilung für Chemie, Bowling Green State University, 212 Physical Sciences Laboratory Building, 1001 East Wooster Street, Bowling Green, Ohio 43403, USA. Science Commons, Co Massachusetts Institut für Technologie Informatik und Künstliche Intelligenz Labor, Gebäude 32-386D, 32 Vassar Street, Cambridge, Massachusetts 02139, USA. Abteilung für Pathologie, University of Texas Southwestern Medical Center, Harry Hines Blvd. Dallas, Texas 75390 USA. Stanford Medical Informatics, Stanford University School of Medicine, 251 Campus Drive, Stanford, Kalifornien 94305, USA. Zentrum für Bioinformatik und Abteilung für Genetik, Universität Pennsylvania School of Medicine, 423 Guardian Drive, Philadelphia, Pennsylvania 19104, USA. MORE ARTICLES LIKE THIS These links to content published by Nature Research are automatically generated. Main navigation Extra navigationSurvey-based naming conventions for use in OBO Foundry ontology development Background A wide variety of ontologies relevant to the biological and medical domains are available through the OBO Foundry portal, and their number is growing rapidly. Integration of these ontologies, while requiring considerable effort, is extremely desirable. However, heterogeneities in format and style pose serious obstacles to such integration. In particular, inconsistencies in naming conventions can impair the readability and navigability of ontology class hierarchies, and hinder their alignment and integration. While other sources of diversity are tremendously complex and challenging, agreeing a set of common naming conventions is an achievable goal, particularly if those conventions are based on lessons drawn from pooled practical experience and surveys of community opinion. We summarize a review of existing naming conventions and highlight certain disadvantages with respect to general applicability in the biological domain. We also present the results of a survey carried out to establish which naming conventions are currently employed by OBO Foundry ontologies and to determine what their special requirements regarding the naming of entities might be. Lastly, we propose an initial set of typographic, syntactic and semantic conventions for labelling classes in OBO Foundry ontologies. Conclusion Adherence to common naming conventions is more than just a matter of aesthetics. Such conventions provide guidance to ontology creators, help developers avoid flaws and inaccuracies when editing, and especially when interlinking, ontologies. Common naming conventions will also assist consumers of ontologies to more readily understand what meanings were intended by the authors of ontologies used in annotating bodies of data. Background A wide variety of ontologies, controlled vocabularies, and other terminological artifacts relevant to the biological or medical domains are available through open access portals such as the Ontology Lookup Service (OLS) 1 , and the number of such artifacts is growing rapidly. One of the goals of the Open Biomedical Ontologies (OBO) Foundry initiative 2 is to facilitate integration among these diverse ontologies. However, such integration demands considerable effort and differences in format and style can only add obstacles to the execution of this task 3 . The heterogeneity within the set of existing ontologies derives from the use of diverse ontology engineering methodologies and is manifest in the adoption by different communities of Description Logic, Common Logic, or other formalisms. The spectrum of syntaxes used to express these formalisms, such as the Web Ontology Language (OWL) or the OBO format, and the commitment of individual communities to conceptualist or realism-based philosophical approaches are also contributing factors. Here we focus on issues of nomenclature 4 , and specifically on the naming conventions used for labeling classes in ontologies, which are an additional contributing factor to the problem of heterogeneity. Even in this relatively straightforward area, no conventions have achieved broad acceptance (see survey section below). The lack of naming conventions or their inconsistent usage can impair readability and navigation when viewing ontology class hierarchies. We believe that clear and explicit naming becomes of even greater importance when interlinking ontologies (for example via owl:import. obo dbxref and other referencing and mapping statements 5 , or when ontology engineers need to collaborate with external groups to align their ontologies and to ensure effective maintenance of modularity). While other sources of diversity are tremendously complex and challenging, it is our belief that establishing a set of naming conventions for the OBO Foundry is a tractable goal, particularly if those conventions are based on lessons drawn from pooled practical experience and targeted surveying. There is of course no shortage of initiatives for the development of specifications and standards tackling naming 6 9 . However, where naming conventions have been developed, widespread application has been hampered by several factors, most notably domain specificity, document inaccessibility and format dependency. A comprehensive survey of existing naming convention documents can be found at the dedicated OBO Foundry naming conventions website 10 . Domain specificity One significant obstacle to common adoption is that many of the proposed conventions are domain-specific and not generally extendible to other fields for example, the Human Genome Organization (HUGO) nomenclature 11 is restricted to gene names. Other conventions refer only to entities occurring within programming languages 12 or to the naming of natural language documents 13 . Document inaccessibility A second obstacle relates to poor documentation. A naming convention whose documentation is unclear, or is dispersed in multiple documents or document sections, artificially constrains its own chances of acceptance. This is the case with the BioPAX manual 14 , which is in addition overly tool-centric in that it addresses only Protg-OWL issues. Another deficiency is the commercial or semi-proprietary nature of conventions such as the International Organization for Standardization (ISO) standards 15 . Many of these proposed conventions also impair access through information overload, there being around forty ISO documents addressing naming issues alone. Other naming conventions are described only implicitly and via unintuitive search attributes, or are not available on-line, making access difficult. Format and implementation dependency Sometimes only certain naming issues are tackled by a naming convention usually those most germane to a particular format. The Gene Ontology (GO) Editorial Style Guide 16 for example, is of limited coverage and applicability, as it is embedded in an OBO-format specific document. The ANSIISO Z39.19-2005 Standard 8 is applicable only to terms organized in an is-a hierarchy without relations and therefore lacks proper conventions for representing ontological classes and properties in semantically complex ontologies. In the case of the Ontology Engineering and Patterns Task Force of the Semantic Web Best Practices and Deployment working group 17 , the guidelines are restricted to the OWL format and are dispersed throughout many documents and document sections. To overcome this diversity and fragmentation members of the OBO Foundry and of the Metabolomics Standards Initiative (MSI) ontology working group 18 have set up an infrastructure group that is attempting to: collect, review and compare existing naming conventions distill universally valid conventions that can be implemented in both the OWL and OBO formats, and conceivably also in other formats engage in discussion with other groups concerned with nomenclature standardization in order to establish a forum for coordinated advance create a single common guideline document to serve as a common resource for the OBO Foundry and associated initiatives. In this communication we present the preliminary results of a survey of the naming conventions applied by ontology groups listed under the OBO Foundry, together with an initial set of what we believe are robust conventions for formulation of terms in ontologies and a list of open issues that need to be resolved in the future. To determine the sources of heterogeneity in naming and to initiate a discussion among the ontology groups associated with the OBO Foundry, we carried out a survey. The goal was to allow us to: catalog the naming conventions that these groups currently apply learn about existing sets of documentation for the various naming conventions cataloged assess special requirements regarding the naming of entities in the context of various biological domains discover issues not yet addressed by our proposed conventions to determine future needs. The survey was conducted by contacting the custodians of the 66 OBO ontologies (as of November 2007) either by email or telephone. Each respondent then received a questionnaire that was divided into four parts, covering: 1. Ontology engineering process and level of awareness of the OBO Foundry Current practice in naming entities and documentation thereof Implementation of different name categories Questions on particular naming conventions The full questionnaire, the complete set of answers and the consolidated results are available from the OBO Foundry wiki 10 . For more information on the survey results and list of participants see the Additional file 1. SurveyResults. zip. Naming Conventions Our proposed set of naming conventions, founded on the survey results, is summarized in Table 1. In further discussions, we refer to the entities of which an ontology consists (in some circles these are called classes and relations) as its representational units 19 . A representational unit can be accompanied by one or more synonymous names of different categories. Any type of name that is chosen to be displayed in the hierarchy is called display name (called browser key in Protg). Where the form of that name is controlled by a set of explicit rules we refer to it as a formal name. To ensure that the conventions proposed here are expressed unambiguously we employ the following additional name categories, which we hope will also have general utility: The initial set of OBO Foundry naming conventions 1. Be clear and unambiguous 2.1 Use univocous names and avoid homonyms Names should have the same meaning on every occasion of use and refer to the same types of entities in reality. Homonyms, ambiguous terms that share the same spelling but have many different meanings, are to be avoided as part of editor-preferred names. Use terms with fewest possible amount of homonyms in building names protocol collection instead of protocol set for a plurality of protocols (store the latter as synonym), parameter adjustment instead of parameter setting for the act of setting parameters Increases precision in the interpreted meaning. Faster term recognition 2.2 Avoid conjunctions Words that are used to join other words, such as the logical connectives and and or should be avoided in names as they can introduce ambiguity and may hamper inference by causing excessive branching. The same applies to qualifiers such as in some cases In anatomic structure, system or substance it is not clear whether the adjective anatomic is restricted to structure or extends also to system and substance. In the first case the substances drug and chemical would be classified under this class, otherwise not. Increases precision in the interpreted meaning 2.3 Prefer singular nominal form Use singular names throughout. Where plurals need to be captured, e. g. when one instance of the plural class represents a plurality itself, consistently use explicit plural indicating postfixes as part of the class names, e. g. use aggregate, collective or population consistently, but only as applicable. pair of lungs, population instead of lungs, people collection Increases precision in the interpreted meaning, helps string matching 2.4 Use positive names Avoid use of negations in formulating names. Avoid complements and negative names like non-separation device because logically this will include everything in the universe that is not a separation device. The absence of a characteristic is not a concise differentiating criterion. Do not represent the absence of a characteristic (e. g. wing) as the presence of the non-existence of a characteristic, e. g. wing hasstatus absent. Avoid non-linear model Increases precision in the interpreted meaning editor-preferred name . A formal name used by the ontologys developers and adhering to their guidelines and naming conventions. Editor-preferred names are primarily constructed to aid those building and manipulating an ontology and should therefore be specified as the display name during ontology editing. The editor-preferred name for the Foundational Model of Anatomy (FMA) class FMA:3862 is Anterior interventricular branch of left coronary artery. user-preferred name . An informal name chosen to meet the expectations of an end user community. Usually this would be the name most frequently found in the literature of the relevant domains, which can inter alia serve as an intuitive, queryable attribute for end users searching for data sets in a repository. The user-preferred names from FMA for FMA:3862 is Left anterior descending branch of left coronary artery. short name . A very short name that is useful when displaying large, dense graphs (whose nodes are classes and whose edges are relations). A short name from FMA for FMA:3862 is the acronym LAD. Further types of names can be distinguished, such as lexical variant (including abbreviations and acronyms), phonetic variant and foreign language translation. The one rule that governs all these name categories is that they all must be exact synonyms. Since Protg and OBO Edit do not deal with external lexical formats in an integrated way, we recommend storing lexical variants in the ontology itself to make them immediately accessible e. g. when mapping ontologies and identifying homonyms. The lack of defined name categories in the available representation languages has been recognized by the Ontology Task Force of the W3C Semantic Web Health Care and Life Sciences Interest Group 7 and the lack of clear guidance on which kind of name the representation language idioms rdfs:label (OWL) and term name (OBO) should contain, has contributed significantly to the current heterogeneity in naming between ontologies. Our minimum recommendation is to assign an editor-preferred name, to which all of the naming conventions described in Table 1 should be applied, and one or more user-preferred names, which are less controlled and chosen to match end user expectations and usage frequency. The utility of having separate editor - and user-preferred names is exemplified by the response to question 4.1.2 in our survey by the developers of the Drosophila development ontology where they describe the balance they attempt to strike between making names explicit, keeping them concise and avoiding straying too far from community usage. Discussion Naming conventions for ontology engineering do not necessarily apply to other domains. For example, our recommendation 1.2 Use context independent names (see Table 1 ) will not make sense in the domain of database schemata or object-oriented programming. Terms from ontologies can be used in annotations outside the ontological context, whereas a java class is always situated in a class library hierarchy and embedded in code, providing its full context and therefore its name does not need to be fully explicit. However, general naming conventions such as 1. Be clear and unambiguous and 2. Be univocal can be applied in database schema generation, class naming in object oriented programming, natural language generation, even Wikipedia article naming. Formulation of universally applicable naming conventions in the bio-ontology space is no easy task due to the multidimensional complexity of the area, deriving not least from its intrinsically interdisciplinary character. Therefore, although we have carried out a comprehensive survey of existing naming convention documents in different domains 10 , we have deliberately confined ourselves here to considering the needs of the OBO Foundry community. Exceptions When conventions have been established their application may be non-trivial, not least because of the exceptions which different groups will want to make to given rules. In cases where the conventions cannot be strictly applied, common sense should be used. Here we describe some situations of this sort highlighted by our survey. Positive names (see 2.4 in Table 1 ) The responses to question 4.8.1 showed that most groups already try to avoid negative names and names containing expressions such as without or excluding yet nearly half of the survey respondents still found examples of negative names in their ontologies. It seems it can be difficult to decide when a term is negative e. g. unhealthy, immaterial anatomical entity, nonlinear transformation, inorganic and rotenone-insensitive. The difficulty in defining the criteria for negative indicates that the convention cannot be enforced strictly, but we hold that it is nonetheless a valuable guideline. Further, we recommend that explicit exclusions should not be made within names e. g. as in hydrolase activity, acting on carbon-nitrogen (but not peptide) bonds, in cyclic amides (GO:0016812). Word separator (see 3.3 in Table 1 ) We recommend the use of white space as separator in editor-preferred names. A consequence of the default behaviour of the Protg 3.x Editor is that it encourages the use of the rdf:ID field to capture class names. Since this field cant contain spaces, developers using Protg often use the underscore as a word separator. This can be cured by avoiding use of the rdf:ID field to record editor-preferred names and to use instead the rdfs:label field. Special character formatting and symbols (see 3.5 in Table 1 ) The survey revealed that ontologies dealing with chemicals and using the IUPAC nomenclature need to apply character formatting to their names for purposes of semantic disambiguation. In ChEBI for example the full chemical name is represented with unrestricted character formatting, for example: CHEBI 30666: bis tricarbonyl( 5 - cyclopentadienyl)molybdenum(Mo-Mo). Since character formatting is not supported by most ontology editors and languages, the groups involved often develop specific tools to meet their requirements. For this reason ChEBI and the Systems Biology ontology have developed front ends built on top of relational databases to manage their ontologies. Defined character transformation rules can be used to encode special formatting for example as has been done by the Biological Imaging Methods Ontology, which uses for superscripts and for subscripts. In general these should be avoided. Benefits and applications The application of common naming guidelines brings the following benefits: enhance communication between geographically dispersed developers simplify stand-alone ontology development and help in subsequent administration tasks simplify ontology networking e. g. importing and using classes from external ontologies or imported ontology modules increase the accessibility and exportability of terms, facilitating re-use and reducing redundant development. By increasing the robustness of ontology class names, a standard naming convention will: support the manual and automated integration (i. e. comparison, orthogonality-checking, alignment and mapping) of terminological artifacts facilitate access to ontologies through meta-tools such as the NCBO BioPortal by reducing the diversity with which these tools have to deal, thus reducing the burden on tool and ontology developers alike increase the robustness of context-based text mining for automatic term recognition and text annotation. The proposed set of conventions is currently being applied by the Ontology for Biomedical Investigation (OBI) project 20 and by the Proteomics Standards Initiative (PSI) 21 and MSI ontology working groups. An example that illustrates how syntactic normalization enhances readability and navigability of the OBI ontology class hierarchy can be found on the OBO Foundry wiki 10 . The usefulness of design principles in general and naming conventions in particular increases considerably when they are supported by ontology editing tools 22 . In particular, tools should check for compliance to such conventions and provide the functionality not only to enforce, but also to exploit, convention-based naming patterns. We are pleased to observe that implementations of such functionality have already begun to appear. For example, in the OBO Edit 2 tool 23 redundant class names are indicated and users can also define their own verification checks by specifying filters and error messages that will be displayed for each name that matches (or fails to match) the conventions defined. This verification system can serve as a framework upon which to build robust checks for conformity to naming conventions, either as a built-in OBO Edit module or as externally provided plug-ins (John Day-Richter personal communication). Also tools such as OBOL that use the lexical information in class names are already being applied to find inconsistencies within and between labels, and to aid ontology integration and ontology engineering in general through the methodology of cross-products 24 . Some aspects of what we propose here mirror features of so-called Constrained Natural Languages, CNL 25 . In particular, defined restrictions on the use of grammar and terminology can be found in CNL, and exploiting developments in this field could prove fruitful. However we must be careful not to be seen to be trying to impose too great a burden on ontology editors by attempting to require them to learn another full representation language. It is important to stress that having conventions for default names (using the editor-preferred name as display name) does not place restrictions on the use of less formal or colloquial names, which can and should still be captured as synonyms. Impact on GO As the longest established ontology in the OBO Foundry, GO has already invested effort in establishing its own naming conventions, having formerly suffered under many of the common pitfalls in naming described in this paper, for example, the use of catch-all terms such as unlocalized and molecular function unknown 26 . Some of the recommendations outlined here have been inherited from the GO community, which in turn will move to include this whole set of naming conventions into the GO style guide. The impact on GO will certainly be positive, especially where it is used in combination with other OBO Foundry ontologies. For example, GO is considering changing to the context-independent name cell nucleus (as already used in FMA), instead of nucleus to distinguish it from atomic nuclei in ChEBI. The avoidance of conjunctions in term names will decompose terms like actin polymerization andor depolymerization, and the restriction to positive names will prevent or lead to the refactoring of terms like non-eye photoreceptor cell development in GO. Open Issues The surveying process reported in this paper has been informative, and has provided evidence to support the various conventions presented herein. Furthermore, several responders explicitly stated that the questionnaire made them aware of issues which they had not thought of previously and in some cases went on to indicate other areas where they considered that conventions would be helpful, such as: A reference terminology that names the various kinds of representational units (e. g. illustrating the differences between type, class, term, concept and universal), thereby supporting unambiguous discussion of particular representational units 19 . Conventions for other representational units, such as the names of relations, instances and identifiers. For example, OBI uses the identifier convention group prefix underscore unique number (e. g. OBI0000016) whereas BFO simply uses a meaningful string (e. g. IndependentContinuant). In addition, relations do not have numeric identifiers, which should probably be changed as these representational units, like classes, undergo changes and updates. A formalism is needed for naming and marking administrative helper classes and metadata bins within ontologies. Until recently, non-ontological classes in OBI, such as unclassified (OBI200067), tobefixed (OBI334), ChEBIobjects (OBI336), PATOquality (OBI302), collectedrelations (OBI400132) could be found side-by-side with domain-level classes. These are now marked as helper classes by adding an underscore as prefix. Branch, module, file and namespace naming conventions should be investigated. This is also indicated by the recurring discussions on ontology naming conflicts on the OBO discussion mailing list. It needs to be investigated in how far certain conventions are dependent on the degree of formality of the representational artefact at hand. Conventions regulating name compositions 24 may only be applicable to semantically granular ontologies using relations, but not to taxonomies. Besides our universal conventions, specialized ones for certain ontological classes of high interest, usage and abundance should be collected and evaluated. Such classes referring to processes, instruments or organisations are also called Named Entities in the field of text mining. Although work on some of the above issues has already started, these open issues are of importance and will be tackled in a next round of guideline development by the OBO Foundry coordinators, in collaboration with the OBO Foundry ontology developers. Conclusion The effective and efficient description of scientific information is the ultimate goal of this work. Mature, consensus-based conventions to guide ontology development are a crucial requisite for the achievement of this goal. We have presented an initial set of naming conventions primarily (but certainly not exclusively) for use in OBO Foundry ontologies. The justifications for the conventions presented were founded on answers from ontology editor practitioners gathered by means of a survey carried out within the OBO Foundry community. The resulting set of conventions should be viewed as a primer, to be expanded and refined on the basis of input from practitioners. These conventions were discussed and approved by representatives of the OBO Foundry ontologies at the first OBO Foundry Summit meeting in July 2008 at the European Bioinformatics Institute (EBI), Cambridge, UK, funded by the UKs Biotechnology and Biological Sciences Research Council (BBE0250801) and the Elixir project elixir-europe. org. Further feedback will allow us to continue refining and ultimately to finalize this proposal at the second OBO Foundry Summit meeting in June 2009 at the EBI. As part of this iterative development process we will continue to engage with other efforts, particular those outside the OBO Foundry community such as the W3C Semantic Web Health Care and Life Sciences Interest Group and the Ontology Engineering and Patterns Task Force of the W3C Semantic Web Best Practices and Deployment working group. Expand Abbreviations (see 3.4 in Table 1 ) When an abbreviation or acronym becomes more commonly used in everyday language than its full name: for example LASER, then it should be used as the name, with its expanded name captured as a synonym. In other words, usage frequency can take precedence over the rule of acronym avoidance. Declarations Acknowledgements We kindly acknowledge the members of the OBO Foundry ontologies for their valuable contribution to the survey. In particular we thank Robert Stevens, Luisa Montecchi-Palazzi, Judith Blake and the members of the OBI working group for their comments and contributions in fruitful discussions. We also gratefully thank the ontology communities under OBO Foundry for contributing to the survey and the BBSRC (BBD5242831, BBE0250801), the EU Network of Excellence NuGO (NoE 503630), the EU Carcinogenomics (PL037712) to SAS and PRS for funding the activities of DS. BSs contribution to this work was supported by the NIH Roadmap for Medical Research, Grant 1 U 54 HG004028 (National Center for Biomedical Ontology). Electronic supplementary material 1285920082855MOESM1ESM. zip Additional file 1: Surveying naming conventions within OBO Foundry ontologies . This SurveyResults. zip is a webpage presenting the results of the naming conventions survey that was carried out within the OBO Foundry ontologies. It contains diagrams and tables illustrating the answers to the surveys questions, as well as the discussion of these results. (ZIP 244 KB) Authors contributions This work was largely informed by the requirements of the annotation projects lead by SAS and PRS, who coordinated this work. DS was the knowledge engineer who reviewed the existing conventions and with SAS, PRS, BS, SL, CM and JL designed the survey. WK, BS and PRS worked with DS in defining the appropriate terminology for describing the naming conventions. Contributions and critical reviews by all the authors, in particular PRS, CT, SL, BS and SAS, delivered the final manuscript. Authors read and approved the final manuscript Authors Affiliations EMBL-EBI, Wellcome Trust Genome Campus Institute of Medical Biometry and Medical Informatics (IMBI), University Medical Center Center of Excellence in Bioinformatics and Life Sciences, and Department of Philosophy, University at Buffalo Berkeley Bioinformatics and Ontologies Project, Lawrence Berkeley National Labs Department of Information and Computer Science, Norwegian University of Science and Technology (NTNU) NERC Environmental Bioinformatics Centre (NEBC) References Cote RG, Jones P, Apweiler R, Hermjakob H: The Ontology Lookup Service, a lightweight cross-platform tool for controlled vocabulary queries. BMC Bioinformatics 2006, 7: 97. 10.11861471-2105-7-97 PubMed Central View Article PubMed Google Scholar Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, et al . The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration. Nat Biotechnol 2007, 25: 12511255. 10.1038nbt1346 PubMed Central View Article PubMed Google Scholar Bodenreider O, Stevens R: Bio-ontologies: current trends and future directions. Brief Bioinform 2006, 7: 256274. 10.1093bibbbl027 PubMed Central View Article PubMed Google Scholar Tuason O, Chen L, Liu H, Blake JA, Friedman C: Biological nomenclatures: a source of lexical knowledge and ambiguity. Pac Symp Biocomput 2004, 238249. Google Scholar Exploiting patterns in Ontology Mapping iswc2007.semanticweb. orgpapers950.pdf ISOIEC 111795, Information technology Metadata registries (MDR) Part 5:Naming and identification principles iso. orgisoisocataloguecataloguetccataloguedetail. htmcsnumber35347 The HCLS Ontology Task Force esw. w3.orgtopicHCLSLabelsandDefinitions NISO (Ed): ANSINISO Z39.192005, Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabularies. Bethesda, Maryland, U. S.A: National Information Standards Organization, NISO Press 2005. Google Scholar IUBMB-IUPAC Joint Commission on Biochemical Nomenclature (JCBN) iupac. orgdivisionsVIIIjcbnindex. html Naming Conventions for OBO Foundry Ontology engineering obofoundry. orgwikiindex. phpNaming Wright MW, Bruford EA: Human and orthologous gene nomenclature. Gene 2006, 369: 16. 10.1016j. gene.2005.10.029 View Article PubMed Google Scholar The New C Standard, An Economic and Cultural Commentary citeseer. ist. psu. edujones02new. html Brown SH, Lincoln M, Hardenbrook S, Petukhova ON, Rosenbloom ST, Carpenter P, Elkin P: Derivation and evaluation of a document-naming nomenclature. J Am Med Inform Assoc 2001, 8: 379390. PubMed Central View Article PubMed Google Scholar BioPAX biological pathways exchange language, Documentation biopax. orgreleasebiopax-level2-documentation. pdf ISO, International Organization for Standardization iso. org The Gene Ontology Editorial Style Guide geneontology. orgGO. usage. shtmlconventions Semantic web best practices and deployment group, Ontology Engineering and Patterns Task Force w3.org2001swBestPracticesOEP Sansone SA, Fan T, Goodacre R, Griffin JL, Hardy NW, Kaddurah-Daouk R, Kristal BS, Lindon J, Mendes P, Morrison N, et al . The metabolomics standards initiative. Nat Biotechnol 2007, 25: 846848. 10.1038nbt0807-846b View Article PubMed Google Scholar Smith B, Kusnierczyk W, Schober D, Ceusters W: Towards a Reference Terminology for Ontology Research and Development in the Biomedical Domain. KR-MED 2006 2006. ontology. buffalo. edubfoTerminologyforOntologies. pdf Google Scholar Ontology for Biomedical Investigations (OBI) obi. sourceforge Hermjakob H: The HUPO Proteomics Standards Initiative Overcoming the Fragmentation of Proteomics Data. Proteomics 2006, 6: 3438. 10.1002pmic.200600537 View Article PubMed Google Scholar Kismeta Validator v1.1b, Enterprise Data Standards Validation and Enforcement kismetaValidtr. html Day-Richter J, Harris MA, Haendel M, Lewis S: OBO-Edit an ontology editor for biologists. Bioinformatics 2007, 23: 21982200. 10.1093bioinformaticsbtm112 View Article PubMed Google Scholar Mungall CM: Obol: Integrating Language and Meaning in Bio-Ontologies. Comparative and Functional Genomics 2004, 5: 509520. 10.1002cfg.435 PubMed Central View Article PubMed Google Scholar Controlled Languages: An Introduction shlrc. mq. edu. aumastersstudentsraltwargclgrammar. htm Smith B, Khler J, Kumar A: On the Application of Formal Principles to Life Science Data: a Case Study in the Gene Ontology. DILS 2004, 7994. ontology. buffalo. edumedoDatabaseIntegration. pdf Google Scholar Schober et al licensee BioMed Central Ltd. 2009 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. orglicensesby2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
No comments:
Post a Comment