[Вернуться на главную страницу и на страницу Содержания]
С эволюцией Веба в сторону Открытых и Связанных данных, традиционный подход совместного использования силоса данных практически исчерпал свои возможности. Правительства, международные и национальные организации направляют свои усилия на открытие, объединение и связывание своих данных. Цель настоящих рекомендаций - обеспечить поставщиков библиографических данных открытых репозиториев набором рекомендаций по выбору соответствующих стратегий кодирования для подготовки содержательных Связанных Открытых библиографических Данных (Linked Open Data (LOD)-enabled bibliographical data (LODE-BD)).
Тим Бернерс-Ли (Tim Berners-Lee) предложил идею Связанных Данных на основе принципов архитектуры Семантического Веба [1], ссылаясь на Связанные Данные как на набор лучших практик для публикации, совместного использования и связывания структурированных данных в контексте Веба. Ключевые технологии, на которых базируются Связанные Данные включают в себя: универсальные идентификаторы ресурсов (URI), представляющие имена сущностей / концептов / объектов; HTTP URI для нахождения ресурсов, описания ресурсов [2] или ссылок на другие взаимосвязанные URI, [стандарт RDF для структурирования и связи данных; SPARQL для предоставление полезной информации по URI], позволяющие найти дополнительную (семантически связанную) информацию в Web-пространстве.
В “библиографической вселенной” существует чёткая линия перехода от фиксированных библиографических записей к повторно комбинируемым метаданным. Практические вопросы процессов и стратегий представления данных как Связанных Данных являются особенно важными для поставщиков данных или услуг в открытые хранилища данных. Важное значение имеют руководящие принципы и рекомендации по использованию стандартов для реализации метаданных в формате Связанных Открытых Данных.
За последние двадцать лет разными сообществами было разработано много различных стандартов, в той или иной степени касающихся разных аспектов метаданных (например, дизайн, создание и реализация структуры, значения и содержания данных, а также обмен данными). Тем не менее, наблюдается слабая и/или несогласованная реализация существующих стандартов в репозиториях. В частности, наблюдается отсутствие всеобъемлющего подхода кодирования элементов метаданных, включая их семантику и их связи с другой информацией. Оперативные стандарты метаданных для структур данных включают в себя независимые стандарты (которые не используют повторно широко распространённые пространства имён), а также интегрированные стандарты (способные в полной мере использовать и интегрировать в себя существующие элементы метаданных из других пространств имён), которые обычно представляются как новые прикладные профили (наборы схем) метаданных и онтологий. Решения относительно того, на какие стандарты следует опираться в процессе кодирования значений элементов метаданных, будут непосредственно влиять на степень готовности библиографических данных к реализации Связанных Открытых Данных.
Использование различными организациями широко распространённых наборов элементов метаданных и контролируемых словарей показало на практике большие преимущества и возможности в плане:
Однако, принятие решения по выбору того или иного стандарта – это только первый шаг для поставщиков данных и услуг открытых хранилищ библиографических данных на пути к планированию создания Связанных Открытых Данных. В частности, поставщики данных должны иметь чёткое представление относительно:
• Каким стандартам метаданных следовать, чтобы подготовить библиографические данные к публикации в формате Связанных Данных?
• Какой минимальный набор свойств должен включать в себя библиографический набор данных, с целью обеспечения полноценного, совместного использования данных, а также уникальной идентификации информации?
• Существует ли модель метаданных или профильные приложения, которые могут быть непосредственно применены для получения библиографических данных (исходя из информации, находящейся в локальной базе данных)?
• Существуют ли контролируемые словари (традиционно используемые для описания библиографических ресурсов) в форме Связанных Данных?
• Какие значения контролируемых словарей должны быть использованы в целях эффективного обмена библиографическими данными через репозиторий ( т.е. литеральные или нелитеральные (выраженные через значения URI), идентифицирующие те или иные концепты))?
• Как редактировать и кодировать данные, с целью предоставления возможности перехода от локальной базы данных к набору Связанных Данных Семантического Веба?
Настоящий документ подготовлен исходя из вышеизложенного контекста, с целью предоставления подробного пошагового практического руководства поставщикам данных по выбору надлежащих стратегий кодирования для подготовки к публикации (прямо или косвенно) Связанных Открытых библиографических Данных.
В целях повышения качества взаимодействия и эффективности обмена информацией, Рекомендации LODE-BD строятся на пяти основных принципах:
1) Содействать использованию прочно устоявшихся стандартов метаданных и новых LOD словарей, которые продвигаются сообществом Связанных Данных;
2) Поощрять использование авторитетных данных, контролируемых словарей и стандартов кодирования синтаксиса в различных формулировках метаданных, когда это представляется возможным;
3) Поощрять использование URI (когда они доступны) в качестве значений данных;
4) Содействовать процессу принятия решений относительно кодирования данных, в целях их обмена и повторного использования;
5) Обеспечить сервис открытой виртуальной справочной службы, пользователи которой смогут вносить предложения касательно новых элементов метаданных, в соответствии с потребностями сообщества Связанных Данных.
Рекомендации LODE-BD представляют собой пакет мер, охватывающий основные компоненты, необходимые для поставщиков данных при принятии решений по разработке структурированных и обмениваемых Связанных Данных (исходя из локальных баз данных), с целью описания библиографических ресурсов, таких как: статьи, монографии, диссертации и дипломы, доклады конференций, презентационный материал, научные отчёты, образовательные ресурсы и т.д. - в печатной и электронной форме .
Рекомендации включены в Разделы 2 и 3 настоящего доклада:
Таблица 1. Дорожная карта LODE-BD
[1] Berners-Lee, Tim. 2007, Linked Data – Design Issues. http://www.w3.org/DesignIssues/LinkedData Last accessed: June 2012
[2] LOD2 Collaborative Project. 2010. Deliverable 12.5.1. Project fact sheet version 1. http://static.lod2.eu/Deliverables/LOD2_D12.5.1_Project_Fact_Sheet_Version.pdf Last accessed: June 2012