The 16 reference contexts in paper O. Shorin N., Олег Шорин Николаевич (2015) “Сбор, обработка и хранение библиографических записей с использованием технологий семантической паутины // Collection, Processing and Storage of Bibliographic Records using Semantic Web Technologies” / spz:neicon:bibliotekovedenie:y:2015:i:2:p:37-42

  1. Start
    1833
    Prefix
    данных, ориентированному на использование не только человеком, но и автоматизированными средствами, позволит создать новые высокоинтеллектуальные онлайн-сервисы, которые окажут значительное влияние на развитие культуры и книжной отрасли. Для создания модульной системы публикации данных, способной без значительных усилий подключать новых участников, работы были разбиты на несколько этапов
    Exact
    [4]
    Suffix
    : ● разработка онтологии предметной области на базе существующих решений; ● осуществление интеграции с автоматизированными библиотечными информационными системами; ● проведение конвертации библиографических записей из форматов MARC 21 и Rusmarc в унифицированный формат MODS; ● решение вопроса о хранении сконвертированных данных; ● осуществление взаимного обогащения данных из различных библиотек;
    (check this in PDF content)

  2. Start
    4674
    Prefix
    Другой немаловажной задачей является вопрос выбора способа хранения полученных сведений, поскольку существуют различные механизмы хранения и предоставления доступа к данным, которые имеют как преимущества, так и недостатки. Например, хранение библиографических записей непосредственно в реляционной базе данных с конвертацией их в формат RDF
    Exact
    [1]
    Suffix
    «на лету» существенно экономит дисковое пространство за счет отсутствия дублирования, но при этом резко снижается производительность. Это снижение напрямую зависит как от количества хранимых записей, так и от количества поступающих запросов.
    (check this in PDF content)

  3. Start
    6889
    Prefix
    Протокол Z39.50 изначально был создан в Библиотеке Конгресса США в начале 1980-х годов. Основным его предназначением являлась унификация поиска в различных АБИС, абстрагированная от структуры хранения информации, поисковых языков и правил составления запросов, выходных форматов
    Exact
    [5]
    Suffix
    . До появления этого протокола доступ к АБИС осуществлялся с использованием HTTP — базового протокола навигации по гипертекстовым документам, никоим образом не оптимизированного для работы с библиографической информацией.
    (check this in PDF content)

  4. Start
    7908
    Prefix
    В конце 1990-х гг. разработчики совместно с библиотекарями сформулировали две основные проблемы, связанные с интероперабельностью цифровых хранилищ данных: ● конечные пользователи вынуждены оперировать с различными поисковыми интерфейсами, предлагаемыми разными системами; ● отсутствие механизмов совместного использования метаданных, которые были бы машинноориентированными
    Exact
    [10]
    Suffix
    . Для решения этих проблем предлагалось два альтернативных пути развития: перекрестный поиск информации в различных хранилищах с использованием протокола Z39.50 и аккумуляция данных на центральном сервере из разных источников данных.
    (check this in PDF content)

  5. Start
    8636
    Prefix
    В экспериментах, проведенных Networked Computer Science Technical Reference Library (NCSTRL) было показано, что при увеличении количества источников до ста и более система, построенная на перекрестном поиске, переставала быть работоспособной
    Exact
    [10]
    Suffix
    . Было предложено создать новый протокол — OAI-PMH, который был бы предназначен для автоматического сбора метаданных из различных АБИС и аккумуляции их на центральном сервере. Протокол OAI-PMH не является конкурентом Z39.50, поскольку не предназначен для поиска.
    (check this in PDF content)

  6. Start
    9902
    Prefix
    агрегируются записи из различных источников, то наиболее подходящим для сбора информации является узкоспециализированный протокол, изначально предназначенный для решения именно этой задачи, — OAI-PMH. Именно он и используется для агрегации библиографических записей из АБИС различных библиотек. Следует отметить, что WorldCat на базе OAI-PMH создал специальную программу Javaсервлет — OAICat
    Exact
    [14]
    Suffix
    , которую держатели метаданных могут адаптировать и установить на своем оборудовании для автоматического сбора центральным сервером WorldCat обновленных записей. Europeana также создала сервис REPOX [13], который основан на использовании OAI-PMH в качестве базового протокола для сбора ресурсов с тысяч различных серверов, расположенных по всей Европе.
    (check this in PDF content)

  7. Start
    10107
    Prefix
    Следует отметить, что WorldCat на базе OAI-PMH создал специальную программу Javaсервлет — OAICat [14], которую держатели метаданных могут адаптировать и установить на своем оборудовании для автоматического сбора центральным сервером WorldCat обновленных записей. Europeana также создала сервис REPOX
    Exact
    [13]
    Suffix
    , который основан на использовании OAI-PMH в качестве базового протокола для сбора ресурсов с тысяч различных серверов, расположенных по всей Европе. Нельзя не сказать, что обновленная версия СКБР, известная как СКБР2, агрегирует записи с помощью протокола OAI-PMH [2].
    (check this in PDF content)

  8. Start
    10379
    Prefix
    Europeana также создала сервис REPOX [13], который основан на использовании OAI-PMH в качестве базового протокола для сбора ресурсов с тысяч различных серверов, расположенных по всей Европе. Нельзя не сказать, что обновленная версия СКБР, известная как СКБР2, агрегирует записи с помощью протокола OAI-PMH
    Exact
    [2]
    Suffix
    . Использование OAI-PMH для аккумуляции библиографических записей из различных источников в таких крупных мировых проектах еще раз убеждает в правильности выбора протокола доступа. Обработка библиографических записей Априори известно, что при получении библиографических записей из разных библиотек часто будет возникать ситуация, когда на один и тот же объект будет иметься несколько записей.
    (check this in PDF content)

  9. Start
    11586
    Prefix
    Вопросы интеграции библиографических записей из различных источников с последующим их объединением и обогащением давно находятся в фокусе внимания ученых. И. Феллеги и А. Сантер, одни из основоположников этого направления, разработали математическую модель, позволяющую разделить множество записей на несколько кластеров
    Exact
    [9]
    Suffix
    . В кластер попадают записи, которые в терминах той или иной метрики располагаются недалеко друг от друга. Для выявления дублетных записей достаточно сравнить записи, входящие в состав одного кластера, что значительно снижает количество сравнений.
    (check this in PDF content)

  10. Start
    12128
    Prefix
    Сантера, распространив их не только на проблему выявления дублетных записей, но и создания на их основе обогащенной записи, содержащей объединенную информацию из нескольких записей, с последующим удалением дублетных, содержащих менее полную информацию
    Exact
    [11]
    Suffix
    . Он показал, что процесс разбиения записей на кластеры должен предваряться процедурой нормализации — набором правил, применение которых приводит библиографические записи к некоему единообразному виду.
    (check this in PDF content)

  11. Start
    13899
    Prefix
    Барахнин считают, что для простейшего случая, когда сравнение записей осуществляется только по полям «Автор» и «Название», достаточно использование одного из методов динамического программирования, предложенного Хиршбергом
    Exact
    [3]
    Suffix
    . Данный метод обладает высокой эффективностью и относительно простой реализацией. Они описывают также ряд исключений, когда несколько записей при формальной практически полной идентичности содержат информацию о различных объектах.
    (check this in PDF content)

  12. Start
    15097
    Prefix
    заменяются унифицированными представлениями; ● сравнение записей, основанное на детерминистическом алгоритме: при совпадении ISBN объекта описания в записи можно утверждать, что записи сделаны для одного и того же объекта; ● в случае отрицательного результата производится вероятностное сравнение записей с использованием алгоритма Хиршберга, при этом учитываются исключения, описанные в
    Exact
    [3]
    Suffix
    ; r2_#2_15.indd 4022.05.2015 15:07:22 ● создание обогащенной записи, содержащей информацию из всех библиографических записей на один и тот же объект. Основываясь на опыте Консорциума нотного материала библиотек США [8], который объединяет информацию из 31 организации и содержит более 228 тыс. библиографических записей в формате MODS, было принято решение хранить на центральном сервере как
    (check this in PDF content)

  13. Start
    15320
    Prefix
    ; ● в случае отрицательного результата производится вероятностное сравнение записей с использованием алгоритма Хиршберга, при этом учитываются исключения, описанные в [3]; r2_#2_15.indd 4022.05.2015 15:07:22 ● создание обогащенной записи, содержащей информацию из всех библиографических записей на один и тот же объект. Основываясь на опыте Консорциума нотного материала библиотек США
    Exact
    [8]
    Suffix
    , который объединяет информацию из 31 организации и содержит более 228 тыс. библиографических записей в формате MODS, было принято решение хранить на центральном сервере как обогащенные записи, так и первоначальные.
    (check this in PDF content)

  14. Start
    15919
    Prefix
    В этом случае для избежания противоречий проще заново создать обогащенную запись, а не выявлять разницу между первоначальной и измененной записью. Хранение данных В 2006 году Т. Бернерс-Ли сформулировал четыре основных принципа связанных данных
    Exact
    [6]
    Suffix
    : ● использование унифицированных идентификаторов ресурса URI (Uniform Resource Identifier) в качестве имен сущностей; ● применение HTTP URI для реализации возможности обращения по именам, для того чтобы они могли быть найдены как людьми, так и программными системами; ● предоставление полезной информации о сущности при обращении по URI, используя стандартизованные форматы; ● включение ссылок на
    (check this in PDF content)

  15. Start
    17696
    Prefix
    Наиболее распространенными хранилищами являются 4store и TDB, входящие в состав интегрированной среды Jena. Опыт использования хранилища 4store в проекте немецких научных библиотек Linking Open Bibliographic Data (LOBID) показал
    Exact
    [7]
    Suffix
    , что такое программное решение имеет ограниченную производительность: если запустить поиск на 700 млн RDF-триплетах, полученных из 16 млн библиографических записей, он будет выполняться недопустимо долго.
    (check this in PDF content)

  16. Start
    18942
    Prefix
    Очевидно, что при росте количества хранимых триплетов производительность любого специализированного хранилища начнет деградировать. Возможным решением в данной ситуации является использование распределенных файловых систем, позволяющих распределить нагрузку между различными серверами
    Exact
    [12]
    Suffix
    . В процессе создания системы семантической интеграции библиографических записей необходимо было устранить проблемы, связанные со сбором, хранением и обработкой больших массивов. Изначальное решение о создании модульной системы позволило разбить основную задачу на ряд мелких подзадач, для которых можно применить эффективные алгоритмы, использовать высокопроизводительные протоколы взаимодействи
    (check this in PDF content)