Для того, чтобы обмениваться информацией с зарубежными центрами по сети ИНТЕРНЕТ необходимо иметь соответствующее лингвистическое обеспечение, одним из важнейших элементов которого является многоязычный информационно-поисковый тезаурус. Многоязычный информационно-поисковый тезаурус представляет совокупность одноязычных тезаурусов по одной и той же тематике - национальных вариантов -, каждый из которых дополнен средствами связи с другими национальными вариантами данного тезауруса. Многоязычный информационно-поисковый тезаурус отражает семантические отношения между лексическими единицами национальных вариантов тезауруса и предназначен для обработки и поиска информации с целью обмена информацией на языках-компонентах.
С целью обеспечения эффективного информационного поиска документальной информации по проблемам образования, представленной в сети ИНТЕНЕТ в РГГУ создан Электронный двуязычный (русско-английский) Информационно-поисковый Тезаурус по образованию (ЭИТО) в виде базы данных в среде СУБД ACCESS. Для создания приложения применялись средства, входящие в состав технологии .NET. Для взаимодействия приложения и базы данных использовалась технология доступа к данным ADO.NET. Для написания кода приложения и разработки пользовательского интерфейса использовался язык C# и среда разработки Microsoft Visual Studio .NET 2003.
В основу ЭИТО положен существующий Европейский тезаурус по образованию (European Education Thesaurus - ЕЕТ), цель которого - достижение наиболее эффективного обмена информацией между европейскими специалистами по образованию. Тезаурус ЕЕТ устанавливает язык индексации, который был разработан в соответствии с требованиями международного стандарта ISO 59-64 1985 года по регламентирующим принципам для учреждения и развития многоязычных тезаурусов. Тезаурус ЕЕТ включает в себя: 42 микротезауруса; 2760 дескрипторов; 2620 иерархических связей; 794 ассоциативные связи. Многоязычный характер определяют значимость и ценность тезауруса ЕЕТ. Тезаурус ЕЕТ доказал свою эффективность при индексировании базы данных EUDISED (базы данных Совета Европы, которая содержит информацию об исследованиях в области образования) и базе данных информационной системы европейского сообщества по образованию в Европе.
Перевод тезаурусов в электронную форму (в основном в виде базы данных - далее БДТК - базы данных тезаурусов и классификаторов), а также обеспечение унифицированного сетевого доступа к ним позволяет решить некоторые проблемы, связанные с использованием тезаурусов на традиционных носителях, а также более эффективно использовать их при информационном поиске. Основная цель подобного вида работы - обеспечение возможности не только просмотра тезаурусов и классификаторов в удобном интерфейсе, но и активное использование их при поиске соответствующей информации в библиографических базах данных (далее БД), в том числе и в электронных каталогах библиотек.
С развитием технологий построения больших распределенных информационных систем, включающих в себя множество различных баз данных, достаточно актуальным становится вопрос поиска информации в БД с использованием тезаурусов и классификационных схем. Более того, в распределенной информационной системе логично обеспечить доступ к ЭИТО в той же самой технологии, в которой осуществляется доступ к БД, т.е. в технологии "клиент-сервер" с использованием единого стандарта ANSI/NISO Z39.50 - Information Retrieval: Application Service Definition and Protocol Specification (Спецификация протокола и определение прикладной службы поиска информации).
Z39.50 - протокол прикладного уровня в рамках семиуровневой эталонной модели взаимодействия открытых систем, разработанной Международной Организацией Стандартов (ISO) и поэтому может быть реализован в различных типах сетей (например, в сетях TCP/IP, IPX/SPX, OSI), независимо от реализации транспортного уровня. Его назначение - предоставить компьютеру, работающему в режиме "клиент", возможности поиска и извлечения информации из другого компьютера, работающего как информационный сервер. Стандарт определяет для компьютеров-клиентов единую процедуру запроса информационных ресурсов - серверов, поддерживающих библиотечные каталоги.
Не вдаваясь в детали работы протокола, можно сказать, что стандарт Z39.50 определяет такие правила взаимодействия компьютеров, которые позволяют унифицировать доступ к различным базам данных. Иными словами, пользователь, использующий всего лишь одно приложение на компьютере-клиенте (или WWW-приложение), может производить поиск информации в удаленных распределенных базах данных, имеющих самую разную структуру и форматы представления информации. [1]
Таким образом, основными преимуществами использования Z39.50 в современных библиографических информационно-поисковых системах являются:
- простой и удобный доступ к удаленным базам данных при помощи единого пользовательского интерфейса.
- сокращение времени обучения пользователя работе с различными информационными системами.
- независимость от аппаратного и программного обеспечения дает возможность включения существующих систем в единое библиографическое пространство.
- возможность обработки как библиографической, так и небиблиографической информации.
Именно перечисленные качества делают Z39.50-системы действительно открытыми, обеспечивая оперативный, надежный и удобный доступ к библиотечным информационным ресурсам [2].
Авторами данной разработки были сделаны следующие выводы:
- Применение протокола Z39.50 для доступа к базам данных дает богатые возможности для построения распределенных информационных систем - интеграция баз данных с обеспечением единого сетевого доступа по стандартным глобальным схемам.
- Использование стандартных схем данных позволяет скрыть частные различия структур различных баз данных и обеспечить единый интерфейс без перегенерации последних.
- В распределенных системах можно и нужно организовывать специализированные сервера для хранения ЭТИО с предоставлением к ним доступа по Z39.50 (чем меньше копий данных, тем проще поддерживать их синхронность).
- При построении конкретных библиографических БД следует как можно шире использовать привязку записей к различным тезаурусам и классификационным схемам. Отсутствие этой информации в БД исключает последнюю из единого информационного пространства в распределенной информационной системе.
В дальнейшем планируется:
- Реализация WWW-интерфейсов к БД «Электронный информационно-поисковый тезаурус по образованию» для рядовых пользователей и администраторов.
- Реализация доступа к БД «Электронный информационно-поисковый тезаурус по образованию» посредством протокола Z39.50
- Реализация возможности использования тезауруса для расширения поискового запроса к библиотечным серверам, поддерживающим протокол Z39.50
Так как в создаваемом электронным информационно-поисковом тезаурусе по образованию каждому термину на английском языке соответствует единственный аналог на русском, то появляется возможность реализации одновременного поиска как в англоязычных, так и русскоязычных базах данных библиотек, поддерживающих протокол Z39.50.
Библиографическая ссылка
Сатунина А.Е., Раскин Л.А. ТЕХНОЛОГИЯ ИНФОРМАЦИОННОГО ПОИСКА ПО ПРОБЛЕМАМ ОБРАЗОВАНИЯ В СЕТИ ИНТЕРНЕТ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ ДВУЯЗЫЧНОГО ТЕЗАУРУСА И ПРОТОКОЛА Z39.50 // Современные наукоемкие технологии. – 2005. – № 8. – С. 56-58;URL: https://top-technologies.ru/ru/article/view?id=23472 (дата обращения: 04.12.2024).