Университетская информационная система РОССИЯ (далее - УИС РОССИЯ) создана
как научный ресурс для гуманитарных исследований, для обеспечения
университетской науки качественной первичной информацией по широкому кругу
вопросов современной жизни Российской Федерации.
Доступная через Интернет (http://www.cir.ru), УИС РОССИЯ является
бесплатной базой электронных ресурсов коллективного пользования гуманитарной
тематики с включением источников федерального и регионального уровня:
официальных документов, статистических и справочных данных, материалов
федеральных и местных СМИ, а также научных журналов, вестников
университетов, бюллетеней, аналитических докладов, материалов научных
конференций и семинаров, материалов кафедр и т.д.
В настоящее время УИС РОССИЯ содержит более 400 тысяч полнотекстовых
документов (50 тысяч нормативных документов, 100 тысяч документов из
стенограмм пленарных заседаний Госдумы ФС РФ, 140 тысяч статей СМИ, 15 тысяч
статистических таблиц и т.п.), и более 200 тысяч библиографических описаний.
Целью УИС РОССИЯ является организация разнородных источников информации в
единую электронную библиотеку с развитыми возможностями "академического
сервиса", под которым понимается:
a. единообразный формат хранения документов разных источников,
единообразные способы доступа ко всей коллекции документов;
b. использование специфических поисковых атрибутов для каждой
коллекции;
c. тематическая систематизация/классификация документов по тезаурусу,
рубрикаторам;
d. аннотирование полнотекстовых документов;
e. доступ к статистическим данным по единому сводному оглавлению;
f. создание предметно-ориентированных баз данных, интегрированных в
общую систему.
Широкий охват используемых источников и требования предоставления
развитого сервиса ставят массу различных технологических задач, которые
решаются согласовано в рамках единого программного комплекса:
a. очистка данных - приведение в единый формат, допускающий
непосредственное отображение стандартными браузерами, выделение формальных
поисковых атрибутов;
b. лингвистическая обработка - создание поисковых индексов для
контекстного и тематического поиска;
c. организация поиска по всей коллекции документов, а также поиск с
использованием специфических атрибутов поиска для каждой отдельной
коллекции;
d. средства контроля за соблюдением прав владельцев источников за
некоммерческим использованием информации, средства мониторинга нагрузки
системы.
В докладе будут описаны организационные и технологические решения
(структуры данных, алгоритмы), используемые для решения поставленных задач.
Литература:
-
Журавлев С.В., Юдина Т.Н., Информационная система РОССИЯ. // НТИ.
Сер.2. - 1995. - N 3. - С.18-20.
-
Юдина Т.Н., Журавлев С.В., Российский межуниверситетский ресурсный и
аналитический центр по гуманитарным исследованиям // Вестник РФФИ, 1999, N 3
(специальный выпуск), "Наука и информационное общество"
(193.233.79.157/pub/vestnik/V3_99/2_8.htm)
-
Агеев М.С., Журавлев С.В., Ламбурт В.Г., Подготовка Web-версий
традиционных изданий // Открытые системы, 12(56), 2000, С.31-35.
(http://www.osp.ru/os/2000/12/031.htm)
-
Лукашевич Н.В. Автоматизированное формирование
информационно-поискового тезауруса по современной общественно-политической
жизни России // НТИ. Сер.2. - 1995. - N 3. - С.22-24.
-
Loukachevitch N.V., Dobrov B.V., Modifiers of Conceptual Relations
in Thesaurus for Automatic Conceptual Indexing, // Workshop on Ontologies
and Lexical Knowledge Bases - OntoLex'2000 - Sept. 8-10, Sozopol
(http://www.sirma.bg/OntoLex/papers/Modifths.ps)
-
Добров Б.В., Лукашевич Н.В., Использование тематического
представления содержания текста для автоматической обработки документов // V
Нац. конф. по искусственному интеллекту. - Казань, 1996.
-
Dobrov B.V., Loukachevitch N.V., Yudina T.N., Conceptual Indexing
Using Thematic Representation of Texts / Information Technology: The Sixth
Text Retrieval Conference (TREC6) // Ed. E.M.Voorhees, D.K.Harman - NIST SP
500-240, 1998 - pp.403-413
(http://trec.nist.gov/pubs/trec6/papers/CIR6ROU3.ps)
-
Loukachvitch N., Dobrov B., Thesaurus-Based Structural Thematic
Summary in Multilingual Information Systems // Machine Translation Review,
Issue No. 11, December 2000 - pages 10-20.
(http://www.bcs.org.uk/siggroup/nalatran/mtreview/mtr-11/mtr-11-8.htm)
|