Выявление и исправление ошибок в текстовых данных реляционных баз данных
В.В. Рыбинкин,
Бюро Интернет Технологий БИТ,
ryb@2bit.ru
В докладе предполагается обсудить проблему автоматического выявления и исправления ошибок в базах данных. Автором предпринята попытка классификации природы ошибок в текстовых данных, проведен анализ причин их появления, способов обнаружения и устранения. Обсуждается возможность использования нечеткого поиска для выявления ошибок в текстовых данных, применения алгоритмов каталогизации данных для поиска смысловых ошибок и группового их исправления.
Обсуждается разработанный автором алгоритм автоматической рубрикации текстовой информации по набору ключевых слов, связанных операциями булевой логики. Помимо контекстной зависимости, для более точной рубрикации используется смысловая близость уже отрубрицированных элементов.
Для коррекции орфографических ошибок автором был создан также оригинальный алгоритм, реализующий технологию нечеткого поиска, способный найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками символов. Качество распознавания регулируется входными настроечными параметрами, скорость работы алгоритма оказалась соизмеримой со скоростью подсчета символов в слове.
Предлагаемые подходы и алгоритмы реализованы в виде пакета программ для структуризации и каталогизации текстовой информации. Пакет успешно используется для выявления и исправления ошибок при работе с реальными базами данных, и применим для работы со слабоструктурированными данными, представленными в Интернет, системах документооборота, текстовых файлах.
Доклад будет сопровождаться демонстрацией практических примеров использования разработанного пакета программ.
|