Программные инструменты поддержки языка LSPL
Разработанные инструменты предназначены для распознавания в тексте и извлечения из него языковых конструкций, согласно заданным LSPL-шаблонам и правилам. При этом применяется определенная последовательность этапов обработки текста: токенизация (графематический анализ), морфологический анализ, распознавание конструкций по шаблонам, извлечение фрагментов текста, соответствующих распознанным конструкциям.
Программные инструменты реализованы на языке С++ и охватывают:
- Библиотечную реализацию LSPL-процессора, реализующего распознавание в тексте конструкций по LSPL-шаблонам и (при наличии правил извлечения) их преобразование в извлекаемый текст;
- Подключаемые модули графематического и морфологического анализа текста;
- Консольную утилиту, реализующую обращение к LSPL-процессору и вывод результатов работы в XML-файл;
- Среду с графическим пользовательским интерфейсом для анализа текстов по шаблонам, предназначенную для специалистов по предметной области анализируемых текстов, разрабатывающих LSPL-шаблоны и правила.
Исходный код процессора и утилиты доступен на github
Для компиляции исходного кода LSPL-процессора, использующего модули графематического и морфологического анализа aot.ru, необходимо иметь установленными в системе следующие средства: boost, pcrecpp, cmake (при использовании морфопроцессора CrossMorphy это не требуется).
Инструкция разработчика, поясняющая структуру программных классов процессора.
Публикации по разработке инструментов для LSPL.
|