Описание |Скачать|Публикации|Контакты

Описание проекта


Проект LSPL


Язык LSPL (Lexico-Syntactic Pattern Language) предназначен для формального описания конструкций (выражений) русского языка с целью их представления в системах извлечения информации из текстов (Information Extraction Systems).

Язык изначально создавался как декларативный язык спецификации лексических и грамматических свойств конструкций, выделяемых в текстах на русском языке, на основе их морфологического и частичного синтаксического анализа, с целью автоматизации ряда задач обработки научно-технических текстов. Конструкции описываются в виде лексико-синтаксических шаблонов, определяющих входящие в конструкцию слова с учетом их морфологических характеристик и условий грамматического согласования.

Разработка языка LSPL была начата в 2007 г. в рамках научных исследований по гранту РФФИ "Методы и средства интеллектуальной автоматической обработки текстов русскоязычных научно-технических документов", под руководством Е.И. Большаковой. Активное участие в разработке основных концепций языка принимали Елена Большакова, Наталья Ефремова (Васильева), Елена Бордаченкова, Сергей Морозов. В 2008 г. к группе присоединился Алексей Носков, которым была реализована программная система поиска и выделения в текстах конструкций по описывающим их LSPL-шаблонам. Программная система включает среду с графическим пользовательским интерфейсом для просмотра и анализа текстов по шаблонам.

В 2008-2010 гг. на базе созданных программных средств поддержки языка LSPL были разработаны первые приложения по автоматической обработке русскоязычных текстов, различные по сложности и назначению. Эти приложения включали комплекс процедур терминологического анализа научно-технических текстов, вопросно-ответную систему с логическим выводом, модуль генерации программных тестов по комментариям программного кода.

В ходе разработки указанных приложений были оценены выразительные возможности LSPL. В приложениях требовались различные преобразования языковых выражений, выявленных в тексте с помощью шаблонов (в частности, нормализация слов конструкции, т.е. приведение их к стандартной форме), но сам язык эти преобразования не поддерживал (хотя в программной системе был уже простейший механизм для их реализации). Поэтому в 2012 г. язык был расширен новыми средствами для задания в явном виде необходимого преобразования распознанной по шаблону конструкции, включая генерацию новых шаблонов. Программная реализация этих средств (новых компонентов системы) была выполнена Георгием Шариковым.

В 2012-2014 гг. с использованием расширенного языка LSPL-шаблонов были созданы несколько приложений: система для извлечения информации из русскоязычных текстов финансовых обзоров инвестиционных компаний, система автоматизированного построения глоссариев для научно-технических документов, вопросно-ответная система по теории элементарных чисел. В настоящее время ведется разработка других приложений, в частности, системы автоматизированного построения предметных указателей для научно-технических текстов, а также обсуждаются возможности дальнейшего развития языка шаблонов.

Описание языка



    Описание |Скачать|Публикации|Контакты