Скрыть
Раскрыть

Контактная информация

Адрес редакции

109028 Москва, Большой Трёхсвятительский пер., 3, офис 113

Тел.: (985) 220-99-87

e-mail: lawjournal@hse.ru

Адрес издателя и распространителя

Фактический: 115230, Москва, Варшавское шоссе, 44а, офис 201, Издательский дом ВШЭ.

Почтовый: 101990, Москва, ул. Мясницкая, 20

Тел./факс: (495) 772-95-71 e-mail: id.hse@mail.ru


Савельев Д.

О создании и перспективах использования корпуса текстов российских правовых актов как набора открытых данных

2018. № 1. С. 26–44 [содержание номера]
Развивающиеся в настоящее время методы компьютерного анализа текстов могут быть полезны для исследований в юридической науке и практике. Очевидным требованием для такого анализа является наличие открытого и структурированного корпуса текстов. Статья представляет такой корпус текстов правовых актов федерального и регионального законодательства в машиночитаемой форме (набор данных) RusLawOD. Он опубликован в открытом доступе на Интернет-портале Github. Созданный набор данных основан на открытых источниках правовых актов, прежде всего на данных официального Интернет-портала правовой информации (pravo.gov.ru), полученных в результате работы по интеграции открытых данных об официальном опубликовании правовой информации и данных ИПС «Законодательство России». Основным исследовательским вопросом в сфере права при разработке данного ресурса стал вопрос, каким образом осуществлять публикацию текстов правовых актов и метаданных о них. Необходимо прийти в общегосударственном масштабе к общему стандарту описания правовых актов в машиночитаемой форме для возможностей обмена данными между разными информационными системами. Для этого нужно определиться с единообразным наименованием атрибутов, идентифицирующих документ, а также его внутреннюю структуру. В статье предлагаются решения, которые можно взять за основу для этого. Помимо описания данных приводятся примеры, как указанные данные могут помочь в решении научных юридических задач. Такими примерами служат классификация правовых актов и определение частоты коллокаций определенных терминов. На основе анализа опубликованных на указанном портале карточек документов составлен классификатор используемых на практике тематик и произведен подсчет частоты использования каждой из тематик. Автор сравнивает существующую классификацию правовых актов, которая производится при создании ИПС «Законодательство России», и результаты использования методов компьютерной лингвистики для определения наиболее часто используемых в законодательстве тематик, приходя к выводу о том, что современные методы машинного анализа текстов позволяют получать достоверные и значимые результаты.
Библиографическое описание: Савельев Д. А. О создании и перспективах использования корпуса текстов российских правовых актов как набора открытых данных // Право.Журнал Высшей школы экономики. 2018. № 1. С. 26–44.
BiBTeX
RIS
 
 
Rambler's Top100 rss