@ARTICLE{26583261_218418304_2018, author = {Д. Савельев}, keywords = {}, title = {О создании и перспективах использования корпуса текстов российских правовых актов как набора открытых данных}, journal = {Право. Журнал Высшей школы экономики}, year = {2018}, number = {1}, pages = {26-44}, url = {https://law-journal.hse.ru/2018--1/218418304.html}, publisher = {}, abstract = {Развивающиеся в настоящее время методы компьютерного анализа текстов могут быть полезны для исследований в юридической науке и практике. Очевидным требованием для такого анализа является наличие открытого и структурированного корпуса текстов. Статья представляет такой корпус текстов правовых актов федерального и регионального законодательства в машиночитаемой форме (набор данных) RusLawOD. Он опубликован в открытом доступе на Интернет-портале Github. Созданный набор данных основан на открытых источниках правовых актов, прежде всего на данных официального Интернет-портала правовой информации (pravo.gov.ru), полученных в результате работы по интеграции открытых данных об официальном опубликовании правовой информации и данных ИПС «Законодательство России». Основным исследовательским вопросом в сфере права при разработке данного ресурса стал вопрос, каким образом осуществлять публикацию текстов правовых актов и метаданных о них. Необходимо прийти в общегосударственном масштабе к общему стандарту описания правовых актов в машиночитаемой форме для возможностей обмена данными между разными информационными системами. Для этого нужно определиться с единообразным наименованием атрибутов, идентифицирующих документ, а также его внутреннюю структуру. В статье предлагаются решения, которые можно взять за основу для этого. Помимо описания данных приводятся примеры, как указанные данные могут помочь в решении научных юридических задач. Такими примерами служат классификация правовых актов и определение частоты коллокаций определенных терминов. На основе анализа опубликованных на указанном портале карточек документов составлен классификатор используемых на практике тематик и произведен подсчет частоты использования каждой из тематик. Автор сравнивает существующую классификацию правовых актов, которая производится при создании ИПС «Законодательство России», и результаты использования методов компьютерной лингвистики для определения наиболее часто используемых в законодательстве тематик, приходя к выводу о том, что современные методы машинного анализа текстов позволяют получать достоверные и значимые результаты.}, annote = {Развивающиеся в настоящее время методы компьютерного анализа текстов могут быть полезны для исследований в юридической науке и практике. Очевидным требованием для такого анализа является наличие открытого и структурированного корпуса текстов. Статья представляет такой корпус текстов правовых актов федерального и регионального законодательства в машиночитаемой форме (набор данных) RusLawOD. Он опубликован в открытом доступе на Интернет-портале Github. Созданный набор данных основан на открытых источниках правовых актов, прежде всего на данных официального Интернет-портала правовой информации (pravo.gov.ru), полученных в результате работы по интеграции открытых данных об официальном опубликовании правовой информации и данных ИПС «Законодательство России». Основным исследовательским вопросом в сфере права при разработке данного ресурса стал вопрос, каким образом осуществлять публикацию текстов правовых актов и метаданных о них. Необходимо прийти в общегосударственном масштабе к общему стандарту описания правовых актов в машиночитаемой форме для возможностей обмена данными между разными информационными системами. Для этого нужно определиться с единообразным наименованием атрибутов, идентифицирующих документ, а также его внутреннюю структуру. В статье предлагаются решения, которые можно взять за основу для этого. Помимо описания данных приводятся примеры, как указанные данные могут помочь в решении научных юридических задач. Такими примерами служат классификация правовых актов и определение частоты коллокаций определенных терминов. На основе анализа опубликованных на указанном портале карточек документов составлен классификатор используемых на практике тематик и произведен подсчет частоты использования каждой из тематик. Автор сравнивает существующую классификацию правовых актов, которая производится при создании ИПС «Законодательство России», и результаты использования методов компьютерной лингвистики для определения наиболее часто используемых в законодательстве тематик, приходя к выводу о том, что современные методы машинного анализа текстов позволяют получать достоверные и значимые результаты.} }