О создании и перспективах использования корпуса текстов российских правовых актов как набора открытых данных

  • Денис А. Савельев Европейский университет в Санкт-Петербурге
Ключевые слова: правовая информация, законодательство, открытые данные, набор данных, XML, правовой акт, машиночитаемый корпус, компьютерная лингвистика, анализ текста

Аннотация

Развивающиеся в настоящее время методы компьютерного анализа текстов могут быть полезны для исследований в юридической науке и практике. Очевидным требованием для такого анализа является наличие открытого и структурированного корпуса текстов. Статья представляет такой корпус текстов правовых актов федерального и регионального законодательства в машиночитаемой форме (набор данных) RusLawOD. Он опубликован в открытом доступе на Интернет-портале Github. Созданный набор данных основан на открытых источниках правовых актов, прежде всего на данных официального Интернет-портала правовой информации (pravo.gov.ru), полученных в результате работы по интеграции открытых данных об официальном опубликовании правовой информации и данных ИПС «Законодательство России». Основным исследовательским вопросом в сфере права при разработке данного ресурса стал вопрос, каким образом осуществлять публикацию текстов правовых актов и метаданных о них. Необходимо прийти в общегосударственном масштабе к общему стандарту описания правовых актов в машиночитаемой форме для возможностей обмена данными между разными информационными системами. Для этого нужно определиться с единообразным наименованием атрибутов, идентифицирующих документ, а также его внутреннюю структуру. В статье предлагаются решения, которые можно взять за основу для этого. Помимо описания данных приводятся примеры, как указанные данные могут помочь в решении научных юридических задач. Такими примерами служат классификация правовых актов и определение частоты коллокаций определенных терминов. На основе анализа опубликованных на указанном портале карточек документов составлен классификатор используемых на практике тематик и произведен подсчет частоты использования каждой из тематик. Автор сравнивает существующую классификацию правовых актов, которая производится при создании ИПС «Законодательство России», и результаты использования методов компьютерной лингвистики для определения наиболее часто используемых в законодательстве тематик, приходя к выводу о том, что современные методы машинного анализа текстов позволяют получать достоверные и значимые результаты.

Биография автора

Денис А. Савельев, Европейский университет в Санкт-Петербурге

Научный сотрудник Института проблем правоприменения при Европейском университете в Санкт-Петербурге, кандидат юридических наук. Адрес: 191187, Санкт-Петербург, Гагаринская ул., 6/1. E-mail: dsaveliev@eu.spb.ru

Литература

Baranov V.M., Kuznetsov A.P., Marshakova N.N. (2014) Klassifikatsiya v rossiyskom zakonodatel'stve (teoretiko-prikladnoe issledovanie) [Classification in Russian legislation (theoretical and applied research)]. Moscow: Yurlitinform, 160 p. (in Russian)

Budakov A.S. (2013) Voprosy ofitsial'nogo opublikovaniya pravovykh aktov v elektronnom vide [Issues of formal publishing legal acts in electronic form]. Poluchenie, khranenie i ispol'zovanie informatsii v elektronnoy srede: publichno-pravovoe i chastnopravovoe regulirovanie [Retrieving, keeping and applying information in the electronic environment. N.A. Shevelev (ed.)]. Saint Petersburg: Presidential Library, p. 25-30.

Boyarskiy K. K. (2014) Vvedenie v komp'yuternuyu lingvistiku [Introduction into computer linguistics]. Saint Petersburg: NIU ITMO Press, 72 p.

Isakov V.B. (2013) Formirovanie pravovoy osnovy sistemy ofitsial'nogo elektronnogo opublikovaniya [Forming legal basis of official electronic publication]. Poluchenie, khranenie i ispol'zovanie informatsii v elektronnoy srede: publichno-pravovoe i chastno-pravovoe regulirovanie... [Retrieving, keeping and applying information in the electronic environment...]. Saint Petersburg: Presidential Library, p. 18-24.

Istoriya razvitiya pravovoy informatizatsii Rossii (2014) [History of legal information system in Russia]. Available at: URL: http://pravo.gov.ru/Inform/pravinfarticles/articles/pravinfarticles_7.html (accessed: 15.11. 2017)

Korobov M.V. (2015) Morphological analyzer and generator for Russian and Ukrainian languages. Analysis of images, social networks and texts. Basel: Springer International, p. 320-332.

Lodder A., Oskamp A. (2006) Information technology and lawyers. Advanced technology in the legal domain, from challenges to daily routine. Berlin: Springer, 198 p.

Nikolaev I.S., Mitrenina O.V., Lando T.M. (2017) Prikladnaya i komp'yuternaya lingvistika [Applied and computer linguistics]. Moscow: URSS, 320 p. (in Russian)

Officialnoye electronnoye opublikovamie: isrotia, podhody, perspectivy (2012) [Official electronic publishing: history, approaches, prospects]. V.B Isakov, ed. Moscow: Formula prava, 320 p. (in Russian)

Sharshun V.A. (2015) O edinom pravovom klassifikatore Respubliki Belarus' [On the unified nomenclature of the Republic of Belarus]. Informatsionnoe pravo, no 3, p. 7-11.

Tkachenko N.V. (2016) Statisticheskiy analiz federal'nogo zakonodatel'stva Available at: URL: https://csr.ru/wp-content/uploads/2017/02/Issledovanie_TSSR_statistika-po-zakonoproektam.pdf (accessed: 15.11.2017)

Vershinin A.P. (2010) Elektronnyy Svod zakonov i pravovaya informatizatsiya v Rossii [Electronic digest of laws and legal information system in Russia]. Izvestiya vysshikh uchebnykh zavedeniy. Pravovedenie, no 4, p. 98-108.

Vershinin A.P. (2016) Ot svoda zakonov Rossiyskoy imperii k avtomatizirovannoy sistematizatsii rossiyskogo zakonodatel'stva [From The Digest of Laws of the Russian Empire to automatic system of Russian law]. Gosudarstvo i pravo, no 10, p. 90-91.

Zakharov G.N. (2015) Klassifikator pravovykh aktov [Nomenclature of legal acts]. Vestnik Tverskogo universiteta, no 3, p. 20-25.

Zvyagintsev M.N. (2007) Klassifikatsiya munitsipal'nykh pravovykh aktov [Nomenclature of municipal legal acts]. Ekonomika i upravlenie, no 4, p. 54-56.

Опубликован
2018-03-03
Как цитировать
СавельевД. А. (2018). О создании и перспективах использования корпуса текстов российских правовых актов как набора открытых данных. Право. Журнал Высшей школы экономики, (1), 26-44. https://doi.org/10.17323/2072-8166.2018.1.26.44
Выпуск
Раздел
Правовая мысль: история и современность