О создании и перспективах использования корпуса текстов российских правовых актов как набора открытых данных
Аннотация
Развивающиеся в настоящее время методы компьютерного анализа текстов могут быть полезны для исследований в юридической науке и практике. Очевидным требованием для такого анализа является наличие открытого и структурированного корпуса текстов. Статья представляет такой корпус текстов правовых актов федерального и регионального законодательства в машиночитаемой форме (набор данных) RusLawOD. Он опубликован в открытом доступе на Интернет-портале Github. Созданный набор данных основан на открытых источниках правовых актов, прежде всего на данных официального Интернет-портала правовой информации (pravo.gov.ru), полученных в результате работы по интеграции открытых данных об официальном опубликовании правовой информации и данных ИПС «Законодательство России». Основным исследовательским вопросом в сфере права при разработке данного ресурса стал вопрос, каким образом осуществлять публикацию текстов правовых актов и метаданных о них. Необходимо прийти в общегосударственном масштабе к общему стандарту описания правовых актов в машиночитаемой форме для возможностей обмена данными между разными информационными системами. Для этого нужно определиться с единообразным наименованием атрибутов, идентифицирующих документ, а также его внутреннюю структуру. В статье предлагаются решения, которые можно взять за основу для этого. Помимо описания данных приводятся примеры, как указанные данные могут помочь в решении научных юридических задач. Такими примерами служат классификация правовых актов и определение частоты коллокаций определенных терминов. На основе анализа опубликованных на указанном портале карточек документов составлен классификатор используемых на практике тематик и произведен подсчет частоты использования каждой из тематик. Автор сравнивает существующую классификацию правовых актов, которая производится при создании ИПС «Законодательство России», и результаты использования методов компьютерной лингвистики для определения наиболее часто используемых в законодательстве тематик, приходя к выводу о том, что современные методы машинного анализа текстов позволяют получать достоверные и значимые результаты.
Литература
Baranov V.M., Kuznetsov A.P., Marshakova N.N. (2014) Klassifikatsiya v rossiyskom zakonodatel'stve (teoretiko-prikladnoe issledovanie) [Classification in Russian legislation (theoretical and applied research)]. Moscow: Yurlitinform, 160 p. (in Russian)
Budakov A.S. (2013) Voprosy ofitsial'nogo opublikovaniya pravovykh aktov v elektronnom vide [Issues of formal publishing legal acts in electronic form]. Poluchenie, khranenie i ispol'zovanie informatsii v elektronnoy srede: publichno-pravovoe i chastnopravovoe regulirovanie [Retrieving, keeping and applying information in the electronic environment. N.A. Shevelev (ed.)]. Saint Petersburg: Presidential Library, p. 25-30.
Boyarskiy K. K. (2014) Vvedenie v komp'yuternuyu lingvistiku [Introduction into computer linguistics]. Saint Petersburg: NIU ITMO Press, 72 p.
Isakov V.B. (2013) Formirovanie pravovoy osnovy sistemy ofitsial'nogo elektronnogo opublikovaniya [Forming legal basis of official electronic publication]. Poluchenie, khranenie i ispol'zovanie informatsii v elektronnoy srede: publichno-pravovoe i chastno-pravovoe regulirovanie... [Retrieving, keeping and applying information in the electronic environment...]. Saint Petersburg: Presidential Library, p. 18-24.
Istoriya razvitiya pravovoy informatizatsii Rossii (2014) [History of legal information system in Russia]. Available at: URL: http://pravo.gov.ru/Inform/pravinfarticles/articles/pravinfarticles_7.html (accessed: 15.11. 2017)
Korobov M.V. (2015) Morphological analyzer and generator for Russian and Ukrainian languages. Analysis of images, social networks and texts. Basel: Springer International, p. 320-332.
Lodder A., Oskamp A. (2006) Information technology and lawyers. Advanced technology in the legal domain, from challenges to daily routine. Berlin: Springer, 198 p.
Nikolaev I.S., Mitrenina O.V., Lando T.M. (2017) Prikladnaya i komp'yuternaya lingvistika [Applied and computer linguistics]. Moscow: URSS, 320 p. (in Russian)
Officialnoye electronnoye opublikovamie: isrotia, podhody, perspectivy (2012) [Official electronic publishing: history, approaches, prospects]. V.B Isakov, ed. Moscow: Formula prava, 320 p. (in Russian)
Sharshun V.A. (2015) O edinom pravovom klassifikatore Respubliki Belarus' [On the unified nomenclature of the Republic of Belarus]. Informatsionnoe pravo, no 3, p. 7-11.
Tkachenko N.V. (2016) Statisticheskiy analiz federal'nogo zakonodatel'stva Available at: URL: https://csr.ru/wp-content/uploads/2017/02/Issledovanie_TSSR_statistika-po-zakonoproektam.pdf (accessed: 15.11.2017)
Vershinin A.P. (2010) Elektronnyy Svod zakonov i pravovaya informatizatsiya v Rossii [Electronic digest of laws and legal information system in Russia]. Izvestiya vysshikh uchebnykh zavedeniy. Pravovedenie, no 4, p. 98-108.
Vershinin A.P. (2016) Ot svoda zakonov Rossiyskoy imperii k avtomatizirovannoy sistematizatsii rossiyskogo zakonodatel'stva [From The Digest of Laws of the Russian Empire to automatic system of Russian law]. Gosudarstvo i pravo, no 10, p. 90-91.
Zakharov G.N. (2015) Klassifikator pravovykh aktov [Nomenclature of legal acts]. Vestnik Tverskogo universiteta, no 3, p. 20-25.
Zvyagintsev M.N. (2007) Klassifikatsiya munitsipal'nykh pravovykh aktov [Nomenclature of municipal legal acts]. Ekonomika i upravlenie, no 4, p. 54-56.
Copyright (c) 2018 Право. Журнал Высшей школы экономики

Это произведение доступно по лицензии Creative Commons «Attribution-ShareAlike» («Атрибуция — На тех же условиях») 4.0 Всемирная.












