Skip to content

alexeilutay/parsing-rkn-register

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Парсер для XML-реестра зарегистрированных СМИ (Роскомнадзор)

Открытые данные РКН: https://rkn.gov.ru/opendata/7705846236-ResolutionSMI/

Вы сами скачиваете файл на диск. Скрипт нарезает большой XML файл на 30 фрагментов по 5000 записей и парсит XML в простую таблицу вида:

Columns: 20

  • $ rkn_id 85840, 85841, 85841, 85841, 85847, 85847, 85847, 85847, 85869, 85870, 85870,~
  • $ name "Домашняя коллекция", "Новая юстиция. Журнал судебных прецедентов", "Новая ю~
  • $ reg_number "№ 0110638", "ПИ № ФС 77 - 30918", "ПИ № ФС 77 - 30918", "ПИ № ФС 77 - 30918~
  • $ reg_number_id 85854, 278045, 278045, 278045, 85861, 85861, 85861, 85861, 406913, 85884, 85~
  • $ status_id 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1~
  • $ reg_date 1993-05-06, 2008-01-18, 2008-01-18, 2008-01-18, 1993-05-12, 1993-05-12, 199~
  • $ langs "русский", "русский", "русский", "русский", "английский, русский, немецкий, ~
  • $ form_spread "печатное СМИ журнал", "печатное СМИ журнал", "печатное СМИ журнал", "печатн~
  • $ form_spread_id 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, ~
  • $ territory "Санкт-Петербург (Российская Федерация)", "зарубежные страны, Российская Фед~
  • $ territory_ids NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ staff_address "190000, Санкт-Петербург г.", "127006, Москва г., пер. Воротниковский, д. 7,~
  • $ domain_name NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ annulled_date NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ suspension_date NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ termination_date NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ status_comment NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ founder_id NA, "709626", "709613", "709619", NA, NA, NA, NA, "1541170", "1977208", "197~
  • $ founder_inn NA, "7710583536", NA, "7716082092", NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, ~
  • $ founder_name NA, "Общество с ограниченной ответственностью Редакционно-издательское объед~

Выполнение скрипта на ноутбуке AMD Quad-Core A10-9620P с 8 Гб памяти под Windows 10 заняло минут 15 (точно не засекал).

Все предложения по оптимизации скрипта, пожалуйста, в issues.

About

Скрипт на R для парсинга XML-файла с реестром зарегистрированных СМИ (открытые данные Роскомнадзора)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages