Для тех кто работает с данными по частотам слов, например, фамилий, имён, отчеств для определения пола человека или с другими целями, свежий вычищенный набор данных созданный на основе данных ФИО о персонах в ЕГРЮЛ и ЕГРИП [1].
В наборе данных представлены 3 таблицы:
midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей
это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.
Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.
Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames
#opendata #data #persons #datasets #dataset
В наборе данных представлены 3 таблицы:
midnames - отчества, 7040 записей
names - имена, 4874 записи
surnames - фамилии, 48 540 Записей
это покрывает: 96% всех персон по именам, 95% всех персон по отчествам и около 82.5% всех персон по фамилиям
Все таблицы сформированы из первичных данных из 22 млн 617 тыс. записях о персонах с отсевом записей встречающихся не реже 50 раз, прошедшие последующую пост обработку, вычистку мусорных и неверных записей, а также обогащённые данные по полу, поле gender.
Для отчеств пол указан в однозначных значениях: m - мужской, f - женский Для фамилий пол указан в однозначных значениях: m - мужской, f - женский, u - нейтральный (пол невозможно идентифицировать) Для имён пол указан как: m - мужской, f - женский и добавлено поле gender_p - частотное измерение в процентах вероятности что имя относится к данному полу. Например, для имени "Джиргал", пол будет указан как женский "f", а точность будет как 57.97% что будет означать что для всего объёма записей о персонах у 57.97% это были лица женского пола, а остальные мужского.
Общие поля таблиц:
text - имя/фамилия/отчество в зависимости от таблиц
num - число записей где встречается
gender - пол (f - женский, m - мужской, u - невозможно определить)
regorgs - частота встречаемости по кодам субъектов федерации, на основе данных ИНН юридических лиц и ИП
regfl - частота встречаемости по кодам субъектов федерации на основе ИНН физического лица - ИП или руководителя организации
Дополнительные поля
Для таблицы midnames (отчетства)
fname - имя от которого порождено отчество
Для таблицы surnames (фамилии)
f_form - женская форма фамилии
m_form - мужская форма фамилии
fname - имя, если фамилия происходит от имени. Например, для фамилии "Иванов" это будет имя "Иван"
Все данные представлены в формате JSON lines, могут быть загружены в СУБД, например, в MongoDB через утилиту mongoimport или любым иным способом.
Эти таблицы могут использоваться взамен таблиц с неочищенными данными проекта с открытым кодом с одноимённым названием russiannames [2] и, соответственно, использоваться для задач связанных с парсингом и идентификацией форм записи ФИО или же определением пола лица за пределами самых очевидных случаев наиболее популярных имён и когда отчество, к примеру, отсутствует или внесено неправильно.
Ещё раз отмечу что это уже очищенные данные, прошедшие неоднократные тесты, если кто-то захочет поработать и проанализировать менее чистые данные, то пишите мне. Это будет в общей сложности 104 тысячи имён, 196 тысяч отчеств и 760 тысяч фамилий. В них много, очень много ошибок потому что, как выяснилось, ЕГРЮЛ и ЕГРИП содержат огромное число ошибок и иных проблем с данными по ФИО. Но для алгоритмов автоматической очистки данных они могут быть полезны.
Ссылки:
[1] https://ngodata.ru/dataset/russiannames
[2] https://github.com/datacoon/russiannames
#opendata #data #persons #datasets #dataset
ngodata.ru
База наиболее частых имён, отчеств и фамилий - Данные НКО
База частот имён, отчеств и фамилий собранная на основе сведений об учредителях и руководителях юридических лиц из ЕГРЮЛ и сведений о физ. лицах ИП из ЕГРИП. Представлены 3 таблицы: midnames -...