Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 0,940

METHODICAL APPROACHES TO BUILDING A COMBINED DATABASE OF HEALTH PARAMETERS AND SOCIAL RISK FACTORS FOR SOMATIC NONINFECTIOUS DISEASES IN INDUSTRIAL WORKERS

Kiryanov D.A. LebedevaNesevrya N.A.
The study has developed methodical approaches to building of combined databases that include health parameters and indicators of social risk factors for somatic noninfectious diseases in industrial workers using the findings of empirical epidemiological, medicobiological and sociological investigations. The method can be applied to discover the mechanisms of social factors´ impact on health disorders in individuals belonging to various socioprofessional groups.

Основной вклад в потери трудового по­тенциала вносят ухудшение состояния здо­ровье населения трудоспособного возраста и преждевременная смертность в данной социальной группе. Среди всех факторов, детерминирующих здоровье работающего населения, при условии их взаимосвязанно­сти и взаимозависимости, доминирующи­ми, определяющими действие остальных являются факторы социального и социаль­ноэкономического порядка, что актуали­зирует, в частности, задачу установления закономерностей их влияния на здоровье работников промышленных предприятий на популяционном и индивидуальном уров­нях. Решение данной задачи позволит по­дойти к разработке рациональной системы охраны здоровья трудящихся, обоснованию эффективных методов первичной и вторич­ной профилактики соматических неинфек­ционных заболеваний.

Исследование воздействия социальноэкономических факторов риска на развитие соматических неинфекционных заболева­ний у работников промышленных пред­приятий связано с анализом разнородной информации, которая накапливается и хра­нится в различных организациях и ведом­ствах. Причем, каждый набор данных от­личается своей оригинальной структурой, системой кодировок и индексов. В этой свя­зи, при проведении углубленных исследова­ний, использующих различные информаци­онные массивы, важную роль приобретает процедура сопряжения данных.

При установлении закономерностей влияния социальных факторов риска на развитие соматических неинфекционных заболеваний у работников промышленных предприятий используется информация, характеризующая уровень заболеваемости, производственные вредности, результаты медицинских осмотров (периодических и дополнительных), социальноэкономиче­ский статус и образ жизни работающих. В качестве источников данных служат:

- реестры пролеченных случаев заболе­ваний, хранящиеся в базе данных системы обязательного медицинского страхования

(ОМС);

- результаты углубленных медикобио­логических и социологических исследова­ний, обследований, проводимых специали­зированной организацией;

-   результаты периодических медицин­ских осмотров, хранящиеся в амбулаторных картах работников;

-   документация по аттестации рабочих мест, проводимых службами Роспотребнадзора.

В указанных источниках информации данные организованы по своим установ­ленным внутренним правилам, в своем формате и на разных носителях. Например, в большинстве ТФОМС разработаны и ис­пользуются реляционныные базы данных, содержащие широкий спектр персонифи­цированных данных на сервере, а докумен­тация по аттестации рабочих мест зачастую хранится в виде журналов. Это диктует необходимость разработки определенных форматов данных, позволяющих формиро­вать информационные таблицы из различ­ных источников.

Особо следует отметить, что большая часть информации содержит персональные данные, поэтому при их передаче и последу­ющей обработке необходимо учитывать тре­бования Федерального закона Российской Федерации от 27 июля 2006 г. № 152ФЗ «О персональных данных» [3]. Согласно за­кону обработка персональных данных осу­ществляется для статистических или иных научных целей при условии обязательного обезличивания персональных данных. По­этому, при формировании сопряженных баз данных не допускается наличие сведений, позволяющих идентифицировать работника.

Вместе с тем, при согласовании данных из разных источников желательно использо­вать универсальные идентификаторы, опре­деляющие однозначные ссылки на разные наборы информации. Поскольку в данной работе основные сведения носят медицин­ский характер, в качестве такого универ­сального идентификатора предпочтительно использовать серию и номер страхового ме­дицинского полиса. Использование номеров полиса позволит однозначно привязывать данные из ФОМС и амбулаторных карт. Для привязки остальных информационных мас­сивов используются дополнительные иден­тификаторы.

В силу того, что при решении задач оценки связи состояния здоровья работаю­щих с факторами риска объем информации довольно большой как в плане количества объектов исследования, так и анализиру­емых параметров, то формирование спря­женной базы данных необходимо проводить на основе принципов построения реляцион­ных баз данных.

Следует отметить, что требование про­ектирования реляционных баз данных не является обязательным. В целом по форме представления информации базы данных разделяют на плоские, иерархические, сете­вые, реляционные, многомерные, объектноориентированные. В плоских базах данных вся информация располагается в единствен­ной таблице, каждая запись в которой со­держит идентификатор конкретного объ­екта. Реляционные базы данных состоят из нескольких таблиц, связь между которыми устанавливается с помощью совпадающих значений одноимённых полей. Использова­ние того или иного типа баз данных опре­деляется как объемом самих данных, так и уровнем потребности в конструирования серьезных структур при решении частных (зачастую разовых) задач. В настоящее вре­мя существует несколько различных моде­лей представления данных, которые пока не получили такого широкого распростране­ния среди разработчиков и пользователей, как реляционная модель. Однако при раз­работке систем управления базами данных, реляционная модель фактически является стандартом.

В принципе, всю информацию, содер­жащуюся в базе, можно разместить в од­ной таблице, но такая структура данных является неэффективной, поскольку в этой таблице будет достаточно много по­вторяющихся данных. Такая организация данных может привести к следующим проблемам:

наличие повторяющихся данных приведет к неоправданному увеличению размера файла базы данных. Кроме нера­ционального использования дискового про­странства, это также вызовет заметное за­медление работы приложения;

ввод пользователем большого количе­ства повторяющейся информации неизбеж­но приведет к возникновению ошибок;

изменение одного из часто использу­емых параметров потребует значительных усилий по корректировке каждой записи, содержащей эти данные.

Процесс уменьшения избыточности ин­формации в базе данных посредством раз­деления ее на несколько связанных друг с другом таблиц называется нормализацией данных. Существует шесть уровней нор­мализации базы данных, которые получили название нормальных форм. Нормальные формы различаются между собой по слож­ности структур хранения данных от про­стых (первая нормальная форма) до более сложных (третья и последующие нормаль­ные формы). Вместе с ростом сложности структур хранения данных уменьшается избыточность и противоречивость инфор­мации, но, вместе с этим, также уменьша­ется «прозрачность» данных и увеличива­ется время обработки информации. Т.е. при формировании сопряженной базы данных необходимо искать оптимум в каждой прак­тической реализации.

Для построения сопряженных данных существует несколько способов практиче­ской реализации. Наиболее правильным, универсальным и оптимальным являет­ся использование специальных систем управления реляционными базами дан­ных (СУРБД). Наиболее популярными СУРБД являются Oracle, MS SQL Server, MS Access, DB2, MySQL [2]. Однако, при всей своей правильности, этот путь не всегда является рациональным, поскольку требует наличия квалифицированных спе­циалистов в области ITтехнологий и баз данных. Кроме того, доступ к данным осу­ществляется с помощью специально раз­работанных программных средств, а сами данные не являются «прозрачными» для исследователей. Использование СУРБД оправдано при больших объемах хранения информации и организации систематиче­ского пополнения. В этом случае СУРБД даст возможность использования преиму­ществ одновременного доступа к данным, поддержки целостности данных, защиты информации, ведения протоколов и многих других функций, реализованных на уров­не сервера баз данных. Отсюда, требова­ния к структуре данных наиболее жесткие и модель данных должна соответствовать как минимум третьей нормальной фор­ме, которая предусматривает разветвлен­ную систему справочников и связанных таблиц.

Другим способом практической реали­зации является использование офисного приложения MS Excel [1]. В этом случае, на­личие высоко квалифицированного специ­алиста в области баз данных не обязательно (хотя и желательно). Современные версии MS Excel позволяют хранить значительные объемы информации, проводить первич­ную обработку данных, отображать данные в виде таблиц, графиков и диаграмм. Кроме того, MS Excel привычен для пользователя, не является сложным в обучении и исполь­зовании. Вместе с тем, при проектировании данных необходимо понимать, что данные являются реляционными, состоят из не­скольких таблиц и требуют наличия специ­альных полей для связи между ними, а сама модель данных должна соответствовать первой нормальной форме.

Первая нормальная форма:

а)  запрещает повторяющиеся столбцы (содержащие одинаковую по смыслу информацию);

б)  запрещает множественные столбцы (содержащие значения типа списка);

в)  требует определить первичный ключ для таблицы, то есть тот столбец или комби нацию столбцов, которые однозначно опре
деляют каждую строку.

Так как MS Excel не поддерживает це­лостности данных и позволяет записывать в ячейки информацию любого типа, необхо­димо отслеживать корректность заполнения на уровне пользователей. Т.е. наличие до­полнительных символов в поле числового типа (например, запись «более 0,5 мг/л») является недопустимым.

Методика построения сопряженной базы данных состоит из нескольких этапов.

На первом этапе формируются списки работников, принимающих участие в иссле­довании. Обычно списки содержат паспорт­ные данные, которые характеризуют пол, возраст, стаж работы, место жительства и др. Важно в таблицу со списками внести ряд идентификаторов, отвечающих за со­пряжение с другими массивами данных:

-  внутренний идентификатор работника (обычно обозначается id) представляет со­бой номер по порядку или табельный но­мер, принятый на предприятии;

-  серия и номер страхового полиса отве­чает за связь с таблицами по заболеваниям работника, содержащимися в базе ТФОМС и амбулаторных картах;

-  идентификатор рабочего места отвеча­ет за связь с таблицами, содержащими дан­ные аттестации рабочих мест;

-  идентификатор клиниколабораторных исследований отвечает за связь с таблица­ми, содержащими данные медицинских ос­мотров;

-  прочие идентификаторы, отвечающие за связи с таблицами дополнительных данных.

В реляционных базах данных поля, со­держащие идентификаторы, называют клю­чевыми полями. Ключевым полем может быть практически любое поле в таблице. Ключ может быть первичным или внешним. Первичный ключ однозначно определяет запись в таблице, в то время как внешний ключ используется для связи с первичным ключом другой таблицы. Для таблицы спи­сков идентификатор работника является первичным ключом, а остальные иденти­фикаторы  внешними ключами к другим таблицам.

Первый этап построения сопряженной базы данных является наиболее важным, и качественное его выполнение снимает мно­жество проблем с последующей обработкой информации.

На втором этапе формируются таблицы, содержащие непосредственно интересую­щие данные по заболеваемости, характе­ристикам рабочих мест, социальноэконо­мическим параметрам и др. Важно, чтобы эти таблицы содержали соответствующие идентификаторы, являющиеся первичными ключами. При передаче данных в электрон­ном виде из другой базы разумно пользо­ваться идентификаторами (или ключами), принятыми в этой базе данных. При пере­носе данных с твердых копий или при соз­дании новых таблиц можно использовать основной идентификатор работника.

Третий этап построения сопряженной базы данных заключается в формировании перекрестных ссылок на связанные табли­цы. При использовании СУРБД ссылки формируются автоматически на основе первичных и внешних ключей, при исполь­зовании MS Excel ссылки формируются с помощью специальных функций. Кроме того, в MS Excel существует возможность объединения всех таблиц в одном файле на отдельных страницах.

Для решения ряда задач по оценке ри­ска на одном из предприятий города Перми была сформирована база данных с исполь­зованием MS Excel. Модель данных содер­жит следующие таблицы:

-  Списочный состав работников с ука­занием пола, даты рождения, стажа работы, место жительства. В таблице введен пер­вичный ключ (id), указаны серия и номер полиса (Polis), введен идентификатор ра­бочего места (id_wp), идентификационный номер из базы клиниколабораторных ис­следований (idn).

-  Заболеваемость работников с указани­ем даты заболевания, код заболевания, дли­тельность заболевания, стоимость лечения. В качестве первичного ключа используется серия и номер полиса (Polis).

-  Результаты клиниколабораторных ис­следований с указанием даты проведения обследования, замеряемого показателя и его значения. Первичный ключ  idn.

-  Результаты социологического опроса с первичным ключом id.

-  Результаты аттестации рабочих мест, первичный ключ id_wp.

Всего в базе данных собрана информа­ция по 280 работникам, размер файла около2 Мб.

Практика использования такой структу­ры базы данных показала, что временные издержки на обработку таблиц с помощью функций MS Excel не существенны, создан­ная система первичных и внешних ключей позволяет в динамическом режиме обра­щаться к любым данным по перекрестным ссылкам. При этом существенным моментом с точки зрения пользователя является про­зрачность данных, которая дает возможность легко исправлять грубые ошибки ввода.

СПИСОК ЛИТЕРАТУРЫ

1. Гарнаев А. Использование MS Excel и VBA в экономике и финансах.  СПб.: БХВПетербург, 2002.  420 с.

2. Грофф Дж., Вайнберг П. SQL: Полное руководство: пер. с англ.  2е изд., перераб. и доп.  К.: Издательская группа BHV,
2001.  816 с.

3. О персональных данных: федер. за­кон Рос. Федерации от 27 июля 2006 г. № 152ФЗ: принят Гос. Думой Федер. Собр. Рос. Федерации 8 июля 2006 г.: одобр. Со­ветом Федерации Федер. Собр. Рос. Феде­рации 14 июля 2006 г. // Рос. газ.  2006. 29 июля.