Публикации

Валерий Пулит
Ведущий системный аналитик
06.08.2016

Кластерный анализ в среде Python данных МИС

Авторы исследования: О.Ю. Колесниченко, А.Л. Мазелис, А.Э. Николаев, В.В. Пулит, Г.Н. Смородин, Ю.Ю. Колесниченко.

 

Во Владивостокском государственном университете экономики и сервиса был проведен кластерный анализ с помощью языка программирования Python. Автор программы – Андрей Львович Мазелис, кандидат физико-математических наук, доцент кафедры математики и моделирования ФГБОУ ВО ВГУЭС, Владивосток.

Были проанализированы записи системы «qMS», сделанные в течение года с трех медицинских учреждений, оказывающих стационарную медицинскую помощь. Выборка больных для анализа составила 685 пациентов, все они проходили стационарное лечение с диагнозом по МКБ-10 – Код: I11.9: Гипертензивная (гипертоническая) болезнь с преимущественным поражением сердца без сердечной недостаточности; или Гипертоническая болезнь 2 стадии. Средний возраст пациентов составил 56,5 лет. Личные данные пациентов исследовательской группе не передавались, пациенты были закодированы. ИТ-специалисты СП.АРМ перевели собранные первичные массивы Больших данных в таблицу метаданных.

Кластеризация выполнена по полному набору метаданных Max Metadata (39 медуслуг), среднему набору метаданных Middle Metadata (24 медуслуги) и сокращенному набору метаданных Min Metadata (10 медуслуг), с группировкой на 2, 3 и 4 кластера (например, кластеризация полного набора метаданных на два кластера – Max-2, три кластера – Max-3, четыре кластера – Max-4), что позволило посмотреть эволюцию сегментации данных. Кластеризация проводилась по двум направлениям, фиксированным системой «qMS»: по количеству проведенных медицинских обследований и процедур – Series treatment, и по времени ожидания последнего анализа – Series time. Кластеры обозначались буквой «k» и номером перед ней (например, Max-2 1k и Max-2 2k означает кластеризацию полного набора метаданных на два кластера 1k и 2k).

Зашифрованные записи МИС, предоставленные для анализа, содержат как случаи госпитализации по ОМС, так и случаи платной госпитализации, поэтому нельзя говорить о выполнении или невыполнении договорных обязательств по оказанию медицинской помощи по ОМС.

График, отражающий распределение кластеров, представлен на рис. 1, а на рис. 2 для сравнения отражено простое распределение без кластеризации всех зарегистрированных случаев лечения (полная выборка – 685 пациентов). Среднее арифметическое по всей выборке составляет 33 тыс. 262 руб. для стоимости лечения и 9,7 суток для длительности госпитализации.

sites/default/files/user_pictures/2016/08/06/Klasterizaciya_stoimost-dlitelnost_3.jpg

Рис. 1. Распределение всех кластеров по двум характеристикам (средние значения для каждого кластера) «стоимость лечения – длительность госпитализации». Стрелками указаны кластер с самой низкой стоимостью лечения и кластер с самой высокой стоимостью лечения.

sites/default/files/user_pictures/2016/08/06/Vsya_vyborka_stoimost-dlitelnost.jpg

Рис. 2. Полная выборка пациентов, простое распределение значений длительности госпитализации и стоимости лечения для каждого пациента.

Кластеризация способствовала выявлению двух групп, что невозможно было сделать, используя обычный статистический анализ. Группа 1 — 395 пациентов; стоимость лечения до 35 тыс. руб.; средняя длительность пребывания в стационаре 8,5 суток. Группа 2 — 290 пациентов; стоимость лечения от 35 тыс. руб.; средняя длительность пребывания в стационаре 11,2 суток.

Из всей мультикластерной картины был выделен кластер Middle-4 3k Series treatment с самой низкой стоимостью лечения, он очищен от обследований, которые не входят в стандарт лечения гипертонической болезни. Для этого кластера стоимость лечения в среднем составила 24 тыс. 939 руб. при средней длительности лечения 8 суток, численность кластера – 231 пациент (33,7% от всей выборки). Можно сказать, что этот кластер является желаемым ориентиром для оптимизации лечения данной категории больных (с учетом изменения цен с периода лечения).

Кластер Min-4 2k Series time характеризуется численностью 20 пациентов при среднем возрасте 61 год (это верхняя средняя возрастная планка среди всех кластеров) и средней стоимостью лечения 39 тыс. 908 руб. при средней длительности госпитализации 15 суток. Кластер Min-4 2k Series time с самым длительным пребыванием в стационаре (в среднем 15 суток) относится к сокращенному набору данных Min, что говорит о том, что задержка этих пациентов связана именно с минимальным набором медуслуг, а более конкретно – с повторным проведением электрокардиограммы (ЭКГ). Также кластер Min-4 2k Series time характеризуется самым большим среди данного распределения числом анализов крови и ожиданием парентерального лечения.

В целом повторные ЭКГ-обследования проводили всего 37 пациентам, это 5% от всей выборки. На рис. 3 видно, что преимущественно ЭКГ проводилась пациентам в течение первых суток от момента поступления. И можно выделить второй пул пациентов, малочисленный, который отражает повторные, отсроченные и линейно зависящие от срока госпитализации ЭКГ-обследования.

sites/default/files/user_pictures/2016/08/06/Vsya_vyborka_dlitelnost_lecheniya_ozhidanie_EKG.jpg

Рис. 3. Полная выборка пациентов; простое распределение значений длительности госпитализации и ожидания ЭКГ-обследования в минутах от момента поступления. В одних сутках 1440 минут.

При сравнении схожих по стоимости лечения кластеров можно выделить две структуры медуслуг: в одном случае больше проводится парентеральное лечение и больше внимания уделяется обследованию кардиореспираторной системы, а в другом случае потребовалось проводить дополнительную диагностику сопутствующих заболеваний.

Анализ кластеров позволил описать социально-медицинский портрет пациента (или iПациента), страдающего гипертензивной болезнью сердца: в основном такому пациенту требуется одно обследование ЭКГ; только в половине случаев проводится внутривенное капельное введение препаратов; почти равное внимание уделяется как обследованию сердца, так и обследованию желудочно-кишечного тракта, что оправдано с точки зрения оценки побочных эффектов пероральных антигипертензивных препаратов, а также указывает на наличие определенной направленности сопутствующих заболеваний у данной категории больных.

Основные выводы:

1. Подсчет средних арифметических для оценки работы медицинских учреждений малоинформативен по сравнению с возможностями кластеризации в среде Python. При средней арифметической стоимости лечения 33 тыс. 262 руб. и длительности госпитализации 9,7 суток, кластеризация позволила выявить две группы с распределением стоимости лечения до 35 тыс. руб. и свыше 35 тыс. руб. со средней длительностью лечения 8,5 и 11,2 суток соответственно.

2. В условиях информатизации социума возникает понятие «iПациент» (intranet-пациент), характеристики которого отражены в МИС, накапливающих Большие данные от медучреждений. Концепция «iПациент» позволяет анализировать записи МИС с точки зрения социально-медицинской обратной связи и вносить изменения в стандарты лечения в соответствии с обнаруженными реальными требованиями пациентов, формируя гибкие социально-медицинские стандарты «aaS» (as a service, стандарты как услуга).

3. Основываясь на результатах анализа данных МИС, стандарт-aaS в отношении нахождения в стационаре пациентов с артериальной гипертензией может включать обследование не только сердечно-сосудистой системы в сочетании с другими обследованиями с учетом патогенеза заболевания и дифференциальной диагностики гипертензии, но и параллельно обследование ЖКТ с целью раннего выявления сопутствующей патологии и сокращения онкологической смертности населения. Высокая частота обследований ЖКТ в данной кардиологической выборке пациентов указывает на проблему распространенности заболеваний ЖКТ, что требует разработки гибких мер по раннему выявлению заболеваний.