Публикации
Валерий Пулит
Ведущий системный аналитик
06.08.2016

Кластерный анализ в среде Python данных МИС

Авто­ры иссле­до­ва­ния: О.Ю. Колес­ни­чен­ко, А.Л. Мазе­лис, А.Э. Нико­ла­ев, В.В. Пулит, Г.Н. Смо­ро­дин, Ю.Ю. Колес­ни­чен­ко.

Во Вла­ди­во­сток­ском госу­дар­ствен­ном уни­вер­си­те­те эко­но­ми­ки и сер­ви­са был про­ве­ден кла­стер­ный ана­лиз с помо­щью язы­ка про­грам­ми­ро­ва­ния Python. Автор про­грам­мы – Андрей Льво­вич Мазе­лис, кан­ди­дат физи­ко-мате­ма­ти­че­ских наук, доцент кафед­ры мате­ма­ти­ки и моде­ли­ро­ва­ния ФГБОУ ВО ВГУЭС, Вла­ди­во­сток.

Были про­ана­ли­зи­ро­ва­ны запи­си систе­мы «qMS», сде­лан­ные в тече­ние года с трех меди­цин­ских учре­жде­ний, ока­зы­ва­ю­щих ста­ци­о­нар­ную меди­цин­скую помощь. Выбор­ка боль­ных для ана­ли­за соста­ви­ла 685 паци­ен­тов, все они про­хо­ди­ли ста­ци­о­нар­ное лече­ние с диа­гно­зом по МКБ-10 – Код: I11.9: Гипер­тен­зив­ная (гипер­то­ни­че­ская) болезнь с пре­иму­ще­ствен­ным пора­же­ни­ем серд­ца без сер­деч­ной недо­ста­точ­но­сти; или Гипер­то­ни­че­ская болезнь 2 ста­дии. Сред­ний воз­раст паци­ен­тов соста­вил 56,5 лет. Лич­ные дан­ные паци­ен­тов иссле­до­ва­тель­ской груп­пе не пере­да­ва­лись, паци­ен­ты были зако­ди­ро­ва­ны. ИТ-спе­ци­а­ли­сты СП.АРМ пере­ве­ли собран­ные пер­вич­ные мас­си­вы Боль­ших дан­ных в таб­ли­цу мета­дан­ных.

Кла­сте­ри­за­ция выпол­не­на по пол­но­му набо­ру мета­дан­ных Max Metadata (39 мед­услуг), сред­не­му набо­ру мета­дан­ных Middle Metadata (24 мед­услу­ги) и сокра­щен­но­му набо­ру мета­дан­ных Min Metadata (10 мед­услуг), с груп­пи­ров­кой на 2, 3 и 4 кла­сте­ра (напри­мер, кла­сте­ри­за­ция пол­но­го набо­ра мета­дан­ных на два кла­сте­ра – Max‑2, три кла­сте­ра – Max‑3, четы­ре кла­сте­ра – Max‑4), что поз­во­ли­ло посмот­реть эво­лю­цию сег­мен­та­ции дан­ных. Кла­сте­ри­за­ция про­во­ди­лась по двум направ­ле­ни­ям, фик­си­ро­ван­ным систе­мой «qMS»: по коли­че­ству про­ве­ден­ных меди­цин­ских обсле­до­ва­ний и про­це­дур – Series treatment, и по вре­ме­ни ожи­да­ния послед­не­го ана­ли­за – Series time. Кла­сте­ры обо­зна­ча­лись бук­вой «k» и номе­ром перед ней (напри­мер, Max‑2 1k и Max‑2 2k озна­ча­ет кла­сте­ри­за­цию пол­но­го набо­ра мета­дан­ных на два кла­сте­ра 1k и 2k).

Зашиф­ро­ван­ные запи­си МИС, предо­став­лен­ные для ана­ли­за, содер­жат как слу­чаи гос­пи­та­ли­за­ции по ОМС, так и слу­чаи плат­ной гос­пи­та­ли­за­ции, поэто­му нель­зя гово­рить о выпол­не­нии или невы­пол­не­нии дого­вор­ных обя­за­тельств по ока­за­нию меди­цин­ской помо­щи по ОМС.

Гра­фик, отра­жа­ю­щий рас­пре­де­ле­ние кла­сте­ров, пред­став­лен на рис. 1, а на рис. 2 для срав­не­ния отра­же­но про­стое рас­пре­де­ле­ние без кла­сте­ри­за­ции всех заре­ги­стри­ро­ван­ных слу­ча­ев лече­ния (пол­ная выбор­ка – 685 паци­ен­тов). Сред­нее ариф­ме­ти­че­ское по всей выбор­ке состав­ля­ет 33 тыс. 262 руб. для сто­и­мо­сти лече­ния и 9,7 суток для дли­тель­но­сти гос­пи­та­ли­за­ции.

sites/default/files/user_pictures/2016/08/06/Klasterizaciya_stoimost-dlitelnost_3.jpg

Рис. 1. Рас­пре­де­ле­ние всех кла­сте­ров по двум харак­те­ри­сти­кам (сред­ние зна­че­ния для каж­до­го кла­сте­ра) «сто­и­мость лече­ния – дли­тель­ность гос­пи­та­ли­за­ции». Стрел­ка­ми ука­за­ны кла­стер с самой низ­кой сто­и­мо­стью лече­ния и кла­стер с самой высо­кой сто­и­мо­стью лече­ния.

sites/default/files/user_pictures/2016/08/06/Vsya_vyborka_stoimost-dlitelnost.jpg

Рис. 2. Пол­ная выбор­ка паци­ен­тов, про­стое рас­пре­де­ле­ние зна­че­ний дли­тель­но­сти гос­пи­та­ли­за­ции и сто­и­мо­сти лече­ния для каж­до­го паци­ен­та.

Кла­сте­ри­за­ция спо­соб­ство­ва­ла выяв­ле­нию двух групп, что невоз­мож­но было сде­лать, исполь­зуя обыч­ный ста­ти­сти­че­ский ана­лиз. Груп­па 1 – 395 паци­ен­тов; сто­и­мость лече­ния до 35 тыс. руб.; сред­няя дли­тель­ность пре­бы­ва­ния в ста­ци­о­на­ре 8,5 суток. Груп­па 2 – 290 паци­ен­тов; сто­и­мость лече­ния от 35 тыс. руб.; сред­няя дли­тель­ность пре­бы­ва­ния в ста­ци­о­на­ре 11,2 суток.

Из всей муль­ти­кла­стер­ной кар­ти­ны был выде­лен кла­стер Middle‑4 3k Series treatment с самой низ­кой сто­и­мо­стью лече­ния, он очи­щен от обсле­до­ва­ний, кото­рые не вхо­дят в стан­дарт лече­ния гипер­то­ни­че­ской болез­ни. Для это­го кла­сте­ра сто­и­мость лече­ния в сред­нем соста­ви­ла 24 тыс. 939 руб. при сред­ней дли­тель­но­сти лече­ния 8 суток, чис­лен­ность кла­сте­ра – 231 паци­ент (33,7% от всей выбор­ки). Мож­но ска­зать, что этот кла­стер явля­ет­ся жела­е­мым ори­ен­ти­ром для опти­ми­за­ции лече­ния дан­ной кате­го­рии боль­ных (с уче­том изме­не­ния цен с пери­о­да лече­ния).

Кла­стер Min‑4 2k Series time харак­те­ри­зу­ет­ся чис­лен­но­стью 20 паци­ен­тов при сред­нем воз­расте 61 год (это верх­няя сред­няя воз­раст­ная план­ка сре­ди всех кла­сте­ров) и сред­ней сто­и­мо­стью лече­ния 39 тыс. 908 руб. при сред­ней дли­тель­но­сти гос­пи­та­ли­за­ции 15 суток. Кла­стер Min‑4 2k Series time с самым дли­тель­ным пре­бы­ва­ни­ем в ста­ци­о­на­ре (в сред­нем 15 суток) отно­сит­ся к сокра­щен­но­му набо­ру дан­ных Min, что гово­рит о том, что задерж­ка этих паци­ен­тов свя­за­на имен­но с мини­маль­ным набо­ром мед­услуг, а более кон­крет­но – с повтор­ным про­ве­де­ни­ем элек­тро­кар­дио­грам­мы (ЭКГ). Так­же кла­стер Min‑4 2k Series time харак­те­ри­зу­ет­ся самым боль­шим сре­ди дан­но­го рас­пре­де­ле­ния чис­лом ана­ли­зов кро­ви и ожи­да­ни­ем парен­те­раль­но­го лече­ния.

В целом повтор­ные ЭКГ-обсле­до­ва­ния про­во­ди­ли все­го 37 паци­ен­там, это 5% от всей выбор­ки. На рис. 3 вид­но, что пре­иму­ще­ствен­но ЭКГ про­во­ди­лась паци­ен­там в тече­ние пер­вых суток от момен­та поступ­ле­ния. И мож­но выде­лить вто­рой пул паци­ен­тов, мало­чис­лен­ный, кото­рый отра­жа­ет повтор­ные, отсро­чен­ные и линей­но зави­ся­щие от сро­ка гос­пи­та­ли­за­ции ЭКГ-обсле­до­ва­ния.

sites/default/files/user_pictures/2016/08/06/Vsya_vyborka_dlitelnost_lecheniya_ozhidanie_EKG.jpg

Рис. 3. Пол­ная выбор­ка паци­ен­тов; про­стое рас­пре­де­ле­ние зна­че­ний дли­тель­но­сти гос­пи­та­ли­за­ции и ожи­да­ния ЭКГ-обсле­до­ва­ния в мину­тах от момен­та поступ­ле­ния. В одних сут­ках 1440 минут.

При срав­не­нии схо­жих по сто­и­мо­сти лече­ния кла­сте­ров мож­но выде­лить две струк­ту­ры мед­услуг: в одном слу­чае боль­ше про­во­дит­ся парен­те­раль­ное лече­ние и боль­ше вни­ма­ния уде­ля­ет­ся обсле­до­ва­нию кар­дио­ре­спи­ра­тор­ной систе­мы, а в дру­гом слу­чае потре­бо­ва­лось про­во­дить допол­ни­тель­ную диа­гно­сти­ку сопут­ству­ю­щих забо­ле­ва­ний.

Ана­лиз кла­сте­ров поз­во­лил опи­сать соци­аль­но-меди­цин­ский порт­рет паци­ен­та (или iПа­ци­ен­та), стра­да­ю­ще­го гипер­тен­зив­ной болез­нью серд­ца: в основ­ном тако­му паци­ен­ту тре­бу­ет­ся одно обсле­до­ва­ние ЭКГ; толь­ко в поло­вине слу­ча­ев про­во­дит­ся внут­ри­вен­ное капель­ное вве­де­ние пре­па­ра­тов; почти рав­ное вни­ма­ние уде­ля­ет­ся как обсле­до­ва­нию серд­ца, так и обсле­до­ва­нию желу­доч­но-кишеч­но­го трак­та, что оправ­да­но с точ­ки зре­ния оцен­ки побоч­ных эффек­тов перо­раль­ных анти­ги­пер­тен­зив­ных пре­па­ра­тов, а так­же ука­зы­ва­ет на нали­чие опре­де­лен­ной направ­лен­но­сти сопут­ству­ю­щих забо­ле­ва­ний у дан­ной кате­го­рии боль­ных.

Основ­ные выво­ды:

1. Под­счет сред­них ариф­ме­ти­че­ских для оцен­ки рабо­ты меди­цин­ских учре­жде­ний мало­ин­фор­ма­ти­вен по срав­не­нию с воз­мож­но­стя­ми кла­сте­ри­за­ции в сре­де Python. При сред­ней ариф­ме­ти­че­ской сто­и­мо­сти лече­ния 33 тыс. 262 руб. и дли­тель­но­сти гос­пи­та­ли­за­ции 9,7 суток, кла­сте­ри­за­ция поз­во­ли­ла выявить две груп­пы с рас­пре­де­ле­ни­ем сто­и­мо­сти лече­ния до 35 тыс. руб. и свы­ше 35 тыс. руб. со сред­ней дли­тель­но­стью лече­ния 8,5 и 11,2 суток соот­вет­ствен­но.

2. В усло­ви­ях инфор­ма­ти­за­ции соци­у­ма воз­ни­ка­ет поня­тие «iПа­ци­ент» (intranet-паци­ент), харак­те­ри­сти­ки кото­ро­го отра­же­ны в МИС, накап­ли­ва­ю­щих Боль­шие дан­ные от мед­учре­жде­ний. Кон­цеп­ция «iПа­ци­ент» поз­во­ля­ет ана­ли­зи­ро­вать запи­си МИС с точ­ки зре­ния соци­аль­но-меди­цин­ской обрат­ной свя­зи и вно­сить изме­не­ния в стан­дар­ты лече­ния в соот­вет­ствии с обна­ру­жен­ны­ми реаль­ны­ми тре­бо­ва­ни­я­ми паци­ен­тов, фор­ми­руя гиб­кие соци­аль­но-меди­цин­ские стан­дар­ты «aaS» (as a service, стан­дар­ты как услу­га).

3. Осно­вы­ва­ясь на резуль­та­тах ана­ли­за дан­ных МИС, стан­дарт-aaS в отно­ше­нии нахож­де­ния в ста­ци­о­на­ре паци­ен­тов с арте­ри­аль­ной гипер­тен­зи­ей может вклю­чать обсле­до­ва­ние не толь­ко сер­деч­но-сосу­ди­стой систе­мы в соче­та­нии с дру­ги­ми обсле­до­ва­ни­я­ми с уче­том пато­ге­не­за забо­ле­ва­ния и диф­фе­рен­ци­аль­ной диа­гно­сти­ки гипер­тен­зии, но и парал­лель­но обсле­до­ва­ние ЖКТ с целью ран­не­го выяв­ле­ния сопут­ству­ю­щей пато­ло­гии и сокра­ще­ния онко­ло­ги­че­ской смерт­но­сти насе­ле­ния. Высо­кая часто­та обсле­до­ва­ний ЖКТ в дан­ной кар­дио­ло­ги­че­ской выбор­ке паци­ен­тов ука­зы­ва­ет на про­бле­му рас­про­стра­нен­но­сти забо­ле­ва­ний ЖКТ, что тре­бу­ет раз­ра­бот­ки гиб­ких мер по ран­не­му выяв­ле­нию забо­ле­ва­ний.