Исследователи из Центра диагностики и телемедицины Департамента здравоохранения города Москвы собрали датасет, в который вошло более тысячи наборов компьютерных томограмм органов грудной клетки пациентов с рентгенологическими признаками COVID-19. На сегодняшний день это самая обширная и полностью обезличенная база КТ-исследований, аналогов которой нет ни в России, ни в мире. Она доступна для скачивания и может использоваться для разработки сервисов на основе технологий искусственного интеллекта.
Ранее ученые Центра диагностики и телемедицины уже сообщали о том, что собрали первую базу данных, содержащую КТ-исследования пациентов с лабораторно подтвержденной инфекцией. В ней находилось около 50 томограмм от 20 пациентов. Нынешняя база данных в 20 раз больше. В ней находится более 1000 обезличенных наборов компьютерных томограмм органов грудной клетки.
Исследования собраны в Москве за период с 1 марта по 25 апреля 2020 года при помощи Единого радиологического информационного сервиса (ЕРИС). К ЕРИС подключено диагностическое оборудование 80 учреждений московского здравоохранения.
На сегодняшний день база данных уникальна и не имеет аналогов даже в мировой практике. Например, в датасете, собранном в Университете Сан-Диего, находится 349 КТ-снимков (единичных) от 216 пациентов, в то время как в датасете, собранном в Москве, содержатся трехмерные КТ-исследования.
Набор случаев RAIOSS & Livon Sa?de пока содержит 10 компьютерных томограмм. В постоянно пополняемой базе данных Итальянского радиологического общества уже более 70. Коллекция же случаев новой коронавирусной инфекции Североамериканского радиологического общества разрозненна и подходит лишь для ознакомления. Есть база данных также у Британского общества торакальной радиологии, но и она содержит не более сотни исследований.
Количество случаев ? не единственное кардинальное отличие российской базы данных от зарубежных. Все КТ-исследования в московском датасете имеют специальную разметку. Эта разметка сделана согласно классификации, отражающей объем патологических изменений в легочной ткани при COVID-19 по данным компьютерной томографии органов грудной клетки. Она делит исследования на пять больших групп: от КТ-0 (норма и отсутствие КТ-признаков вирусной пневмонии) до КТ-4 (распространенное уплотнение легочной ткани по типу ?матового стекла?, вовлечение более 75% легкого).
Классификация, легшая в основу разметки, была опубликована в методических рекомендациях по лучевой диагностике коронавирусной болезни COVID-19.
По словам экспертов Центра диагностики и телемедицины, база данных с подготовленными компьютерными томограммами в ?исследовательском? формате NIFTI предназначена для разработки алгоритмов искусственного интеллекта. Целостная разметка кейсов подходит для подготовки автоматических систем сортировки пациентов. Разметка локализаций (те зоны интереса, внутри которых алгоритмы искусственного интеллекта должны выявлять патологию) может использоваться в обучении тех сервисов, которые создаются для помощи врачу-рентгенологу, указывая на ?подозрительные? места в компьютерных томограммах. Разметку оконтуривания патологии можно применять для автоматической количественной оценки поражения легкого, а также для оценки изменений, произошедших между двумя КТ-исследованиями одного пациента.
?Преимущество датасета еще и в том, что все содержащиеся в нем КТ-исследования выполнены в медицинских организациях, оказывающих первичную медико-санитарную помощь взрослому населению. Помимо этого, он выложен в открытый доступ, а компьютерные томограммы с тонкими срезами до 1 мм уже конвертированы в признанный среди профессионалов машинного обучения формат NIFTI?, - отмечает Сергей Морозов, главный внештатный специалист по лучевой и инструментальной диагностике ДЗМ, директор Центра диагностики и телемедицины.