Читать книгу Цифровые технологии в лучевой и инструментальной диагностике (Галина Владимировна Иванова) онлайн бесплатно на Bookz (2-ая страница книги)
bannerbanner
Цифровые технологии в лучевой и инструментальной диагностике
Цифровые технологии в лучевой и инструментальной диагностике
Оценить:
Цифровые технологии в лучевой и инструментальной диагностике

4

Полная версия:

Цифровые технологии в лучевой и инструментальной диагностике

Опираясь на данные из семи указанных выше работ (где соответствующая информация была представлена в полном объеме), определили интервалы показателей диагностической точности для ИИ и для врачей [178, 138, 165, 146, 179, 160, 174].

Значение чувствительности ИИ колебалось в диапазоне 75,4—91,0%, в среднем составляя 85,2% (медиана – 86,0%); для врачей-рентгенологов диапазон составил 73,0—94,0%, среднее – 84,4% (медиана – 85,0%). Специфичность ИИ колебалась от 78,0 до 96,0%, в среднем достигая 89,5% (медиана – 91,0%); для врачей диапазон составил 82,0—98,0%, среднее – 90,0% (медиана – 94,0%).

Диапазон значений площади под характеристической кривой для ИИ был 89,0—97,0%, среднее составило 93,5% (медиана – 92,5%); соответственно для врачей – 85,0—98,0%, среднее – 92,8% (медиана – 94,0%).

Лишь в двух метаанализах приведены уровни статистической значимости при сравнении диагностических параметров ИИ и врачей. В обзоре J. H. Yoon и соавторов (2023), рассматривающем диагностику ЗНО посредством цифровой маммографии и томосинтеза, показано, что чувствительность ИИ (80,6%) достоверно выше (p = 0,031), чем 143 суммарно включенных врачей (73,6%); показатели специфичности ИИ (85,7%) и врачей (89,6%) не различаются достоверно (p = 0,221); значения AUROC не различаются достоверно (p = 0,152) между ИИ (87—90%) и врачами (81—96%) [178].

В обзоре S. E. Hickman и соавторов (2023) по аналогичной тематике, но без томосинтеза, показано, что чувствительность ИИ (75,4%) и 211 суммарно включенных врачей (73%) не различается достоверно (p = 0,7); специфичность ИИ (90,6%) и врачей (88,6%) не различается достоверно (p = 0,73) [138].

Еще в четырех метаанализах, рассматривающих диагностику пневмоторакса с использованием рентгенографии грудной клетки и КТ [165], переломов костей конечностей с использованием рентгенографии и КТ [146, 179], узлов щитовидной железы с использованием ультразвукового исследования [160], указано отсутствие разницы в значениях диагностических показателей между ИИ и врачами; при этом приведены сами показатели, но отсутствуют значения p-value.

В целом отмечается крайне высокая гетерогенность количества врачей, данных об их стаже, квалификации, компетенциях. Отсутствуют принятые подходы к описанию параметров отбора врачей-рентгенологов для участия в исследованиях. Складывается четкое убеждение, что единственным критерием отбора является личная заинтересованность и энтузиазм конкретного врача.

Метаанализ C. A. Campello и соавторов (2023), рассматривающий диагностику злокачественных новообразований печени с использованием ультразвукового исследования, отличается тем, что врачи анализировали изображения, полученные с помощью контрастного усиления, а ИИ – нативные изображения. Авторы этой работы отмечают высокие диагностические показатели ИИ, но уровни значимости вновь отсутствуют [124].

Таким образом, по данным зарубежных авторов, диагностическая точность ИИ не уступает диагностической точности врачей, а в некоторых случаях может превосходить ее. В частности, показано, что диагностическая точность ИИ сравнима с показателями врачей-рентгенологов экспертного уровня, превосходя показатели «обычных» врачей [174]. Тем не менее число работ, проводящих прямые количественные сравнения между ИИ и врачами, даже в глобальной перспективе по-прежнему мало. Существенно снижает качество работ и отсутствие корректных характеристик компетенций включаемых в исследования врачей.

Так же, как и в отечественной научной литературе, зарубежные авторы крайне поверхностно изучили результаты внедрения ИИ в работу отделений лучевой диагностики. Доказанные результаты внедрения ИИ приведены только в одном (3%) метаанализе [116]. Его авторы выявили три оригинальные статьи с доказанными результатами внедрения ИИ в клиническую практику. Все указанные работы относятся к сфере нейровизуализации с использованием КТ. Два научных коллектива поместили модель ИИ в начало клинического пути – она осуществляет предварительную сортировку перед интерпретацией результатов исследования врачом-рентгенологом. В одной из указанных работ благодаря ИИ сокращено с 512 до 19 минут среднее время описания «несрочных» исследований (в эту категорию ИИ помещал результаты, подлежащие пересмотру). Во второй работе отмечено достоверное снижение за счет автоматизации среднего времени описаний для амбулаторных (с 674 до 70 минут, р <0,001) и стационарных больных (с 390 до 352 минут, р = 0,002). Вместе с тем для экстренных случаев сокращение длительности подготовки протокола не выявлено. Необходимо отметить, что обе работы проигнорировали анализ потенциального вреда и отсрочки оказания медицинской помощи из-за ложноотрицательных результатов. Между тем удельный вес таких результатов составил 7,5 и 11,6% соответственно [116].

В двух работах, включенных в метаанализ S. Agarwal и соавторов (2023), программное обеспечение на основе технологий ИИ использовано для второго просмотра после интерпретации результатов лучевого исследования врачом-рентгенологом. Посредством автоматизированного анализа выявлено до 1,2% ложноотрицательных результатов врачей-рентгенологов, что позволило провести мероприятия по повышению качества работы отделений лучевой диагностики [116].

Во всех обобщающих публикациях отмечается высокий потенциал для внедрения ИИ в практику, вместе с тем это утверждение обычно является декларативным. Реальные результаты приводятся только в одном метаанализе; причем соответствующее обобщение строится лишь на трех оригинальных статьях. Результаты использования ИИ в клинической практике неоднозначны. С одной стороны, автоматизация дала экономию времени при «несрочных» исследованиях, но такого эффекта нет в неотложных ситуациях. В качестве инструмента верификации качества работы врачей-рентгенологов ИИ эффективно выявлял ложноотрицательные результаты, но одновременно точность выявления ложноположительных решений врача оказалась неудовлетворительной.

В процессе изучения 38 метаанализов применения ИИ в лучевой диагностике нами выявлены серьезные методологические дефекты многих научных работ, существенно влияющие на результаты и выводы.

Прежде всего, отмечается критично недостаточное число проспективных исследований (преобладает дизайн «случай – контроль») и работ с внешней валидацией данных (что, впрочем, отмечается и авторами самих метаанализов). Далее, фиксируется значительный разброс в размерах выборок пациентов между исходными публикациями, достигающий иногда 3—4 порядков. В некоторых статьях выборка экстремально мала и может не превышать двух десятков пациентов. Отмечается необоснованность критериев исключения, что также служит важным фактором снижения качества исследований. Типовой ошибкой является использование перекрывающихся наборов данных (выборок) в качестве обучающих, тестовых и валидирующих.

Довольно часто недостаточно детальное описание методики исследования приводит к снижению ценности его результатов. В ряде исследований неясны характер и способ заслепления, количество и компетенции врачей, время между индексным и референсным тестами. В целом фиксируется низкий уровень стандартизации дизайна и методов исследований, при том, что неоднородность подходов и методов приводит к высокой неоднородности диагностических оценок.

Надо отметить, что в более чем 50,0% метаанализов включены лучевые исследования разных модальностей, что чрезвычайно повышает неоднородность данных и затрудняет их обобщение.

В большинстве метаанализов риск предвзятости публикаций оценен как низкий. Однако отсутствие публикаций с отрицательными результатами дает основание пересмотреть градацию данного риска в пользу более значимой его выраженности.

Таким образом, в глобальной перспективе результаты исследований применимости и качества ИИ в лучевой диагностике показывают достаточно высокую диагностическую точность технологий искусственного интеллекта, но эти результаты в подавляющем большинстве случаев получены в исследованиях с некорректным дизайном, способом проведения и отчетностью, что фактически гарантированно приводит к систематическим ошибкам и переоценке эффективности алгоритмов. Еще раз подчеркнем преобладание ретроспективных исследований на дискретных наборах данных, а также отсутствие полноценных исследований в реальных клинических условиях.

1. 3. Развитие технологий искусственного интеллекта в лучевой диагностике в Российской Федерации

Вопросы применения технологий искусственного интеллекта в различных клинических направлениях активно изучаются российскими учеными. Ведутся исследования применимости ИИ в гематологии [72], урологии и онкоурологии [79], кардиологии и функциональной диагностике [105, 89], дерматологии (преимущественно для скрининга злокачественных новообразований кожных покровов) [89], гастроэнтерологии [81], неонатологии [105], патоморфологии [5, 18], лабораторной диагностике [28, 31]; также разрабатываются прогностические системы поддержки принятия врачебных решений [29]. Отдельным перспективным направлением можно считать применение ИИ при проведении эндоскопических исследований желудочно-кишечного тракта и мочевыводящих путей [32, 53, 87]. Особенность здесь состоит в необходимости автоматизированного анализа динамичных видеоизображений в режиме реального времени с немедленным отображением результатов. Схожая проблематика существует и для ультразвуковой диагностики [57, 100]. Достаточно успешны разработки на основе ИИ для ретроспективного анализа электронных медицинских карт. Соответствующие решения в разных форматах внедрялись в субъектах Российской Федерации для выполнения задач профилактической медицины [26, 55]. Особенно значителен прогресс в офтальмологии, где показана принципиальная достижимость для ИИ точности врача-офтальмолога при интерпретации изображений глазного дна в контексте скрининга диабетической ретинопатии, глаукомы и некоторых иных наиболее распространенных заболеваний [35, 49, 54, 71].

В области лучевой диагностики также отмечается научная и публикационная активность. Разработана и протестирована модель глубокого обучения (подход 3D-классификации с помощью модели DenseNet) для типирования глиом на результатах МРТ головного мозга. Авторы использовали один набор данных (n = 707), разделив его на две части: 80,0% – для обучения, 20,0% – для тестирования. В таких условиях достигнута точность 83,0%, площадь под характеристической кривой составила 0,95. Авторы отметили достижение цели – принципиальная возможность использования ИИ для конкретной клинической задачи в области лучевой диагностики достигнута [33].

В 2020 году опубликованы результаты ретроспективной оценки точности программного обеспечения на основе ИИ, имеющего статус медицинского изделия (RU.96876180.62.01.29—01). Исследование проведено на результатах 75 флюорографий. Авторы отметили 100,0% чувствительность этой разработки, снабдили свою статью эмоциональными высказываниями («ИИ прекрасно распознавал патологии органов грудной клетки») и рекомендовали продукт к дальнейшей клинической валидации. Несколько странно звучит данная рекомендация в отношении уже зарегистрированного медицинского изделия. Явными ограничениями исследования являются: ретроспективный характер, малый объем выборки (ничем не обоснованный предварительно), а также довольно произвольное использование общепринятых показателей диагностической точности [4].

В 2022 году опубликованы результаты совместной разработки ФГБУ «НМИЦ колопроктологии им А. Н. Рыжих» Минздрава России и одной из коммерческих компаний. С использованием набора данных из 900 результатов магнитно-резонансной томографии прямой кишки разработана «базовая модель искусственного интеллекта» на основе нейросетей SegResNet, TransUnet, 3D Unet. На исходном наборе данных (то есть без внешней валидации или проверки на новых данных) получена точность 77,0%, чувствительность – 98,1%, специфичность – 45,1%, положительная прогностическая ценность – 72,9%, отрицательная прогностическая ценность – 94,1%. Низкую специфичность авторы объяснили высоким удельным весом «ложноположительных результатов у здоровых пациентов» (то есть при анализе изображений без признаков онкологической патологии). Авторы наметили пути дальнейшего развития своей разработки (улучшение специфичности, расширение анализируемых параметров, экспериментирование с параметрами обучения, увеличение набора данных) [39]. Однако они обошли вниманием необходимость внешней валидации; также проигнорирован аспект оценки точности и надежности разработки в проспективном режиме, в реальных клинических условиях.

Достаточно объемным исследованием последних лет стала серия научных работ А. А. Мелдо с соавторами. Обосновав актуальность применения технологий ИИ для выявления признаков злокачественных новообразований на результатах компьютерной томографии органов грудной клетки (КТ ОГК) органы грудной клетки, авторы подробно описали этапы разработки технического решения на основе сиамских нейронных сетей, включая признаки формы, внутреннюю структуру и архитектуру дифференциальной диагностики. Также были предложены оригинальные математические методики для классификации анализируемых объектов на изображении, способ понижения размерности данных для повышения эффективности и скорости обучения моделей. Приводятся показатели точности авторской системы: чувствительность – 75,0—93,0%, специфичность – 84,0—97,0%, точность – 81,0—95,0% (колебания обусловлены конкретной архитектурой нейросети) [64, 65, 66, 67, 70]. Вместе с тем принятая информация о процессе оценки точности, объемах и характеристиках использованных данных, внешней независимой проверке, наконец, клиническом применении системы не представлена. Авторы фокусируются на технологических аспектах, алгоритмизации процессов дифференциальной диагностики, но вопросы воспроизводимости результатов, работы на реальных клинических данных полностью упущены.

Опубликовано краткое сообщение (тезисы) о применении в Красноярском крае программного обеспечения на основе ИИ для ретроспективного пересмотра результатов КТ ОГК, выполненных в период пандемии COVID-19. Из 10 500 исследований 484 (4,6%) случая автоматически классифицированы как «подозрительные». После проверки врачами-рентгенологами 45 КТ-снимков отнесены к «группе пациентов с рентгенологическими признаками или подозрением на рак легкого». Полученные результаты авторы использовали как обоснование «эффективности гибридного подхода» к анализу результатов КТ ОГК [43].

Особое внимание российские исследователи уделяют проблематике применения технологий ИИ для анализа результатов профилактической маммографии.

Н. И. Рожкова с соавторами (2020), опубликовали результаты разработки и изучения диагностической значимости сегментационной нейросетевой модели детекции патологических изменений молочных желез. С применением набора данных из размеченных результатов 15 486 цифровых маммографий реализована модель на нейронной архитектуре ResNet50 с выводом результата при помощи градиентного бустинга. Точность сегментации определяли по коэффициенту сходства, вероятность злокачественности находок вычисляли с помощью показателей бинарной классификации. Результаты: разработана система, представленная сегментационной моделью на основе нейросетевой архитектуры. Модель выявляла критичные рентгенологические признаки (новообразования, кальцинаты, локальную перестройку структуры или асимметрию) с высокой точностью: коэффициент сходства – 0,8176 и выше при пороговых значениях на выходных нейронах сети 0,1 и 0,15. Авторы заявили, что результаты машинной сегментации и разметки изображений врачом-рентгенологом эквивалентны по своей точности как минимум в отношении выявления новообразований, внеочаговых кальцинатов и внутрижелезистых лимфатических узлов. Полученные результаты послужили обоснованием возможности применения разработанного решения как системы поддержки принятия врачебных решений при анализе и интерпретации профилактических маммографических исследований [84]. Это чрезвычайно важное исследование, логичным продолжением которого должно послужить исследование точности и надежности авторской разработки в реальных клинических условиях.

Выполнены обзор и сравнение отдельных шести отечественных и зарубежных решений на основе ИИ для автоматизированного анализа результатов маммографии и улучшения выявляемости злокачественных новообразований молочной железы. Приведены данные о функциональных возможностях, а также о диагностической точности. Вместе с тем сопоставимость показателей вызывает определенные сомнения, так как они получены в разных условиях: как на собственных наборах данных разработчиков, так и в ходе независимой валидации. В целом работа подтверждает сложившееся мнение о значительном потенциале ИИ как системы поддержки принятия врачебных решений, направленной на снижение рисков пропуска значимой патологии и повышение производительности труда врачей-рентгенологов [93].

Представляет интерес публикация, появившаяся в процессе развития одного из отечественных программных продуктов на основе ИИ, впоследствии получившего статус медицинского изделия. Для создания системы анализа результатов рентгенографии органов грудной клетки использовали находящийся в свободном доступе набор данных ChestX-ray8 и три разные архитектуры (нейросеть с обучением методом обратного распространения ошибки, нейронную сеть, работающую по конкурентному принципу, глубокую сверточную нейросеть). Для первого варианта архитектуры достигнута точность в 81,03% при минимальном среднеквадратическом отклонении. Второй вариант достигал большее среднее значение точности (90,12%), но величина погрешности была более высокой. Третий вариант показал максимальную точность и минимальную величину погрешности, но был сопряжен со значительными ресурсными затратами на обучение [9]. Особую ценность работе придают сделанные авторами выделение, структурирование и анализ причин ошибок нейронных сетей. Это важный методический момент, часто упускаемый из виду в научных публикациях. Тщательный разбор ошибок позволяет пошагово и системно повышать точность работы ИИ в лучевой диагностике.

Встречаются отдельные работы, представляющие собой смешение обзора и тестирования некоего конкретного программного продукта (например, для автоматизированного анализа результатов конусно-лучевой компьютерной томографии в стоматологической практике) [11, 52]. Однако результаты апробации излагаются без достаточного объема статистического материала.

На этом фоне положительно выделяется исследование, опубликованное в 2022 году и посвященное сравнительному изучению различных систем ИИ для выявления очагов и округлых образований в легких. Авторы выбрали четыре программных продукта и анонимизировали их. Для тестирования использованы два оригинальных зарегистрированных набора данных из 150 цифровых рентгенограмм легких с различными верифицированными патологиями и из 5000 цифровых рентгенограмм без патологических признаков. На основе наборов данных сформированы три выборки с распространенностью патологических признаков 3,0, 6,0 и 50,0%. Тем самым авторы смоделировали ситуации рентгенологического скрининга (первые две выборки) и диагностического пульмонологического центра (третья выборка). Включенные программные продукты последовательно протестированы. Для выборки 1 общая точность колебалась в диапазоне 90,0—94,0%, площадь под характеристической кривой – 0,723—0,825; для выборки 2 соответствующие диапазоны составили 89,0—97,0% и 0,750—0,911; для выборки 3 – 77,0—89,0% и 0,770—0,890. Выявлены существенные различия в диагностической точности при работе ИИ на разных выборках. В разных ситуациях некоторые системы не могли преодолеть минимальный пороговый уровень показателя «площадь под характеристической кривой», либо показатели точности достаточно серьезно варьировались.

Доказана необходимость отбора программного продукта четко под задачи и специфику конкретной медицинской организации. Авторы сообщили, что показатели точности всех программных продуктов сопоставимы с результатами тестирования врачей-рентгенологов. Такое тестирование было проведено и опубликовано тем же авторским коллективом ранее (показатели чувствительности и специфичности врачей были 76,0 и 72,3% соответственно) [92]. В процитированной публикации проведена независимая валидация четырех программных решений на основе технологий ИИ для лучевой диагностики. К сожалению, подобных работ исчезающе мало. Позиция авторов состояла в объективном установлении точности ИИ и в нежелании сравнивать конкретные продукты. Тем не менее отсутствие информации о протестированных разработках несколько снижает ценность публикации. Минимальной альтернативой могло стать хотя бы перечисление протестированных продуктов с последующей анонимизацией результатов тестирования. Подчеркнем особо, что выявленные авторами зависимости точности от характера выборки (фактически претестовой вероятности патологии) служат серьезным обоснованием необходимости проведения исследования технологий ИИ в реальных клинических условиях.

Остаются малоизученными аспекты влияния автоматизации на основе ИИ на производительность, качество работы врачей-рентгенологов, организацию и результативность лучевой диагностики. На экстремально малой выборке (n = 5) показано, что автоматизация рабочего процесса врача-рентгенолога за счет внедрения ИИ для анализа результатов рентгенографии ОГК оптимизирует трудозатраты, сокращает время на проведение рутинных процедур примерно на 30,0%, повышает производительность труда (то есть увеличивает количество описываемых исследований) [85].

Пандемия новой коронавирусной инфекции создала колоссальные вызовы для систем здравоохранения всех стран мира; особую роль в борьбе с этим заболеванием сыграла лучевая диагностика. Глобально к выявлению, дифференциальной диагностике и контролю динамики течения COVID-19 применялись – с точки зрения рентгенологии – различные подходы. Часть стран сфокусировалась на применении компьютерной томографии, другая часть отдала предпочтение рентгенографии. В России, в силу наличия особенностей субъектов, применялись обе модальности, также велись исследования в аспекте использования магнитно-резонансной томографии [170]. В любом случае ситуация привлекла значительное внимание разработчиков технологий ИИ. В мире был зафиксирован скачок числа публикаций о разработках и применении искусственного интеллекта для диагностики и оценки тяжести COVID-19 по результатам лучевых исследований [60, 63].

Необходимо подчеркнуть негативный факт. В период пандемии в России появился целый ряд оригинальных разработок – программных продуктов на основе ИИ для автоматизированного выявления признаков COVID-19 и оценки тяжести по результатам компьютерной томографии (прогресс в этой области наглядно демонстрирует сетевой каталог ИИ-сервисов – https://mosmed.ai/service_catalog); часть таких разработок даже получили статус медицинского изделия. Вместе с тем научных публикаций о соответствующих решениях, их испытаниях и применении фактически не появилось. Отечественные авторы ограничивались литературными обзорами [60, 63, 103]. Единичные сообщения о применении технологий ИИ носили сугубо ретроспективный характер и основывались на малых объемах наблюдений (от 16 до 187 пациентов) [61, 95].

Отдельно стоит отметить работу И. М. Скоробогач с соавторами (2023), в которой технологии машинного обучения применены как метод исследования – с их помощью авторы выявили варианты течения вирусной пневмонии COVID-19, проведя автоматизированный количественный анализ результатов КТ ОГК. В качестве инструмента использовалось свободно доступное программное приложение с открытом кодом 3D Slicer [90]. Единственным недостатком работы можно считать отсутствие информации о точности использованного программного решения в отношении определения объема поражения легочной ткани. Впрочем, это небольшое методическое упущение вовсе не снижает общую положительную оценку прогрессивного подхода, примененного авторами.

Использование ИИ, машинного обучения как метода обусловило развитие радиомики – отдельного направления в современной лучевой диагностике, основанного на текстурном анализе изображений. Соответствующим проблемам посвящено значительное количество научных публикаций как в России, так и в мире в целом [2, 12, 13, 48, 50, 74, 75, 94, 97]. Однако радиомика, будучи отдельным и самостоятельным направлением в диагностике, находится за рамками нашего исследования.

Фактически единичная публикация посвящена вопросу создания наборов данных для обучения ИИ в лучевой диагностике острых нарушений мозгового кровообращения (ОНМК). Важно отметить, что набор (n = 220) включает не только результаты лучевых исследований (нативная КТ, КТ-ангиография), но и клинические данные – тип ОНМК, наличие сопутствующих заболеваний и осложнений, тактика лечения, длительность госпитализации, исход. Относительно разметки: на каждой серии изображений были оконтурены и протегированы области, соответствующие прямым и косвенным признакам ОНМК. Авторы полагают использовать сформированный набор для создания технологий ИИ с целью решения задач диагностики типа ОНМК, оценки объема поражения, а также – для прогноза степени неврологического дефицита [110].

bannerbanner