В+Врач+ИИНачать бесплатно
← К примерам

Эффективность ИИ-скрайбов (ambient AI) в медицине: обзор доказательств для врачей

Перевод реального обзора. Идентификаторы исследований (журнал, DOI, PMID, n) сохранены как в оригинале — сверяй по первоисточнику. Образовательный материал, не клиническая рекомендация.

Коротко (TL;DR)

Ключевые выводы

  1. Экономия времени реальна, но скромна и измеряется непоследовательно. Первое РКИ (NEJM AI 2025) показало, что Nabla сокращает время на запись ~9,5% против контроля; у DAX значимых изменений нет. Крупные внедрения сообщают о 13–16 минутах/день. Обещания вендоров вроде «до двух часов на врача в день» (пресс-релиз Greenway Health/Nabla, 9 апреля 2024, со слов CEO Nabla Алекса ЛеБрюна) не подтверждаются независимыми данными по таймстампам в EHR.
  2. Снижение выгорания — самый устойчивый и воспроизводимый результат. Несколько многоцентровых работ показывают сильное падение распространённости выгорания (например, 51,9%→38,8% в шести системах; абсолютное снижение на 21,2% в Mass General Brigham).
  3. Точность вариабельна и несовершенна. Независимое тестирование показывает ~2,9 ошибки на запись (затронуто 70% записей), вплоть до средней доли ошибочных элементов 26,3% между платформами; преобладают пропуски; галлюцинации встречаются в меньшинстве записей.
  4. Данных по клиническим исходам нет. Ни одно исследование не измеряло смертность, повторные госпитализации, точность диагностики или качество решений как конечные точки.
  5. Контакт с пациентом улучшается умеренно; пациенты в целом принимают технологию, но беспокоятся о точности и приватности.

Несмотря на это, внедрение опережает доказательства: по данным Becker's Hospital Review (со ссылкой на исследование American Journal of Managed Care, январь 2026), почти две трети больниц США на EHR Epic внедрили инструменты ambient-документации к июню 2025.

Подробно

1. Экономия времени / нагрузка от документации

Первое рандомизированное контролируемое исследование. Lukac et al., «Ambient AI Scribes in Clinical Practice: A Randomized Trial», NEJM AI 2025;2(12), DOI 10.1056/AIoa2501000 (PMID 41497288; PMCID PMC12768499; ClinicalTrials.gov NCT06792890): 238 амбулаторных врачей 14 специальностей в UCLA Health распределили 1:1:1 на Microsoft DAX Copilot (n=79), Nabla (n=79) или обычную практику (n=80), ноябрь 2024 – январь 2025. Первичная конечная точка — изменение логарифма времени на запись. У пользователей Nabla время на запись снизилось относительно на 9,5% против контроля (95% ДИ −17,2% … −1,8%; P=0,02) — около 41 секунды на запись (4:30→3:49). У DAX значимых изменений не было (−1,7%; 95% ДИ −9,4% … +5,9%; P=0,66). Значимых изменений времени во внеплановые дни и вне рабочих часов не было ни у одного инструмента. DAX использовали лишь в 33,5% визитов, Nabla — в 29,5%; ~15% врачей из групп вмешательства ни разу не воспользовались назначенным скрайбом. Авторы предупреждают: метрика «время на запись» Epic Signal не учитывает время редактирования внутри платформы вендора, поэтому заявленная экономия может быть завышена — «это недооценённое ограничение затрагивает все исследования ИИ-скрайбов, опирающиеся на метрики Epic Signal».

Крупная многоцентровая когорта (JAMA 2026). Rotenstein, Holmgren et al. (Mass General Brigham + UCSF), JAMA (DOI 10.1001/jama.2026.2253), отслеживали ambient-документацию в пяти академических центрах более двух лет (в смежном анализе — 8 581 клиницист). ИИ-скрайбы ассоциировались со скромным снижением на ~13 минут общего времени в EHR и ~16 минут времени документации в день (относительно на 3% и 10%), плюс небольшой рост продуктивности (~0,5 дополнительного визита в неделю). У активных пользователей (>50% визитов) снижение времени в EHR было примерно вдвое, а времени документации — втрое больше, но так часто пользовались лишь ~32%. Рост дохода номинален (~$167/мес на клинициста). Время вне рабочих часов значимо не различалось. (Сопутствующий анализ продуктивности UCSF под рук. A Jay Holmgren в JAMA Network Open: у внедривших ~1,81 дополнительного RVU и ~1 пациент/неделю, ≈$3 044 доп. годового дохода на врача по тарифной сетке Medicare 2025.)

QI-исследование в шести системах (JAMA Network Open, окт. 2025). Olson et al., «Use of Ambient AI Scribes to Reduce Administrative Burden and Professional Burnout», JAMA Netw Open 2025;8(10):e2534976, DOI 10.1001/jamanetworkopen.2025.34976 (PMCID PMC12492056): 263 клинициста (Abridge) в шести системах. Участники сообщили об экономии эквивалента ~10,8 минуты за рабочий день и значимом снижении документации во внерабочее время и когнитивной нагрузки.

Масштабное внедрение Kaiser/Permanente. Tierney et al., «Ambient Artificial Intelligence Scribes: Learnings after 1 Year and over 2.5 Million Uses», NEJM Catalyst 2025, DOI 10.1056/CAT.25.0040: 7 260 врачей Permanente использовали ambient-ИИ в 2 576 627 приёмах (окт. 2023 – дек. 2024), с оценкой 15 791 сэкономленного часа документации (≈1 794 восьмичасовых рабочих дня). Активные пользователи экономили ~в 2,5 раза больше на запись, чем эпизодические; корреляции возраста врача с внедрением не было (средний возраст ~47). Это развитие их пилота (Tierney et al., NEJM Catalyst 2024, DOI 10.1056/CAT.23.0404), начатого с 47 тест-пользователей до масштабирования на 10 000 лицензий.

«Разрыв восприятия» (AJMC). В академическом центре 86,5% врачей ощущали сокращение времени документации, но статистической связи между ощущаемым и реальным сокращением не было (OR 0,975; P=0,144); каждые дополнительные 10% приёмов со скрайбом сокращали документацию лишь на ~30 секунд на запланированный час (P<0,001), и больше всего выигрывали менее эффективные врачи.

Независимая оценка ROI. Peterson Health Technology Institute (PHTI, март 2025): ambient-скрайбы, вероятно, снижают выгорание и когнитивную нагрузку, но финансовый ROI не доказан, а данных по экономии времени мало. По отчёту PHTI (Healthcare Dive, 27 марта 2025), при широкой доступности «уровень внедрения составляет 20–50%», на рынке «около 60 решений». Редакционная статья NEJM AI «AI Scribes Are Not Productivity Tools (Yet)» (Kim, Liu & Singh, NEJM AI 2025;2(12), DOI 10.1056/AIe2501051) — о том же.

2. Выгорание и удовлетворённость врачей

Исследование в шести системах (Abridge). Olson et al. (см. выше): через 30 дней выгорание у амбулаторных клиницистов упало с 51,9% до 38,8% (разница 13,1 п.п.; 95% ДИ 6,5–19,7; скорр. OR выгорания 0,26, 95% ДИ 0,13–0,54, P<0,001) среди 186 клиницистов в модели; анализ чувствительности по порогу тяжёлого выгорания (≥4) — снижение с 18,4% до 12,2%. Сопроводительный комментарий приводит чистое снижение выгорания на 13,9 п.п. и тяжёлого выгорания на 6,2 п.п. Когнитивная нагрузка, связанная с записями, снизилась на 2,64 пункта по 10-балльной шкале.

Mass General Brigham + Emory (JAMA Network Open, авг. 2025). You et al., «Ambient Documentation Technology in Clinician Experience of Documentation Burden and Burnout», JAMA Netw Open 2025;8(8):e2528056, DOI 10.1001/jamanetworkopen.2025.28056 (PMID 40839265): опрос 1 430 клиницистов (873 MGB, 557 Emory). В MGB абсолютное снижение распространённости выгорания на 21,2% за 84 дня (с 52,6% до 30,7%); в Emory — рост благополучия, связанного с документацией, на 30,7% за 60 дней. CMIO MGB Ребекка Мишурис сказала Becker's: «в нашей сфере буквально нет другого вмешательства, которое так влияет на выгорание». Программа MGB выросла с 18 пилотных врачей (июль 2023) до >3 000 к весне 2025.

Вторичные точки РКИ UCLA. И DAX, и Nabla улучшили валидированные психометрические показатели против контроля: композит Mini-Z 2.0 (DAX +2,83 [95% ДИ 1,28–4,37], Nabla +2,69 [1,14–4,23]); нагрузка врача (DAX −39,9 [−71,9 … −7,9], Nabla −31,7 [−63,8 … +0,4] по шкале 0–400); Professional Fulfillment Index–Work Exhaustion (DAX −0,32 [−0,55 … −0,08], Nabla −0,23 [−0,46 … +0,01] по шкале 0–4). Авторы подчёркивают: это вторичные точки, требующие подтверждения в более крупных многоцентровых испытаниях.

Пилот Stanford (JAMIA 2025). Shah, Devon-Sand, Ma et al., J Am Med Inform Assoc 2025;32:375–380, DOI 10.1093/jamia/ocae295 (PMID 39657021): 3-месячный пилот DAX Copilot у 48 врачей Stanford Health Care (парный анализ n=38) — крупные значимые снижения нагрузки (−24,42, p<0,001) и выгорания (−1,94, p<0,001) и рост удобства использования (+10,9, p<0,001).

Исследование Providence (DAX). Providence (Future Healthcare Journal 2025): среди случайно назначенных пользователей DAX — снижение нагрузки документации в среднем на 2,5 часа в неделю, выгорания на 30,3%, фрустрации от документации на 49,5% и самооценённого времени документации на 51,7%.

3. Точность записей, ошибки и галлюцинации

Валидация инструмента (JMIR 2025). Biro et al., «Accuracy and Safety of AI-Enabled Scribe Technology», J Med Internet Res 2025;27:e64993, DOI 10.2196/64993 (PMID 39869899; PMCID PMC11811668): в 44 черновиках от двух коммерческих ambient-скрайбов — 127 ошибок (в среднем 2,9 на запись, SD 2,7); 70% записей (31/44) содержали хотя бы одну ошибку. Пропуски были самым частым типом и труднее всего ловились врачами, поскольку требуют помнить приём.

Мультиплатформенная оценка безопасности (Mayo Clinic Proceedings: Digital Health 2025). Anderson, Mohan, Dorr, Ratwani, Biro, Gold, «Evaluating the Quality and Safety of Ambient Digital Scribe Platforms Using Simulated Ambulatory Encounters», 2025;3(4):100292, DOI 10.1016/j.mcpdig.2025.100292: пять платформ на 14 симулированных приёмах. Транскрипты (платформы A–D) содержали в среднем 13,9 ошибки, 19,5% которых попадали в запись. Средняя доля ошибочных элементов записи — 26,3% (95% ДИ 17,0%–31,0%). Лишь 35,8% (±11,3%) корректно переданных элементов совпадали между платформами. В среднем 3,0 ошибки на случай имели потенциал умеренного-тяжёлого вреда. Средний балл PDQI-9 — 36±4 (диапазон 9–45) при значимой межплатформенной вариабельности.

ИИ против записей врача (Annals of Internal Medicine 2026). Reddy et al. (Veterans Health Administration / University of Washington), «Rapid Evaluation of Artificial Intelligence Technology Used for Ambient Dictation in Primary Care», Ann Intern Med 2026, DOI 10.7326/ANNALS-25-02772 (PMID 41996184): 11 ИИ-скрайбов, 18 человек-записывающих и 30 «слепых» оценщиков оценивали записи по пяти стандартизованным случаям первички по модифицированной PDQI-9 (макс. 50). Записи врачей были выше записей ИИ по всем 10 доменам и всем пяти случаям. Наибольший разрыв — случай острой боли в пояснице (врач 43,8 [95% ДИ 37,4–50,3] против ИИ 20,3 [15,4–25,2]; разница −23,5). Наибольший дефицит по доменам — «полнота» (−1,23). Редакционная статья (Tierney & Lee) отметила, что PDQI-9 может вознаграждать длинные, «биллинговые» записи, и призвала к лучшим, пациент-центричным рамкам оценки.

Отдельно о галлюцинациях. Работа Frontiers in Artificial Intelligence (2025), сравнившая ambient-записи ИИ с «эталонными» записями врача в 97 приёмах (DOI 10.3389/frai.2025.1691499), нашла галлюцинации в 31% ambient-записей против 20% записей врача (p=0,01); записи ИИ были полнее и лучше организованы, но менее лаконичны и более склонны к галлюцинациям; при этом рецензенты предпочли записи ИИ в 47% против 39%. В РКИ UCLA врачи сообщали о клинически значимых неточностях «иногда» (DAX в среднем 2,7 [95% ДИ 2,4–3,0], Nabla 2,8 [2,6–3,0] по 5-балльной шкале) и о предвзятости «редко»; среди проблем — пропуски (n=12), структурные/форматные (n=11), ошибки местоимений/пола (n=8), неверное приписывание реплик (n=8).

Зависимость от акцента и качества звука. Работа npj Digital Medicine (2026) «Accent related errors in clinical speech transcription and a LLM-based remedy» (DOI 10.1038/s41746-026-02490-z): системы распознавания речи Whisper и WhisperX давали значимо больше ошибок для не-носителей английского, чем для носителей (Whisper сильнее); постобработка через GPT-4o (WhisperX-GPT) во многом восстанавливала потерянную точность. Базовое неравенство хорошо задокументировано: Graham & Roll (2024), JASA Express Letters 4(2):025206, — «родные английские акценты точнее неродных»; статья Whisper (Radford et al., 2022) сообщает средний многоязычный WER примерно втрое выше английского (по ACM Transactions on Accessible Computing, DOI 10.1145/3636513).

Обнадёживающие реальные данные о качестве — с оговоркой. Пилот UC Davis (Sandra L. Taylor et al., «Quality of Clinical Notes Created by Ambient Listening Generative AI», JMIR Medical Informatics 2026;14:e86474, DOI 10.2196/86474, PMID 41996389) оценил 356 из 7 545 черновиков ИИ от 31 врача: 94,7% (337/356) были без значимых ошибок, но 5,3% (19/356) содержали ошибку с риском серьёзного вреда, если её не исправить. Чаще всего — пропуски (18%), галлюцинации (11,5%) и случайные включения (9,3%); врачи оставили ~15% записей вообще без правок, что поднимает вопрос «автоматизационной благодушности». Оценки тяжести субъективны (ставили те же врачи, что писали записи), реального вреда пациентам не измеряли — только потенциал вреда.

4. Клинические исходы и качество решений

Это самая слабая область доказательной базы — фактически пустота. Несколько независимых обзоров заявляют, что доказательств улучшения клинических или пациент-центричных исходов пока нет:

Ни одно опубликованное исследование не измеряет смертность, повторные госпитализации, точность диагностики или качество клинических решений. Есть и растущая тревога (policy brief npj Digital Medicine, «Ambient AI scribes and the coding arms race», DOI 10.1038/s41746-025-02272-z), что скрайбы могут подталкивать к более «сложным» биллинговым кодам, повышая затраты, а не улучшая помощь.

5. Удовлетворённость пациентов / зрительный контакт / взаимодействие

Зрительный контакт и присутствие (time-motion). Проспективное сингапурское исследование (JMIR Medical Informatics 2026;e85580) у 9 клиницистов в 169 консультациях: использование скрайба связано со снижением времени документации на консультацию на 15,0% (5,3→4,5 мин; P=0,04) и ростом доли времени зрительного контакта на 10,6% (69,6%→77,1%; P=0,009) без изменения длительности консультации и общего цикла. Из 39 опрошенных пациентов 69,2% (27) согласились, что врач уделял им больше внимания, и никто не выразил дискомфорта. Авторы трактуют это как перераспределение усилий врача в пользу контакта с пациентом, а не ускорение «оборота».

Kaiser/Permanente. 84% врачей сообщили о положительном влиянии на коммуникацию с пациентом, 82% — об улучшении общей удовлетворённости работой; отдельный отчёт Permanente: 81% пациентов сказали, что врач меньше смотрел в экран, 56% отметили положительное влияние на качество визита; все опрошенные пациенты сообщили о положительном-нейтральном влиянии на качество.

Отношение пациентов (UC Davis, JMIR Medical Informatics 2025;13:e77901, DOI 10.2196/77901, PMID 41308194). Предвнедренческий опрос 1 893 респондентов (отклик 20%, из >9 000 разосланных): 48% сочли ИИ-скрайб хорошим решением, 33% нейтральны, 19% имели опасения; 73% чувствовали, что их слышат на текущих визитах, 23% — что врач больше сосредоточен на записи, чем на них. Главные опасения: точность документации (39%), приватность/безопасность (13–15%), сам факт записи (13%). Молодые пациенты (18–30) были скептичнее старших. Авторы подчёркивают предварительное информирование и согласие и предупреждают о низком отклике и нерепрезентативной выборке.

Принятие пациентами в РКИ UCLA. Пациенты были «в целом не против» (оценка 4,4/5); врачи оценили, что ~6–7% пациентов отказались; оба инструмента высоко оценены за вовлечение пациента (DAX 4,2/5, Nabla 3,8/5).

Рекомендации

  1. Внедряй ИИ-скрайбы прежде всего как меру для благополучия врача и снижения нагрузки документации, а не как инструмент продуктивности или дохода. Сильнее всего подтверждено снижение выгорания и когнитивной нагрузки; экономия времени умеренная (~10% / 10–16 мин/день), финансовый ROI не доказан (PHTI).
  2. Сделай обязательной проверку и редактирование каждой записи до подписи. Учитывая ошибки (2,9 на запись; до 26,3% по элементам; ~5% потенциально серьёзного вреда) и то, что пропуски — доминирующий и труднее всего заметный тип, относись к выводу ИИ как к черновику, требующему подтверждения врачом. Активно противодействуй «автоматизационной благодушности» (находка UC Davis: ~15% записей не правили). Помни: в ряде юрисдикций (например, Техас) юридическую ответственность за запись и биллинг-код несёт врач, а не вендор.
  3. Пилотируй на своём миксе специальностей и популяции пациентов до масштабирования. Качество зависит от специальности и падает при неродном акценте и плохом звуке; тестируй на приёмах с несколькими говорящими, с переводчиком и на сложных случаях; для разноакцентных популяций рассмотри связку ASR + LLM-постобработка (например, WhisperX-GPT).
  4. Встрой согласие и информирование пациента в рабочий процесс — раннее, в идеале очное уведомление; понятный отказ (opt-out); прозрачная политика хранения данных (например, UC Davis удаляет записи в течение 10 дней) — напрямую отвечая на опасения о точности, приватности и записи.
  5. Измеряй локально по сбалансированной системе показателей — выгорание (валидированные шкалы: Mini-Z 2.0, Professional Fulfillment Index, нагрузка по NASA-TLX), «работа в пижаме» вне часов, качество записей (PDQI-9), опыт пациента и регулярные аудиты ошибок/безопасности — вместо опоры на заявления вендоров.

Пороги, которые изменили бы рекомендации: если будущие многоцентровые РКИ покажут (а) устойчивое снижение выгорания за пределами «окна ранних энтузиастов», (б) измеримое улучшение исходов или безопасности и (в) валидированную долю ошибок на уровне человеческих записей или ниже — аргументы за широкое, менее контролируемое внедрение усиливаются. Напротив, данные о чистом вреде от незамеченных ошибок или о росте затрат из-за кодирования должны вести к более строгому управлению и более узкому применению.

Оговорки


Карта источников (ключевые исследования, для цитирования)