Эффективность ИИ-скрайбов (ambient AI) в медицине: обзор доказательств для врачей

Перевод реального обзора. Идентификаторы исследований (журнал, DOI, PMID, n) сохранены как в оригинале — сверяй по первоисточнику. Образовательный материал, не клиническая рекомендация.

Коротко (TL;DR)

ИИ-скрайбы (системы, которые «слушают» приём и составляют черновик записи) дают уверенные, подтверждённые в нескольких центрах данные о снижении выгорания врача, когнитивной нагрузки и стресса от документации, и умеренную, реальную, но меньшую, чем в рекламе, экономию времени (обычно ~10% времени на запись и десятки минут в день, а не «часы» из обещаний вендоров).
Точность записи — главная проблема безопасности: черновики ИИ часто содержат ошибки — чаще всего пропуски, плюс редкие галлюцинации — и по валидированным шкалам качества уступают записям врача; качество падает при неродном акценте и плохом звуке, поэтому проверка врачом обязательна.
Практически нет опубликованных данных, что ИИ-скрайбы улучшают клинические исходы, точность диагностики или безопасность пациента; польза для контакта «врач–пациент» (зрительный контакт, присутствие) реальна, но измерена в основном опросами и небольшими наблюдательными работами.

Ключевые выводы

Экономия времени реальна, но скромна и измеряется непоследовательно. Первое РКИ (NEJM AI 2025) показало, что Nabla сокращает время на запись ~9,5% против контроля; у DAX значимых изменений нет. Крупные внедрения сообщают о 13–16 минутах/день. Обещания вендоров вроде «до двух часов на врача в день» (пресс-релиз Greenway Health/Nabla, 9 апреля 2024, со слов CEO Nabla Алекса ЛеБрюна) не подтверждаются независимыми данными по таймстампам в EHR.
Снижение выгорания — самый устойчивый и воспроизводимый результат. Несколько многоцентровых работ показывают сильное падение распространённости выгорания (например, 51,9%→38,8% в шести системах; абсолютное снижение на 21,2% в Mass General Brigham).
Точность вариабельна и несовершенна. Независимое тестирование показывает ~2,9 ошибки на запись (затронуто 70% записей), вплоть до средней доли ошибочных элементов 26,3% между платформами; преобладают пропуски; галлюцинации встречаются в меньшинстве записей.
Данных по клиническим исходам нет. Ни одно исследование не измеряло смертность, повторные госпитализации, точность диагностики или качество решений как конечные точки.
Контакт с пациентом улучшается умеренно; пациенты в целом принимают технологию, но беспокоятся о точности и приватности.

Несмотря на это, внедрение опережает доказательства: по данным Becker's Hospital Review (со ссылкой на исследование American Journal of Managed Care, январь 2026), почти две трети больниц США на EHR Epic внедрили инструменты ambient-документации к июню 2025.

Подробно

1. Экономия времени / нагрузка от документации

Первое рандомизированное контролируемое исследование. Lukac et al., «Ambient AI Scribes in Clinical Practice: A Randomized Trial», NEJM AI 2025;2(12), DOI 10.1056/AIoa2501000 (PMID 41497288; PMCID PMC12768499; ClinicalTrials.gov NCT06792890): 238 амбулаторных врачей 14 специальностей в UCLA Health распределили 1:1:1 на Microsoft DAX Copilot (n=79), Nabla (n=79) или обычную практику (n=80), ноябрь 2024 – январь 2025. Первичная конечная точка — изменение логарифма времени на запись. У пользователей Nabla время на запись снизилось относительно на 9,5% против контроля (95% ДИ −17,2% … −1,8%; P=0,02) — около 41 секунды на запись (4:30→3:49). У DAX значимых изменений не было (−1,7%; 95% ДИ −9,4% … +5,9%; P=0,66). Значимых изменений времени во внеплановые дни и вне рабочих часов не было ни у одного инструмента. DAX использовали лишь в 33,5% визитов, Nabla — в 29,5%; ~15% врачей из групп вмешательства ни разу не воспользовались назначенным скрайбом. Авторы предупреждают: метрика «время на запись» Epic Signal не учитывает время редактирования внутри платформы вендора, поэтому заявленная экономия может быть завышена — «это недооценённое ограничение затрагивает все исследования ИИ-скрайбов, опирающиеся на метрики Epic Signal».

Крупная многоцентровая когорта (JAMA 2026). Rotenstein, Holmgren et al. (Mass General Brigham + UCSF), JAMA (DOI 10.1001/jama.2026.2253), отслеживали ambient-документацию в пяти академических центрах более двух лет (в смежном анализе — 8 581 клиницист). ИИ-скрайбы ассоциировались со скромным снижением на ~13 минут общего времени в EHR и ~16 минут времени документации в день (относительно на 3% и 10%), плюс небольшой рост продуктивности (~0,5 дополнительного визита в неделю). У активных пользователей (>50% визитов) снижение времени в EHR было примерно вдвое, а времени документации — втрое больше, но так часто пользовались лишь ~32%. Рост дохода номинален (~$167/мес на клинициста). Время вне рабочих часов значимо не различалось. (Сопутствующий анализ продуктивности UCSF под рук. A Jay Holmgren в JAMA Network Open: у внедривших ~1,81 дополнительного RVU и ~1 пациент/неделю, ≈$3 044 доп. годового дохода на врача по тарифной сетке Medicare 2025.)

QI-исследование в шести системах (JAMA Network Open, окт. 2025). Olson et al., «Use of Ambient AI Scribes to Reduce Administrative Burden and Professional Burnout», JAMA Netw Open 2025;8(10):e2534976, DOI 10.1001/jamanetworkopen.2025.34976 (PMCID PMC12492056): 263 клинициста (Abridge) в шести системах. Участники сообщили об экономии эквивалента ~10,8 минуты за рабочий день и значимом снижении документации во внерабочее время и когнитивной нагрузки.

Масштабное внедрение Kaiser/Permanente. Tierney et al., «Ambient Artificial Intelligence Scribes: Learnings after 1 Year and over 2.5 Million Uses», NEJM Catalyst 2025, DOI 10.1056/CAT.25.0040: 7 260 врачей Permanente использовали ambient-ИИ в 2 576 627 приёмах (окт. 2023 – дек. 2024), с оценкой 15 791 сэкономленного часа документации (≈1 794 восьмичасовых рабочих дня). Активные пользователи экономили ~в 2,5 раза больше на запись, чем эпизодические; корреляции возраста врача с внедрением не было (средний возраст ~47). Это развитие их пилота (Tierney et al., NEJM Catalyst 2024, DOI 10.1056/CAT.23.0404), начатого с 47 тест-пользователей до масштабирования на 10 000 лицензий.

«Разрыв восприятия» (AJMC). В академическом центре 86,5% врачей ощущали сокращение времени документации, но статистической связи между ощущаемым и реальным сокращением не было (OR 0,975; P=0,144); каждые дополнительные 10% приёмов со скрайбом сокращали документацию лишь на ~30 секунд на запланированный час (P<0,001), и больше всего выигрывали менее эффективные врачи.

Независимая оценка ROI. Peterson Health Technology Institute (PHTI, март 2025): ambient-скрайбы, вероятно, снижают выгорание и когнитивную нагрузку, но финансовый ROI не доказан, а данных по экономии времени мало. По отчёту PHTI (Healthcare Dive, 27 марта 2025), при широкой доступности «уровень внедрения составляет 20–50%», на рынке «около 60 решений». Редакционная статья NEJM AI «AI Scribes Are Not Productivity Tools (Yet)» (Kim, Liu & Singh, NEJM AI 2025;2(12), DOI 10.1056/AIe2501051) — о том же.

2. Выгорание и удовлетворённость врачей

Исследование в шести системах (Abridge). Olson et al. (см. выше): через 30 дней выгорание у амбулаторных клиницистов упало с 51,9% до 38,8% (разница 13,1 п.п.; 95% ДИ 6,5–19,7; скорр. OR выгорания 0,26, 95% ДИ 0,13–0,54, P<0,001) среди 186 клиницистов в модели; анализ чувствительности по порогу тяжёлого выгорания (≥4) — снижение с 18,4% до 12,2%. Сопроводительный комментарий приводит чистое снижение выгорания на 13,9 п.п. и тяжёлого выгорания на 6,2 п.п. Когнитивная нагрузка, связанная с записями, снизилась на 2,64 пункта по 10-балльной шкале.

Mass General Brigham + Emory (JAMA Network Open, авг. 2025). You et al., «Ambient Documentation Technology in Clinician Experience of Documentation Burden and Burnout», JAMA Netw Open 2025;8(8):e2528056, DOI 10.1001/jamanetworkopen.2025.28056 (PMID 40839265): опрос 1 430 клиницистов (873 MGB, 557 Emory). В MGB абсолютное снижение распространённости выгорания на 21,2% за 84 дня (с 52,6% до 30,7%); в Emory — рост благополучия, связанного с документацией, на 30,7% за 60 дней. CMIO MGB Ребекка Мишурис сказала Becker's: «в нашей сфере буквально нет другого вмешательства, которое так влияет на выгорание». Программа MGB выросла с 18 пилотных врачей (июль 2023) до >3 000 к весне 2025.

Вторичные точки РКИ UCLA. И DAX, и Nabla улучшили валидированные психометрические показатели против контроля: композит Mini-Z 2.0 (DAX +2,83 [95% ДИ 1,28–4,37], Nabla +2,69 [1,14–4,23]); нагрузка врача (DAX −39,9 [−71,9 … −7,9], Nabla −31,7 [−63,8 … +0,4] по шкале 0–400); Professional Fulfillment Index–Work Exhaustion (DAX −0,32 [−0,55 … −0,08], Nabla −0,23 [−0,46 … +0,01] по шкале 0–4). Авторы подчёркивают: это вторичные точки, требующие подтверждения в более крупных многоцентровых испытаниях.

Пилот Stanford (JAMIA 2025). Shah, Devon-Sand, Ma et al., J Am Med Inform Assoc 2025;32:375–380, DOI 10.1093/jamia/ocae295 (PMID 39657021): 3-месячный пилот DAX Copilot у 48 врачей Stanford Health Care (парный анализ n=38) — крупные значимые снижения нагрузки (−24,42, p<0,001) и выгорания (−1,94, p<0,001) и рост удобства использования (+10,9, p<0,001).

Исследование Providence (DAX). Providence (Future Healthcare Journal 2025): среди случайно назначенных пользователей DAX — снижение нагрузки документации в среднем на 2,5 часа в неделю, выгорания на 30,3%, фрустрации от документации на 49,5% и самооценённого времени документации на 51,7%.

3. Точность записей, ошибки и галлюцинации

Валидация инструмента (JMIR 2025). Biro et al., «Accuracy and Safety of AI-Enabled Scribe Technology», J Med Internet Res 2025;27:e64993, DOI 10.2196/64993 (PMID 39869899; PMCID PMC11811668): в 44 черновиках от двух коммерческих ambient-скрайбов — 127 ошибок (в среднем 2,9 на запись, SD 2,7); 70% записей (31/44) содержали хотя бы одну ошибку. Пропуски были самым частым типом и труднее всего ловились врачами, поскольку требуют помнить приём.

Мультиплатформенная оценка безопасности (Mayo Clinic Proceedings: Digital Health 2025). Anderson, Mohan, Dorr, Ratwani, Biro, Gold, «Evaluating the Quality and Safety of Ambient Digital Scribe Platforms Using Simulated Ambulatory Encounters», 2025;3(4):100292, DOI 10.1016/j.mcpdig.2025.100292: пять платформ на 14 симулированных приёмах. Транскрипты (платформы A–D) содержали в среднем 13,9 ошибки, 19,5% которых попадали в запись. Средняя доля ошибочных элементов записи — 26,3% (95% ДИ 17,0%–31,0%). Лишь 35,8% (±11,3%) корректно переданных элементов совпадали между платформами. В среднем 3,0 ошибки на случай имели потенциал умеренного-тяжёлого вреда. Средний балл PDQI-9 — 36±4 (диапазон 9–45) при значимой межплатформенной вариабельности.

ИИ против записей врача (Annals of Internal Medicine 2026). Reddy et al. (Veterans Health Administration / University of Washington), «Rapid Evaluation of Artificial Intelligence Technology Used for Ambient Dictation in Primary Care», Ann Intern Med 2026, DOI 10.7326/ANNALS-25-02772 (PMID 41996184): 11 ИИ-скрайбов, 18 человек-записывающих и 30 «слепых» оценщиков оценивали записи по пяти стандартизованным случаям первички по модифицированной PDQI-9 (макс. 50). Записи врачей были выше записей ИИ по всем 10 доменам и всем пяти случаям. Наибольший разрыв — случай острой боли в пояснице (врач 43,8 [95% ДИ 37,4–50,3] против ИИ 20,3 [15,4–25,2]; разница −23,5). Наибольший дефицит по доменам — «полнота» (−1,23). Редакционная статья (Tierney & Lee) отметила, что PDQI-9 может вознаграждать длинные, «биллинговые» записи, и призвала к лучшим, пациент-центричным рамкам оценки.

Отдельно о галлюцинациях. Работа Frontiers in Artificial Intelligence (2025), сравнившая ambient-записи ИИ с «эталонными» записями врача в 97 приёмах (DOI 10.3389/frai.2025.1691499), нашла галлюцинации в 31% ambient-записей против 20% записей врача (p=0,01); записи ИИ были полнее и лучше организованы, но менее лаконичны и более склонны к галлюцинациям; при этом рецензенты предпочли записи ИИ в 47% против 39%. В РКИ UCLA врачи сообщали о клинически значимых неточностях «иногда» (DAX в среднем 2,7 [95% ДИ 2,4–3,0], Nabla 2,8 [2,6–3,0] по 5-балльной шкале) и о предвзятости «редко»; среди проблем — пропуски (n=12), структурные/форматные (n=11), ошибки местоимений/пола (n=8), неверное приписывание реплик (n=8).

Зависимость от акцента и качества звука. Работа npj Digital Medicine (2026) «Accent related errors in clinical speech transcription and a LLM-based remedy» (DOI 10.1038/s41746-026-02490-z): системы распознавания речи Whisper и WhisperX давали значимо больше ошибок для не-носителей английского, чем для носителей (Whisper сильнее); постобработка через GPT-4o (WhisperX-GPT) во многом восстанавливала потерянную точность. Базовое неравенство хорошо задокументировано: Graham & Roll (2024), JASA Express Letters 4(2):025206, — «родные английские акценты точнее неродных»; статья Whisper (Radford et al., 2022) сообщает средний многоязычный WER примерно втрое выше английского (по ACM Transactions on Accessible Computing, DOI 10.1145/3636513).

Обнадёживающие реальные данные о качестве — с оговоркой. Пилот UC Davis (Sandra L. Taylor et al., «Quality of Clinical Notes Created by Ambient Listening Generative AI», JMIR Medical Informatics 2026;14:e86474, DOI 10.2196/86474, PMID 41996389) оценил 356 из 7 545 черновиков ИИ от 31 врача: 94,7% (337/356) были без значимых ошибок, но 5,3% (19/356) содержали ошибку с риском серьёзного вреда, если её не исправить. Чаще всего — пропуски (18%), галлюцинации (11,5%) и случайные включения (9,3%); врачи оставили ~15% записей вообще без правок, что поднимает вопрос «автоматизационной благодушности». Оценки тяжести субъективны (ставили те же врачи, что писали записи), реального вреда пациентам не измеряли — только потенциал вреда.

4. Клинические исходы и качество решений

Это самая слабая область доказательной базы — фактически пустота. Несколько независимых обзоров заявляют, что доказательств улучшения клинических или пациент-центричных исходов пока нет:

Перспектива npj Digital Medicine (2026), «Barriers and opportunities of scaling ambient AI scribes» (DOI 10.1038/s41746-026-02554-0): исследования фокусировались на эффективности клинициста, благополучии, экономии времени и затратах «без доказательств улучшения клинических или пациент-центричных исходов».
Быстрый обзор JMIR AI (Kanaparthy et al., старший автор R. Andrew Taylor, JMIR AI 2025;4:e76743, DOI 10.2196/76743) просмотрел ~1 450 работ и нашёл лишь 6 с реальной эффективностью, все небольшие (в основном <100 участников), заключив, что база «скудна» и нужны крупные продольные исследования безопасности и исходов, прежде чем ИИ-скрайбы можно «однозначно рекомендовать».
Нарративный обзор (Razaghi et al., Cardiovascular Diagnosis and Therapy, онлайн 19 янв. 2026; PMCID PMC12973079): текущие системы «по-прежнему дают высокую долю пропусков и периодические фактические неточности, способные влиять на клинические решения», доказательства «ограничены малыми когортами и методологической вариабельностью».
Авторы РКИ UCLA прямо заявляют, что их результаты «подчёркивают необходимость будущих долгосрочных исследований… чтобы измерить отдалённые эффекты на качество помощи и безопасность пациента» — то есть клинические исходы в испытании не измерялись.
Задокументированные нежелательные события редки: в РКИ UCLA — одно событие безопасности 1-й степени (лёгкое) («обширное консультирование пациента не было включено в раздел оценки/плана или в инструкции пациенту», по CTCAE v5.0).

Ни одно опубликованное исследование не измеряет смертность, повторные госпитализации, точность диагностики или качество клинических решений. Есть и растущая тревога (policy brief npj Digital Medicine, «Ambient AI scribes and the coding arms race», DOI 10.1038/s41746-025-02272-z), что скрайбы могут подталкивать к более «сложным» биллинговым кодам, повышая затраты, а не улучшая помощь.

5. Удовлетворённость пациентов / зрительный контакт / взаимодействие

Зрительный контакт и присутствие (time-motion). Проспективное сингапурское исследование (JMIR Medical Informatics 2026;e85580) у 9 клиницистов в 169 консультациях: использование скрайба связано со снижением времени документации на консультацию на 15,0% (5,3→4,5 мин; P=0,04) и ростом доли времени зрительного контакта на 10,6% (69,6%→77,1%; P=0,009) без изменения длительности консультации и общего цикла. Из 39 опрошенных пациентов 69,2% (27) согласились, что врач уделял им больше внимания, и никто не выразил дискомфорта. Авторы трактуют это как перераспределение усилий врача в пользу контакта с пациентом, а не ускорение «оборота».

Kaiser/Permanente. 84% врачей сообщили о положительном влиянии на коммуникацию с пациентом, 82% — об улучшении общей удовлетворённости работой; отдельный отчёт Permanente: 81% пациентов сказали, что врач меньше смотрел в экран, 56% отметили положительное влияние на качество визита; все опрошенные пациенты сообщили о положительном-нейтральном влиянии на качество.

Отношение пациентов (UC Davis, JMIR Medical Informatics 2025;13:e77901, DOI 10.2196/77901, PMID 41308194). Предвнедренческий опрос 1 893 респондентов (отклик 20%, из >9 000 разосланных): 48% сочли ИИ-скрайб хорошим решением, 33% нейтральны, 19% имели опасения; 73% чувствовали, что их слышат на текущих визитах, 23% — что врач больше сосредоточен на записи, чем на них. Главные опасения: точность документации (39%), приватность/безопасность (13–15%), сам факт записи (13%). Молодые пациенты (18–30) были скептичнее старших. Авторы подчёркивают предварительное информирование и согласие и предупреждают о низком отклике и нерепрезентативной выборке.

Принятие пациентами в РКИ UCLA. Пациенты были «в целом не против» (оценка 4,4/5); врачи оценили, что ~6–7% пациентов отказались; оба инструмента высоко оценены за вовлечение пациента (DAX 4,2/5, Nabla 3,8/5).

Оговорки

Ограничения дизайна повсеместны. Большинство положительных находок — из опросов, до/после QI-исследований и наблюдательных когорт, уязвимых к самоотбору, энтузиазму ранних пользователей, эффекту Хоторна и систематической ошибке неответа. РКИ всего два (UCLA/Lukac et al. и Afshar et al., оба NEJM AI, дек. 2025), оба одноцентровые, короткие, про благополучие/время, а не исходы пациентов.
Измерения нестандартизованы. Метрики таймстампов EHR (Epic Signal) завышают экономию, исключая редактирование внутри платформы; шкалы качества (PDQI-9) созданы для записей врача и могут не ловить специфичные для ИИ отказы. Оценки экономии сильно расходятся (например, шведская работа: 4,7 самооценённой минуты на запись против лишь 93 секунд объективного редактирования).
Заявления вендоров значимо завышают пользу. Громкие цифры — «до двух часов на врача в день» (Greenway/Nabla, апр. 2024); «снижение времени документации на 50%» и «снижение выгорания на 70%» в маркетинге DAX — взяты из материалов вендоров и самоотобранных кейсов, а не из независимых рецензируемых данных. Даже часть пилотных цифр систем, приведённых PHTI (например, снижение выгорания на 63% в MultiCare; ~40% за шесть недель в MGB), — из коротких внутренних опросов, читать осторожно.
Разрыв в доказательствах по клиническим исходам реален и важен — данные не говорят, делают ли скрайбы пациентов безопаснее, а помощь лучше.
Быстрая смена моделей/версий делает находки быстро устаревающими; LLM-скрайбы недетерминированы и меняются с версиями, усложняя валидацию.
Большая часть данных — из крупных, хорошо обеспеченных академических систем США и англоязычных приёмов; переносимость на другие условия, языки, акценты и небольшие практики не определена.

Карта источников (ключевые исследования, для цитирования)

Lukac PJ et al. NEJM AI 2025;2(12). DOI 10.1056/AIoa2501000. PMID 41497288. (Первое РКИ; UCLA; DAX vs Nabla vs контроль; n=238.)
Olson KD et al. JAMA Netw Open 2025;8(10):e2534976. DOI 10.1001/jamanetworkopen.2025.34976. (Шесть систем, QI; n=263; выгорание 51,9%→38,8%.)
You JG et al. JAMA Netw Open 2025;8(8):e2528056. DOI 10.1001/jamanetworkopen.2025.28056. PMID 40839265. (MGB + Emory; n=1 430; снижение выгорания на 21,2%.)
Rotenstein L et al. JAMA 2026. DOI 10.1001/jama.2026.2253. (Пять центров; −13 мин EHR / −16 мин документации.)
Tierney AA et al. NEJM Catalyst 2025. DOI 10.1056/CAT.25.0040 (и 2024, DOI 10.1056/CAT.23.0404). (Kaiser/Permanente; 7 260 врачей; 15 791 час сэкономлен.)
Shah SJ et al. JAMIA 2025;32:375–380. DOI 10.1093/jamia/ocae295. PMID 39657021. (Пилот Stanford; DAX; n=48.)
Biro J et al. J Med Internet Res 2025;27:e64993. DOI 10.2196/64993. PMID 39869899. (2,9 ошибки/запись; 70% записей.)
Anderson TN et al. Mayo Clin Proc Digit Health 2025;3(4):100292. DOI 10.1016/j.mcpdig.2025.100292. (26,3% ошибок по элементам; 5 платформ.)
Reddy A et al. Ann Intern Med 2026. DOI 10.7326/ANNALS-25-02772. PMID 41996184. (VHA; человек > ИИ по всем доменам PDQI-9.)
Taylor SL et al. JMIR Med Inform 2026;14:e86474. DOI 10.2196/86474. PMID 41996389. (UC Davis; 94,7% без ошибок; 5,3% риск серьёзного вреда.)
Leiserowitz G et al. JMIR Med Inform 2025;13:e77901. DOI 10.2196/77901. PMID 41308194. (UC Davis, отношение пациентов; n=1 893.)
npj Digital Medicine 2026, DOI 10.1038/s41746-026-02554-0 (масштабирование/барьеры); 2026, DOI 10.1038/s41746-026-02490-z (ошибки из-за акцента); 2025, DOI 10.1038/s41746-025-02272-z (гонка кодирования).
Kanaparthy NS et al. JMIR AI 2025;4:e76743. DOI 10.2196/76743. (Быстрый обзор; лишь 6 исследований реальной эффективности.)
Kim E, Liu VX, Singh K. «AI Scribes Are Not Productivity Tools (Yet).» NEJM AI 2025;2(12). DOI 10.1056/AIe2501051.
Peterson Health Technology Institute, отчёт март 2025 (снижение выгорания вероятно; ROI не доказан; ~60 продуктов; внедрение 20–50%).