Нравится это кому-то или нет, но потребители уже обращаются к искусственному интеллекту за медицинскими советами — всякий раз, когда считают это нужным.
Это радикально меняет доступ к медицинской информации. Однако вместе с новыми возможностями возникает и проблема: такие рекомендации не всегда оказываются надежными. По данным, которые OpenAI опубликовала в январе, более 40 миллионов человек ежедневно задают ChatGPT вопросы, связанные со здоровьем. Примерно каждый четвертый из около 800 миллионов регулярных пользователей сервиса хотя бы раз в неделю отправляет запрос на медицинскую тему.
Дискуссия о том, как именно следует внедрять, регулировать и оценивать искусственный интеллект в клинической практике, часто упускает очевидный факт: прямое использование таких систем потребителями уже стало реальностью. «Слишком часто люди используют это как эксперта, а не как помощника», — сказал в интервью Axios генеральный директор Американской медицинской ассоциации Джон Уайт.
В целом специалисты сходятся в одном: заменять врача искусственным интеллектом пока не стоит. Однако более практичный вопрос заключается в другом — насколько полезным может быть такой инструмент, когда врач недоступен или у человека его попросту нет.
«Мы сделали доступ к медицинской информации и медицинским суждениям в этой стране настолько сложным, а ChatGPT делает его настолько простым», — отметил Ашиш Джа, бывший координатор Белого дома по борьбе с COVID при президенте Байдене и бывший декан Школы общественного здравоохранения Университета Брауна. По его словам, требование, чтобы такие инструменты были столь же точными, как врач, «абсурдно, учитывая, насколько они удобнее».
Риски, тем не менее, очевидны. «Я думаю, есть вероятность, что могут происходить плохие вещи. … Опасно ли это? Я считаю, что нынешний статус-кво тоже опасен», — сказал Боб Вахтер, руководитель кафедры медицины Калифорнийского университета в Сан-Франциско и автор книги «A Giant Leap: How AI is Transforming Healthcare and What That Means for Our Future». «Вопрос в том, что бы вы сделали без этого», — добавил он.
Недавнее исследование, опубликованное в журнале Nature, показало, что ChatGPT примерно в половине случаев недооценивал серьезность медицинских чрезвычайных ситуаций в тесте, проведенном исследователями.
Каран Сингхал, возглавляющая направление медицинского ИИ в компании, заявила, что новейшие модели GPT-5 правильно направляют экстренные случаи почти в 99 процентах ситуаций. В реальном использовании, по ее словам, разговоры о здоровье в ChatGPT обычно состоят из нескольких этапов: модель задает уточняющие вопросы, собирает дополнительный контекст и лишь затем формулирует ответ.
Сейчас внимание приковано к тому, какие новые ограничения и правила на уровне штатов и федеральных властей могут появиться для использования искусственного интеллекта в здравоохранении.
«В Соединенных Штатах мы не регулируем доступность информации», — сказал Дэвид Блюменталь, бывший президент Commonwealth Fund. Однако, по его словам, возможно появление рейтинговых организаций, которые будут оценивать надежность различных чат-ботов для разных задач.
Из разговоров с экспертами вырисовываются несколько выводов.
Во-первых, искусственный интеллект лучше справляется с одними задачами, чем с другими. По словам Уайта, чат-боты могут быть полезны, например, для объяснения результатов анализов или для составления списка вопросов врачу перед приемом.
Но это не означает, что пользователи применяют их именно так. Джа, который считает, что большие языковые модели пока «не готовы к полноценному использованию» в диагностике заболеваний, уверен, что люди все равно будут использовать их, пытаясь понять причины своих симптомов — просто потому, что «они уже делали это с помощью Google, а это намного лучше, чем Google».
В конечном счете, говорит он, «у нас пока нет действительно ясного понимания того, для чего эти инструменты хороши, а для чего — нет».
Во-вторых, результат во многом зависит от исходного запроса, а обычный пользователь далеко не всегда способен сформулировать его правильно.
«То, как именно сформулирован вопрос пациента, может приводить к разным ответам со стороны языковой модели», — говорит Моника Агравал из Университета Дьюка. Если человек предоставляет неполный контекст, делится субъективными впечатлениями или изначально исходит из ошибочного предположения, модель может скорее укрепить это заблуждение, чем скорректировать его — даже в большей степени, чем это сделал бы врач.
В-третьих, проблема может заключаться в самой манере ответов. «Меня беспокоит, что некоторые такие модели говорят с уровнем уверенности, который на самом деле ничем не оправдан», — отмечает Джа.
Кроме того, модели обычно устроены так, чтобы давать пользователю ответы, которые он ожидает услышать, добавляет Агравал. Там, где врач мог бы возразить или усомниться, система не всегда демонстрирует такое поведение.
«Если вы скажете: “У меня болит голова”, я не отвечу: “О, думаю, у вас мигрень”. Я скажу: “Расскажите подробнее”», — объясняет Вахтер. «Инструменты пока не делают этого естественным образом, хотя, думаю, будущие системы для потребителей будут работать именно так».
Наконец, большинство людей, использующих искусственный интеллект, не обладают знаниями, которые позволили бы им распознать ошибку. По словам Вахтера, существует заметный разрыв между профессиональным использованием этих инструментов и тем, как ими пользуются обычные люди.
Для врачей такие системы могут быть чрезвычайно полезны. Однако среднестатистический пациент зачастую не имеет достаточной медицинской подготовки, чтобы понять, когда ответ модели неприменим к его ситуации или просто выглядит сомнительным.
При этом модели постоянно дообучаются — и в целом становятся лучше.