Исследователи учат искусственный интеллект лучше писать подписи к диаграммам

Подписи к диаграммам, объясняющие сложные тенденции и закономерности, важны для улучшения способности читателя понимать и запоминать представленные данные. Для людей с ограниченными возможностями зрения информация в подписи часто является единственным средством понимания диаграммы.

Но написание эффективных, подробных подписей — трудоемкий процесс. Хотя методы автоматического добавления субтитров могут облегчить это бремя, они часто затрудняют описание когнитивных функций, которые обеспечивают дополнительный контекст.

Чтобы помочь людям создавать высококачественные подписи к диаграммам, исследователи Массачусетского технологического института разработали набор данных для улучшения систем автоматического создания подписей. Используя этот инструмент, исследователи могли бы обучить модель машинного обучения варьировать уровень сложности и тип контента, включаемого в заголовок диаграммы, в зависимости от потребностей пользователей.

Исследователи обнаружили, что модели машинного обучения, обученные для автоматического создания субтитров с их набором данных, последовательно генерировали подписи, которые были точными, семантически насыщенными и описывали тенденции данных и сложные закономерности. Количественный и качественный анализ показал, что их модели создают подписи к диаграммам более эффективно, чем другие системы автоматического создания подписей.

Цель команды состоит в том, чтобы предоставить набор данных под названием VisText в качестве инструмента, который исследователи могли бы использовать при работе над сложной проблемой автоматического создания подписей к диаграммам. Эти автоматические системы могли бы помочь создавать подписи к онлайн-диаграммам без подписей и улучшить доступность для людей с ограниченными возможностями зрения, говорит один из ведущих авторов Энджи Боггуст, аспирантка по электротехнике и информатике Массачусетского технологического института и член группы визуализации в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).

«Мы попытались внедрить множество человеческих ценностей в наш набор данных, чтобы, когда мы и другие исследователи создаем автоматические системы подписи к диаграммам, мы не получали в итоге модели, которые не соответствуют желаниям людей», — говорит она.

К Боггусту присоединились соавтор статьи и аспирант Бенни Дж. Тан и старший автор Арвинд Сатьянараян, доцент кафедры компьютерных наук Массачусетского технологического института, который возглавляет группу визуализации в CSAIL. Исследование будет представлено на ежегодном собрании Ассоциации компьютерной лингвистики.

Анализ, ориентированный на человека

На разработку VisText исследователей вдохновила предыдущая работа в группе визуализации, которая изучала, из чего состоит хорошая подпись к диаграмме. В этом исследовании исследователи обнаружили, что зрячие пользователи и слепые или слабовидящие пользователи со слабым зрением по-разному оценивают сложность семантического содержания подписи.

Группа хотела привнести этот анализ, ориентированный на человека, в исследование автозаписей. Для этого они разработали VisText, набор данных диаграмм и связанных с ними подписей, которые можно было бы использовать для обучения моделей машинного обучения для создания точных, семантически насыщенных, настраиваемых подписей.

Разработка эффективных систем автозапуска — непростая задача. Существующие методы машинного обучения часто пытаются подписывать диаграммы так, как они подписывали бы изображение, но люди и модели интерпретируют естественные изображения иначе, чем то, как мы читаем диаграммы. Другие методы полностью пропускают визуальный контент и подписывают диаграмму, используя лежащую в ее основе таблицу данных. Однако такие таблицы данных часто недоступны после публикации диаграмм.

Учитывая недостатки использования изображений и таблиц данных, VisText также представляет диаграммы в виде графиков сцен. Графики сцен, которые могут быть извлечены из изображения диаграммы, содержат все данные диаграммы, но также включают дополнительный контекст изображения.

«Граф сцены — это лучшее из обоих миров: он содержит почти всю информацию, присутствующую в изображении, и в то же время его легче извлекать из изображений, чем из таблиц данных. Поскольку это также текст, мы можем использовать достижения современных моделей больших языков для создания субтитров», — объясняет Тан.

Они собрали набор данных, содержащий более 12 000 диаграмм, каждая из которых представлена в виде таблицы данных, изображения и графика сцены, а также соответствующие подписи. Каждая диаграмма имеет две отдельные подписи: подпись низкого уровня, которая описывает структуру диаграммы (например, диапазоны ее осей), и подпись более высокого уровня, которая описывает статистику, взаимосвязи в данных и сложные тенденции.

Исследователи сгенерировали подписи низкого уровня с помощью автоматизированной системы и краудсорсировали подписи более высокого уровня от людей-работников.

«Наши подписи были основаны на двух ключевых результатах предыдущих исследований: существующих рекомендациях по доступным описаниям визуальных медиа и концептуальной модели нашей группы для категоризации семантического контента. Это гарантировало, что наши подписи содержали важные элементы диаграмм низкого уровня, такие как оси, шкалы и единицы измерения для читателей с ограниченными возможностями зрения, сохраняя при этом человеческую вариативность в том, как могут быть написаны подписи», — говорит Тан.
Перевод диаграмм

Собрав изображения диаграмм и подписи к ним, исследователи использовали VisText для подготовки пяти моделей машинного обучения для автоматического создания субтитров. Они хотели увидеть, как каждое представление — изображение, таблица данных и график сцены — и их комбинации влияют на качество подписи.

«Вы можете думать о модели субтитров к диаграммам как о модели языкового перевода. Но вместо того, чтобы сказать: переведите этот немецкий текст на английский, мы говорим: переведите этот «язык диаграмм» на английский», — говорит Боггуст.

Их результаты показали, что модели, обученные с помощью графиков сцен, работали так же хорошо или даже лучше, чем модели, обученные с использованием таблиц данных. Поскольку графики сцен легче извлекать из существующих диаграмм, исследователи утверждают, что они могут быть более полезным представлением.

Они также обучали модели с низкоуровневыми и высокоуровневыми подписями отдельно. Этот метод, известный как настройка семантического префикса, позволил им научить модель варьировать сложность содержимого заголовка.

Кроме того, они провели качественную проверку подписей, созданных по их наиболее эффективному методу, и классифицировали шесть типов распространенных ошибок. Например, ошибка направления возникает, если модель говорит, что тренд уменьшается, в то время как на самом деле он увеличивается.

Эта детальная, надежная качественная оценка была важна для понимания того, как модель допускала свои ошибки. Например, при использовании количественных методов ошибка направления может повлечь за собой такое же наказание, как и ошибка повторения, когда модель повторяет одно и то же слово или фразу. Но ошибка направления может ввести пользователя в большее заблуждение, чем ошибка повторения. Качественный анализ помог им разобраться в такого рода тонкостях, говорит Боггуст.

Такого рода ошибки также выявляют ограничения существующих моделей и поднимают этические вопросы, которые исследователи должны учитывать при разработке систем автоматического добавления, добавляет она.

Было показано, что генеративные модели машинного обучения, такие как те, которые используют ChatGPT, вызывают галлюцинации или дают неверную информацию, которая может вводить в заблуждение. Хотя использование этих моделей для автоматического добавления подписей к существующим диаграммам имеет очевидное преимущество, неправильное добавление подписей к диаграммам может привести к распространению дезинформации.

«Возможно, это означает, что мы не просто подписываем все, что попадается на глаза, с помощью искусственного интеллекта. Вместо этого, возможно, мы предоставляем эти системы автоматического создания субтитров в качестве инструментов авторства для редактирования людьми. Важно думать об этих этических последствиях на протяжении всего процесса исследования, а не только в конце, когда у нас есть модель для внедрения», — говорит она.

Боггуст, Тан и их коллеги хотят продолжить оптимизацию моделей, чтобы уменьшить некоторые распространенные ошибки. Они также хотят расширить набор данных VisText, включив в него больше диаграмм и более сложные диаграммы, такие как с наложенными столбцами или несколькими линиями, и они также хотели бы получить представление о том, что эти модели автоматического добавления на самом деле изучают о данных диаграмм.

Category: Новости