Можно ли искусственно объединять независимые наборы данных для мультимодального обучения (полусинтетического создания данных)?

2022-11-22 03:53:11

Краткое содержание

ФОНОВЫЙ ОПИСАНИЕ: Для применения мультимодального машинного обучения (ML) различные данные обычно поступают из одного и того же образца (например, рентген грудной клетки (модальность 1) и биомаркеры рака (модальность 2) относятся к одному и тому же пациенту (пример)). Проблема заключается в том, что мы часто не имеем этого в публичных наборах данных. Вместо этого наборы данных чаще являются независимыми (например, набор рентгенов грудной клетки от одной группы пациентов и набор биомаркеров рака от второй группы пациентов). ВОПРОС: Есть ли какая-либо обоснованность в искусственном создании "сориентированных" наборов данных из таких независимых наборов данных с целью использования мультимодального ML (например, генерировать все возможные пары рентгенов грудной клетки и биомаркеров рака от разных пациентов с раком и генерировать те же самые для разных пациентов без рака)? ЗАМЕЧАНИЕ: Понятно, что этот подход не является каноничным и имеет недостатки, но это не вопрос здесь. Меня больше интересует узнать, может ли это быть вторым лучшим вариантом для исследователей, которые не имеют сориентированных

Полный текст статьи пока не загружен.

Читать оригинал статьи