Можно ли искусственно объединять независимые наборы данных для мультимодального обучения (полусинтетического создания данных)?
Краткое содержание
ФОНОВЫЙ ОПИСАНИЕ: Для применения мультимодального машинного обучения (ML) различные данные обычно поступают из одного и того же образца (например, рентген грудной клетки (модальность 1) и биомаркеры рака (модальность 2) относятся к одному и тому же пациенту (пример)). Проблема заключается в том, что мы часто не имеем этого в публичных наборах данных. Вместо этого наборы данных чаще являются независимыми (например, набор рентгенов грудной клетки от одной группы пациентов и набор биомаркеров рака от второй группы пациентов). ВОПРОС: Есть ли какая-либо обоснованность в искусственном создании "сориентированных" наборов данных из таких независимых наборов данных с целью использования мультимодального ML (например, генерировать все возможные пары рентгенов грудной клетки и биомаркеров рака от разных пациентов с раком и генерировать те же самые для разных пациентов без рака)? ЗАМЕЧАНИЕ: Понятно, что этот подход не является каноничным и имеет недостатки, но это не вопрос здесь. Меня больше интересует узнать, может ли это быть вторым лучшим вариантом для исследователей, которые не имеют сориентированных
Полный текст статьи пока не загружен.