Теория кодирования
дистанционно
от 500.00 руб.
Цель занятия: Необходимо решить задачу: нас интересует сжатие и генерация текстов. Для текста длиной n, последовательность символов — это просто вектор (x1; …; n) где каждый xi является символом, т. е. xi = a, b, c, .... Чтобы смоделировать последовательность символов, нам нужно совместное распределение вероятностей для каждого символа в последовательности, а именно p(X1 = x1; X2 = x2 ;... ;Xn =xn). мы будем использовать две разные модели для p, модель IID и модель цепи Маркова. Вопросы 1. Интерпретировать предположение об инвариантности во времени, связанное с цепями Маркова. 2. Как можно переписать цепь Маркова более высокого порядка как цепь Маркова порядка 1? 3. Учитывая распределение вероятностей по символам, как использовать его для генерации фразы? Чтобы построить наши модели IID и цепей Маркова, нам нужен текст. Нашим источником будет набор классических романов, доступных здесь. Мы будем использовать символы в каждом тексте, чтобы узнать вероятности каждой модели. Для обеих моделей сделать: 1. Для разных порядков зависимостей обучите модель и посчитайте энтропию. Что вы наблюдаете при увеличении порядка? Объясните свои наблюдения. 2. Используйте другие романы в качестве тестовых наборов и вычислите кросс-энтропию для каждого из них. Как обращаться с символами (или последовательностями символов)? 3. Для каждого порядка зависимостей сравните кросс-энтропию с энтропией. Объясните и интерпретируйте различия. 4. Выберите порядок зависимостей с наименьшей кросс-энтропией и сгенерируйте несколько предложений. 5. Обучите одну модель для каждого романа и используйте KL для кластеризации романов.
2022-04-10
Откликнуться