|
|
|
|
|
|
|
|
страницы:
1
2
3
4
5
6
7
8
9
Текущая страница: 1
|
|
Санкт-Петербургский Государственный морской технический университет Факультет морского приборостроения. Кафедра САУ и БВТ
РЕФЕРАТ ПО ДИСЦИПЛИНЕ “ИНФОРМАТИКА” НА ТЕМУ: “Основные способы обработки большого количества текстовой информации”.
Выполнил: студентка гр. 31ВМ1 (3111) Жаркова А.Н.________ Проверил: Д.Т.Н., профессор Жуков Ю.И.________
Санкт - Петербург 2000 г.
АННОТАЦИЯ Реферат составлен на страницах. Содержит 2 рисунка, 3 таблицы и 2 приложения. Ключевые слова: адресация, автокоррекция, сжатие. Целью реферата является разработка и описание трех практических задач современной информатики: адресации элементов баз данных, множества или списка, для определения по первичному ключу местоположения элемента в блоке информации; автокоррекции языковых текстов для обнаружения и исправления ошибок в текстах; сжатии данных, для хранения данных в предельно компактной форме.
СОДЕРЖАНИЕ АННОТАЦИЯ 2 СОДЕРЖАНИЕ 3 Введение 4 ЧАСТЬ 1. МЕТОДЫ АДРЕСАЦИИ 5 ВВЕДЕНИЕ 5 1. Теоретическая часть 5 1.1. Последовательное сканирование списка 5 1. 2. Блочный поиск 5 1.3. Двоичный поиск 5 1.4. Индексно-последовательная организация 6 1.5. Индексно-произвольная организация 6 1.6. Адресация с помощью ключа, эквивалентного адресу 7 1.7. Алгоритм преобразования ключа в адрес 8 Выводы по части 1. 10 ЧАСТЬ 2. АВТОКОРРЕКЦИЯ ТЕКСТА 11 ВВЕДЕНИЕ 11 1. Теоретическая часть 11 1.1. Методы обнаружения ошибок 11 1.2. Автоматизация процесса исправления 11 1.3. Диалоговый и пакетный режимы 12 Выводы по части 2. 13 ЧАСТЬ 3. СЖАТИЕ ИНФОРМАЦИИ 13 ВВЕДЕНИЕ 13 1. Теоретическая часть 13 1.1. Сжатие числовых данных 13 1.2. Сжатие словарей 13 1.3. Сжатие специальных текстов 14 1.4. Сжатие структурированных данных 15 1.5. Сжатие текстовой информации общего вида 15 1.5.1. Адаптивные алгоритмы 16 1.5.2. Статистические алгоритмы. 16 1.5.2.1. Кодирование фрагментов фиксированной длины 16 1.5.2.2. Кодирование фрагментов переменной длины 17 Выводы по части 3. 17 ПРИЛОЖЕНИЕ 1. Методы сжатия данных 18 Метод Шеннона-Фано 18 Метод Хаффмена 18 Заключение. 20 Список литературы 20
Введение Настоящий реферат состоит из трех самостоятельных частей, в которых излагаются три практические задачи современной информатики – адресация элементов данных линейного списка, автокоррекция естественно языковых текстов, сжатие данных. Они призваны, с одной стороны, для ознакомления с некоторыми практическими задачами информатики, а с другой – закрепить навыки прикладного программирования и составления блок-схем. Первая задача нашла свое применение в таких программных продуктах, как системы управления базами данных, операционные системы (организация поисковых операций в системных данных), компиляторы (работа с таблицами идентификаторов) и многих других. Алгоритмы адресации имеют универсальный характер и используются практически во всех задачах, в которых ведется организация и поиск информации в одномерных массивах, независимо от места ее нахождения – основная память или внешняя. Вторая задача носит более частный характер, а изложенные методы используются при проверке орфографии в текстовых и табличных процессорах, издательских системах, а также как средство верификации результатов работы сканера – после распознавания текста для устранения возможных ошибок выполняется его орфографический анализ. Проблема сжатия данных решается в современных архиваторах. Они, как правило, используют комбинацию методов, изложенных в третьей части. Задачи программируются на языке программирования, который изучается в курсе «Алгоритмические языки и программирование», и, тем самым, закрепляют навыки, полученные в этой дисциплине. Кроме этого, требование подготовки блок-схем средствами WinWord позволяет углубить знания, связанные, с одной стороны, с логическим проектированием алгоритма, а с другой – с правилами начертания блок-схем. Запрограммированные и отлаженные задачи должным образом оформляются, что также способствует умению правильно и аккуратно закреплять результат работы на бумажном носителе информации.
ЧАСТЬ 1. МЕТОДЫ АДРЕСАЦИИ ВВЕДЕНИЕ Основную проблему при адресации элементов списков можно сформулировать следующим образом: как по первичному ключу определить местоположение элемента с данным ключом (задача поиска)? Существует несколько различных способов адресации. Они рассматриваются далее. Иногда бывает необходимо объединить несколько полей, чтобы образовать уникальный ключ, называемый в этом случае сцепленным ключом: например, ключ, идентифицирующий студента в институте, является комбинацией номера группы, фамилии, имени и отчества студента (есть случаи, когда в одной группе учатся студенты с одинаковыми фамилиями и именами). Кроме простого и сцепленного, ключ может быть первичным – определять максимум один элемент в списке или вторичным – определять множество (в общем случае не одноэлементное) элементов в списке. Например, фамилия студента в учебной группе, как правило, является первичным ключом, а пол студента – вторичный ключ, поскольку одному значению этого ключа (мужской или женский) соответствует, в общем случае, группа студентов.
Текущая страница: 1
|
|
|
|
|
Предмет: Информатика
|
|
Тема: Основные способы обработки большого количества текстовой информации |
|
Ключевые слова: адресация автокоррекция сжатие двоичный индексно-последовательная, двоичный, сжатие, Программирование и комп-ры, Программирование, количества, текстовой, адресация, автокоррекция, большого, комп-ры, информации, Основные способы обработки большого количества текстовой информации, обработки, способы, Основные, индексно-последовательная |
|
|
|
|
|
|
|
|