Простой текст

Простой текст

Те́кстовые данные (также текстовый формат) — это последовательность символов в компьютере, в строгом смысле этого термина соответствующая набора символов кодируется в виде одного байта, а в случае Unicode это могут быть группы по два и более байтов.

Нередко текстовые данные понимаются в более узком смысле — как последовательности символов, имеющие осмысленное содержание, которое может быть прочитано и понято человеком (см.: текст).

Текстовому формату противопоставляются двоичные (бинарные) файлы, в которых информация организована по иным принципам.

Для большей части компьютерного оборудования и программ не важно, являются ли данные текстовыми. Однако многие сетевые протоколы рассчитаны на работу только с текстовыми данными и не могут обрабатывать произвольную последовательность байтов. Также, некоторые программы обрабатывают текстовые и двоичные данные по-разному, а некоторые предназначены для обработки именно текстовых данных. Программы для создания и редактирования текстовых данных называются текстовыми редакторами.

Содержание

Структура

Текстовыми данными как правило называются последовательности из подмножества знаков, включающего только печатные знаки (буквы, цифры, знаки препинания) и некоторые управляющие знаки (пробелы, табуляции, переводы строки). Существуют методы (например, UUENCODE), позволяющие представить в текстовом формате произвольные данные любого формата.

Требование к возможности понимания содержимого человеком вносит дополнительную избыточность в представление данных. К примеру, число 123, для кодирования которого достаточно одного 8-битного байта, в текстовом виде кодируется несколькими цифровыми символами — так, в десятичной системе счисления для этого требуется три знака («123»), в двоичной — семь знаков («1111011»), в шестнадцатеричной — два («7B»).

Разбиение на строки

Выбор кодировки разбиения строк в текстовом редакторе могут разделяться на строки. На некоторых платформах (в основном, в операционных системах семейства Unix) разбиение на строки кодируется одним управляющим знаком с кодом 10 в таблице MS-DOS и Microsoft Windows) — парой управляющих знаков с кодами 13 и 10 (Carriage Return и Line Feed). В Mac OS (но не Mac OS X) разбиение кодируется одним знаком с кодом 13.

Такое разбиение управляющим знаком или знаками продиктовано тем, как работали печатные машинки, через которые осуществлялся ввод в некоторых первых компьютерах — позиция ввода там указывалась положением валика c бумагой, и для поворота валика и перехода к следующей строке требовалось нажатие одной или двух клавиш или рычажков.

Также, знаки разбиения строк использовались для управления механическими принтерами (в качестве которых могли выступать те же печатные машинки, используемые и для ввода) — знак LF вызывал прокрутку рулона с бумагой, а знак CR вызывал возврат печатной каретки (там, где они были) в начало строки. Отсюда и название знаков — англ. Line Feed (перевод строки) и англ. Carriage Return (возврат каретки).

На некоторых платформах разбиение на строки делалось иначе — текст представлялся в виде последовательности записей фиксированной длины, для чего более короткие строки дополнялись нужным количеством пробелов. Это соответствовало представлению данных на перфокартах, которые служили средством ввода и даже хранения данных.

Использование

Текстовый файл, показанный командой cat в окне текстовых данных — «общий знаменатель», независимость от отдельных программ, требующих собственного специального кодирования или форматирования (со своими жертвами и ограничениями) и несовместимых с другими программами. Текстовые файлы (файлы в текстовом формате) могу быть открыты, прочитаны и отредактированы в любых текстовых редакторах, таких как MS-DOS Editor (англ.) (Блокнот (Windows), vi и Unix, Mac OS), TextEdit (англ.) (Mac OS X) и т. п. Другие программы также как правило умеют читать и импортировать текстовые данные. Просмотреть текстовые файлы можно также встроенными командами (type в DOS и Windows) и утилитами (cat в Unix).

Текстовый формат часто используются для представления данных, которые сами не являются чисто текстовыми. В этом случае другие форматы данных «надстраиваются» над простым текстом, для чего их управляющие конструкции выражаются посредством печатных слов и знаков препинания. Это обеспечивает удобство работы с данными на двух уровнях — например, данные XML можно просматривать и редактировать с показом форматирования в режиме Microsoft Word ранних версий) с ними можно работать только в режиме WYSIWYG, к тому же нередко с файлами в таких форматах нельзя работать в других программах (из-за недоступности информации о тонкостях реализации формата) или даже в разных версиях одной и той же программы.

Большинство языков программирования используют текстовый формат для представления исходного кода программ, написанных на этих языках. Помимо прочего, это позволяет применять к исходным кодам разнообразные утилиты для преобразований, оформления, поиска, статистики, анализа и т. п. Ранние интерпретаторы Бейсика сохраняли исходный код в своём собственном нетекстовом формате, но потом от этого отказались из-за очевидных неудобств.

В файлах конфигурации многих программ применяется текстовый формат, даже если там представлены числа и двоичные переключатели (да/нет). Это несколько усложняет программы из-за необходимости преобразования текстовых данных во внутренний формат и обратно, но появляется возможность править конфигурацию «вручную», без использования средств настройки самой программы.

Близкие термины

Термин открытый текст (англ. plaintext — выглядит очень похоже на термин англ. plain text, используемый для обозначения текстовых данных) широко применяется в криптографии и означает любые незашифрованные данные, в том числе и нетекстовые. Термин чистый текст (англ. cleartext) также применяется в криптографии и означает незашифрованные данные, к тому же понятные человеку и незащищённые от «подслушивания» при передаче.


Wikimedia Foundation. 2010.

Игры ⚽ Поможем сделать НИР

Полезное


Смотреть что такое "Простой текст" в других словарях:

  • Простой текст — текст, не содержащий сложных элементов: таблиц, формул, слов и словосочетаний на иностр. языках, сносок, библиогр. описаний, выделений разного рода, внутритекстовых заголовков и т. д …   Издательский словарь-справочник

  • Простой текст — не сложный для набора текст, не содержащий сложных элементов (таблиц, формул, выделений, иностранных терминов, сносок и т. д) …   Реклама и полиграфия

  • простой текст — [Интент] EN paragraph textplain ASCII textplain textplaintextstraight text …   Справочник технического переводчика

  • Простой вексель — – ценная бумага, по которой векселедатель обязуется оплатить векселедержателю безо всяких условий названную в векселе сумму. Обязательными реквизитами простого векселя являются: Наименование «вексель», включенное в самый текст документа и… …   Банковская энциклопедия

  • ПРОСТОЙ ВЕКСЕЛЬ — в соответствии со ст. 144 ГК простой вексель является ценной бумагой. В силу предписаний ст. 75 Закона от 13 декабря 1999 г. Об обращении переводных и простых векселей (далее Закон) простой вексель должен содержать следующие реквизиты: 1)… …   Юридический словарь современного гражданского права

  • Простой вексель — Ценные бумаги Акция Обыкновенная Привилегированная Голосующая Вексель Депозитарная расписка Американская Российская Депозитный сертификат Дорожный чек …   Википедия

  • ТЕКСТ ХУДОЖЕСТВЕННЫЙ — (от лат. textum ткань; соединение) смысловое целое, являющееся организованным единством составляющих его элементов; сообщение, направленное автором (адресантом) читателю, слушателю (адресату). Смысл Т. определяется его отношением к внетекстовой… …   Эстетика: Словарь

  • XML — (англ. eXtensible Markup Language) расширяемый язык разметки Расширение .xml …   Википедия

  • Xml — (англ. eXtensible Markup Language) расширяемый язык разметки Расширение файла: .xml Тип text/xml (устаревший) Разработчик: World Wide Web Consortium Расширение для: Основа для: SVG, XSL …   Википедия

  • Моноширинный шрифт — (внизу) в сравнении с пропорциональным Моноширинный, или непропорциональный шрифт  это шрифт, все знаки (точнее, кегельные площадки знаков) которого имеют одинаковую ширину …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»