Textdatei - Text file

Textdatei
Text-txt.svg
Dateinamenerweiterung
.TXT
Internet-Medientyp
Text/einfach
Typschlüssel TEXT
Uniform Type Identifier (UTI) öffentlich.Klartext
UTI-Konformation öffentlicher.text
Formattyp Dokumentdateiformat , Generisches Containerformat

Eine Textdatei (manchmal geschriebene Textdatei ; ein alter alternativer Name ist Flatfile ) ist eine Art der Computerdatei , die als eine Folge von strukturiert ist Linien von elektronischen Text . Eine Textdatei existiert als Daten in einem Computerdateisystem gespeichert . In Betriebssystemen wie CP/M und MS-DOS , bei denen das Betriebssystem die Dateigröße in Bytes nicht verfolgt, wird das Ende einer Textdatei durch das Einfügen eines oder mehrerer Sonderzeichen, bekannt als End-of ., gekennzeichnet -Dateimarkierung , als Auffüllung nach der letzten Zeile in einer Textdatei. Auf modernen Betriebssystemen wie Microsoft Windows und Unix-ähnlichen Systemen enthalten Textdateien keine speziellen EOF-Zeichen, da Dateisysteme auf diesen Betriebssystemen die Dateigröße in Byte verfolgen. Die meisten Textdateien benötigen , um End-of-line - Trennzeichen , die in ein paar verschiedene Arten erfolgen auf Betriebssystem abhängig. Einige Betriebssysteme mit datensatzorientierten Dateisystemen verwenden möglicherweise keine neuen Zeilenbegrenzungen und speichern hauptsächlich Textdateien mit getrennten Zeilen als Datensätze mit fester oder variabler Länge.

"Textdatei" bezieht sich auf einen Containertyp, während sich Klartext auf einen Inhaltstyp bezieht.

Auf einer allgemeinen Beschreibungsebene gibt es zwei Arten von Computerdateien: Textdateien und Binärdateien .

Datenspeicher

Eine stilisierte ikonische Darstellung einer CSV- formatierten Textdatei .

Aufgrund ihrer Einfachheit werden Textdateien häufig zum Speichern von Informationen verwendet. Sie vermeiden einige der Probleme, die bei anderen Dateiformaten auftreten, wie z. B. Endianness , Auffüllen von Bytes oder Unterschiede in der Anzahl von Bytes in einem Maschinenwort . Wenn eine Datenbeschädigung in einer Textdatei auftritt, ist es außerdem oft einfacher, den verbleibenden Inhalt wiederherzustellen und weiterzuverarbeiten. Ein Nachteil von Textdateien ist, dass sie in der Regel eine geringe Entropie aufweisen , was bedeutet, dass die Informationen mehr Speicherplatz belegen als unbedingt notwendig.

Eine einfache Textdatei benötigt möglicherweise keine zusätzlichen Metadaten (außer der Kenntnis ihres Zeichensatzes ), um dem Leser bei der Interpretation zu helfen. Eine Textdatei darf überhaupt keine Daten enthalten, was bei einer Null-Byte-Datei der Fall ist .

Codierung

Der ASCII-Zeichensatz ist der gebräuchlichste kompatible Untersatz von Zeichensätzen für englischsprachige Textdateien und wird im Allgemeinen in vielen Situationen als das Standarddateiformat angesehen. Es deckt amerikanisches Englisch ab, aber für das britische Pfundzeichen , das Eurozeichen oder Zeichen, die außerhalb des Englischen verwendet werden, muss ein umfangreicherer Zeichensatz verwendet werden. In vielen Systemen wird dies basierend auf der standardmäßigen Gebietsschemaeinstellung auf dem Computer ausgewählt, auf dem es gelesen wird. Vor UTF-8 waren dies traditionell Single-Byte-Codierungen (wie ISO-8859-1 bis ISO-8859-16 ) für europäische Sprachen und Wide-Character- Codierungen für asiatische Sprachen.

Da Codierungen notwendigerweise nur ein begrenztes Repertoire an Zeichen haben, das oft sehr klein ist, können viele nur dazu verwendet werden, Text in einer begrenzten Teilmenge menschlicher Sprachen darzustellen. Unicode ist ein Versuch, einen gemeinsamen Standard für die Darstellung aller bekannten Sprachen zu schaffen, und die meisten bekannten Zeichensätze sind Teilmengen des sehr großen Unicode-Zeichensatzes. Obwohl für Unicode mehrere Zeichencodierungen verfügbar sind, ist UTF-8 die gebräuchlichste , die den Vorteil hat, abwärtskompatibel mit ASCII zu sein; dh jede ASCII- Textdatei ist auch eine UTF-8-Textdatei mit identischer Bedeutung. UTF-8 hat auch den Vorteil, dass es leicht automatisch erkannt werden kann . Daher besteht ein üblicher Betriebsmodus von UTF-8-fähiger Software darin, beim Öffnen von Dateien mit unbekannter Codierung zuerst UTF-8 auszuprobieren und dann auf eine länderspezifische Legacy-Codierung zurückzugreifen, wenn es sich definitiv nicht um UTF-8 handelt.

Formate

Auf den meisten Betriebssystemen bezieht sich der Name Textdatei auf ein Dateiformat, das nur reinen Textinhalt mit sehr geringer Formatierung erlaubt (zB keine fetten oder kursiven Schriften). Solche Dateien können auf Textterminals oder in einfachen Texteditoren angezeigt und bearbeitet werden . Textdateien haben normalerweise den MIME- Typ text/plain, normalerweise mit zusätzlichen Informationen, die eine Kodierung angeben.

Microsoft Windows-Textdateien

MS-DOS und Microsoft Windows verwenden ein gemeinsames Textdateiformat, wobei jede Textzeile durch eine Kombination aus zwei Zeichen getrennt wird: Wagenrücklauf (CR) und Zeilenvorschub (LF). Es ist üblich, dass die letzte Textzeile nicht mit einem CR-LF-Marker abgeschlossen wird, und viele Texteditoren (einschließlich Notepad ) fügen keinen automatisch in die letzte Zeile ein.

Auf Microsoft Windows- Betriebssystemen wird eine Datei als Textdatei betrachtet, wenn das Suffix des Dateinamens (die " Dateinamenerweiterung ") lautet .txt. Viele andere Suffixe werden jedoch für Textdateien mit bestimmten Zwecken verwendet. Quellcode für Computerprogramme wird beispielsweise normalerweise in Textdateien gespeichert, die Dateinamensuffixe haben, die die Programmiersprache angeben, in der die Quelle geschrieben ist.

Die meisten Microsoft Windows-Textdateien verwenden die Codierung "ANSI", "OEM", "Unicode" oder "UTF-8". Was die Microsoft Windows-Terminologie "ANSI-Kodierungen" nennt, sind normalerweise Einzelbyte- ISO/IEC 8859- Kodierungen (dh ANSI in den Microsoft Notepad-Menüs ist wirklich "Systemcodeseite", Nicht-Unicode, Legacy-Kodierung), außer in Gebietsschemas wie Chinesisch , Japanisch und Koreanisch, die Doppelbyte-Zeichensätze erfordern. ANSI-Codierungen wurden vor dem Übergang zu Unicode traditionell als Standardsystemgebietsschemas in Microsoft Windows verwendet. Im Gegensatz dazu wurden OEM-Kodierungen, auch als DOS-Codepages bekannt , von IBM für die Verwendung im ursprünglichen IBM PC-Textmodus-Anzeigesystem definiert. Sie enthalten in der Regel grafische und linienzeichnende Zeichen, die in DOS-Anwendungen üblich sind. "Unicode"-codierte Microsoft Windows-Textdateien enthalten Text im UTF-16- Unicode-Transformationsformat. Solche Dateien beginnen normalerweise mit Byte Order Mark ( BOM ), die die Endianness des Dateiinhalts mitteilt . Obwohl UTF-8 nicht unter Endianness-Problemen leidet, stellen viele Microsoft Windows-Programme (zB Notepad) dem Inhalt von UTF-8-kodierten Dateien BOM voran, um die UTF-8-Kodierung von anderen 8-Bit-Kodierungen zu unterscheiden.

Unix-Textdateien

Auf Unix-ähnlichen Betriebssystemen wird das Textdateiformat genau beschrieben: POSIX definiert eine Textdatei als eine Datei, die Zeichen enthält, die in null oder mehr Zeilen organisiert sind, wobei Zeilen Folgen von null oder mehr Nicht-Neuzeilenzeichen plus einem abschließenden Zeilenumbruchzeichen sind, normalerweise LF.

Außerdem definiert POSIX a druckbare Datei als Textdatei, deren Zeichen druckbar sind oder Leerzeichen oder Rückschritt gemäß den regionalen Regeln sind. Davon ausgenommen sind die meisten Steuerzeichen, die nicht druckbar sind.

Apple Macintosh-Textdateien

Vor dem Aufkommen von macOS betrachtete das klassische Mac OS- System den Inhalt einer Datei (den Datenzweig) als Textdatei, wenn sein Ressourcenzweig angab, dass der Dateityp "TEXT" war. Zeilen von Macintosh-Textdateien werden mit CR- Zeichen abgeschlossen.

Als zertifiziertes Unix verwendet macOS das POSIX- Format für Textdateien. Der für Textdateien in macOS verwendete Uniform Type Identifier (UTI) ist "public.plain-text"; zusätzliche, spezifischere UTIs sind: "public.utf8-plain-text" für utf-8-kodierten Text, "public.utf16-external-plain-text" und "public.utf16-plain-text" für utf-16- codierter Text und "com.apple.traditional-mac-plain-text" für klassische Mac OS-Textdateien.

Rendering

Beim Öffnen mit einem Texteditor wird dem Benutzer lesbarer Inhalt präsentiert. Diese besteht oft aus dem für den Benutzer sichtbaren Klartext der Datei. Abhängig von der Anwendung können Steuercodes entweder als wörtliche Anweisungen wiedergegeben werden, auf die der Editor reagiert, oder als sichtbare Escape-Zeichen , die als Klartext bearbeitet werden können. Obwohl in einer Textdatei möglicherweise nur Klartext vorhanden ist, können Steuerzeichen innerhalb der Datei (insbesondere das Zeichen für das Ende der Datei) den Klartext durch eine bestimmte Methode unsichtbar machen.

Siehe auch

Hinweise und Referenzen

Externe Links