\documentstyle[sigerman,12pt]{article} \parskip0.5ex plus0.3ex minus0.2ex \newcommand{\sisisi}{{\it SiSiSi\/}} \newcommand{\lexikon}{{\it LEXIKON\/}} % \newcommand{\sitex}{{\it Si}\/\TeX} % \newcommand{\isitex}{{\it iSi}\/\TeX} \newcommand{\sitex}{S\raisebox{0.5ex}{I}\TeX} \newcommand{\isitex}{\raisebox{-0.5ex}{I}S\raisebox{0.5ex}{I}\TeX} \setcounter{page}{0} \input{transfig} \begin{document} \renewcommand{\thefootnote}{\fnsymbol{footnote}} \title{\protect\isitex\\ Interaktive Silbentrennung f"ur die deutsche Sprache unter \TeX\ 3.14 und 3.141 unter UNIX\footnote[2]{UNIX ist Markenzeichen von AT\&T}} \renewcommand{\thefootnote}{\arabic{footnote}} \author{W. Barth \and H. Steiner \and H. Herbeck} % \onecolumn \thispagestyle{empty} \tableofcontents \maketitle \begin{abstract} Das speziell f"ur deutschsprachige Texte entwickelte \sisisi \begin{center}{\it SICHERE\\ SINNENTSPRECHENDE\\ SILBENTRENNUNG }\end{center} kann jetzt in \TeX\ und \LaTeX\ benutzt werden. Es gibt f"ur UNIX change--files und alle anderen notwendigen Files auf dem anonymous--FTP--server {\tt eiunix.tuwien.ac.at}. Dort findet man auch eine Installationsanleitung, mit der man das System leicht installieren kann. Dadurch wird ein neues System erzeugt, das das neue Verfahren f"ur die Silbentrennung verwendet. Alle anderen \TeX --Funktionen bleiben unver"andert. Es gibt zwei Varianten: Das einfache \sitex\ und das interaktive, voll ausgebaute \isitex. Das einfache \sitex\ kann nach der Installation genauso wie das urspr"ungliche \TeX\ verwendet werden. Es hat aber den Vorteil, da"s es auch bei unerwarteten Wortzusammensetzungen keine falschen Trennstellen erzeugt. Welche zus"atzlichen M"oglichkeiten \isitex\ bietet, ist in diesem Bericht beschrieben. \end{abstract} % \twocolumn \section{Terminologie} \begin{description} \item[{\rm \TeX}] ist Donald E. Knuths Formatierungsprogramm f"ur Texte \cite{KnuthProg}, \cite{KnuthBook}. \item[\LaTeX] ist das von Leslie Lamport entwickelte Makro--Paket zu \TeX , das im deutschsprachigen Raum meist verwendet wird \cite{Lamport}, \cite{Kopka}. Ab sofort gilt \TeX\ synonym f"ur \TeX\ und \LaTeX, und die im folgenden beschriebenen Erweiterungen \sitex\ und \isitex\ k"onnen sowohl auf \TeX\ als auch auf \LaTeX\ angewendet werden. \item[{\rm \sitex}] ist eine Variante von \TeX\ f"ur deutschsprachige Texte, die durch Austausch der "`hyphenation"' durch das von W.~Barth und H.~Nirschl entwickelte Verfahren zur "`sicheren sinnentsprechenden Silbentrennung (\sisisi)"' f"ur die deutsche Sprache \cite{BarthNi}, \cite{BarthNi2} entstanden ist. \item[{\rm \isitex}] ist eine um einige zus"atzliche M"oglichkeiten, insbesondere interaktive Komponenten, erweiterte Form von \sitex. \end{description} \section{SiSiSi} In der deutschen Sprache verwendet man gern lange, zusammengesetzte W"orter, wie z.B.: \begin{quote} Text=verarbeitungs=system oder Silben=trennungs=verfahren. \end{quote} Wenn solche riesigen Gebilde nicht am Ende einer Zeile abgeteilt werden k"onnen, entsteht meist ein sehr unsch"ones Schriftbild. Das Hauptproblem bei der Silbentrennung ist das Finden der Nahtstellen (durch "`="' angezeigt) zwischen den Einzelw"ortern. Die Trennstellen innerhalb der Einzelw"orter lassen sich relativ leicht mit den im Duden \cite{duden} angegebenen Regeln ermitteln. \sisisi\ findet die Zerlegung der W"orter mit Hilfe einer Worttabelle, genauer einer Tabelle aller Wortbestandteile: Vorsilben, St"amme und Endungen. Weniger als 8000 Eintragungen reichen aus, um fast alle deutschen W"orter und die g"angigen Fremdw"orter zu erfassen. Durch die Abst"utzung des Verfahrens auf eine Worttabelle ist es nat"urlich m"oglich, auch mit unvorhersehbaren, ungew"ohnlichen Wortunget"umen fertig zu werden. Dieses Zerspalten zusammengesetzter W"orter mit einer einfachen, "uberschaubaren Methode bringt wesentliche Vorteile gegen"uber dem aus dem Amerikanischen "ubernommenen pattern--Verfahren. \sisisi\ sucht nach allen m"oglichen Zerlegungen eines Wortes. Bei manchen gibt es mehr als eine, wie z.B.: \begin{quote} Bau=mast/Baum=ast oder Stau=becken/Staub=ecken. \end{quote} Wir bezeichnen das als {\bf Mehrdeutigkeit}. St"o"st \sisisi\ auf eine solche Mehrdeutigkeit, so nutzt die einfachere Implementierung \sitex\ die zweifelhafte Trennstelle nicht aus. Dadurch wird sichergestellt, da"s keine falschen Trennungen entstehen. Das interaktive \isitex\ h"alt w"ahrend der Bearbeitung des Dokuments bei jedem solchen mehrdeutigen Wort an, zeigt dem Benutzer alle m"oglichen Zerlegungen und erlaubt ihm, die passende auszuw"ahlen. Falls \sisisi\ f"ur ein Wort keine Zerlegung findet, dann handelt es sich dabei entweder um ein sehr ausgefallenes Wort (z.B.\ Eigennamen oder "ahnliches), das nicht in der Worttabelle enthalten ist, oder das Wort wurde falsch geschrieben. Wir sprechen von einem {\bf unbekannten Wort}. Auch in diesen F"allen wird durch \sitex\ nicht getrennt, die Silbentrennung bleibt sicher. \isitex\ erlaubt aber dem Benutzer, je nachdem welcher Fall vorliegt, das unbekannte Wort zu korrigieren oder in die Worttabelle einzutragen. \sisisi\ unterst"utzt eine sinnentsprechende Trennung, indem es die {\bf Haupt\-trenn\-stellen} an den Nahtstellen zusammengesetzter W"orter gegen"uber den Nebentrennstellen in den Einzelw"ortern bevorzugt. Diese Bevorzugung wird durch Strafpunkte (penalties) gesteuert. Defaultm"a"sig erhalten die Nebentrennstellen einen h"oheren Wert als die Haupttrennstellen. Diese Relation kann aber von einem erfahrenen Benutzer durch den neuen \TeX--Befehl \verb/\nebenhyphenpenalty/ f"ur seine Installation ge"andert werden. Aber das wird f"ur normales Arbeiten kaum notwendig sein. \section{Kurzbeschreibung des Trennverfahrens} Jedes Wort ist eine Folge von einem oder mehreren Einzelw"ortern. Jedes Einzelwort besteht aus beliebig vielen Vorsilben (eventuell auch keinen), gefolgt von genau einem Stamm, abgeschlossen durch beliebig viele Endungen (ersatzweise Fugenzeichen). Eine Worttabelle enth"alt alle diese erw"ahnten Wortbestandteile (Morpheme). Der Algorithmus sucht f"ur jedes Wort, das eventuell getrennt werden soll, systematisch nach allen Zerlegungen, die nach der angegebenen Grammatik m"oglich sind. Dabei erkennt er durch Nachschauen in der Wort\-tabelle, ob ein betrachtetes Teilst"uck des Wortes ein Wortbestandteil im erw"ahnten Sinn ist und gegebenenfalls von welcher Art es ist. Auf diese Weise findet der Algorithmus f"ur jede Zerlegung alle Haupttrennstellen, n"amlich zwischen der letzten Endung eines Teilwortes und der folgenden Vorsilbe, bzw.\ dem folgenden Stamm. Au"serdem erkennt er auch sofort alle Nebentrennstellen hinter den Vorsilben. F"ur den Rest jedes Einzelworts, bestehend aus Stamm und Endungen, mu"s man die Duden--Regeln f"ur die Silbentrennung anwenden. Das sind solche Regeln wie "`In einer Folge von Konsonanten ist vor dem letzten zu trennen"', z.B. tre-ten, F"ul-lungen, k"amp-fen. Diese Regeln sind mit all ihren Ausnahmen, z.B. Sonderbehandlung von st und ck, vollst"andig in \sisisi\ eingearbeitet. Ebenso wird schon bei der Zerlegung in Einzelw"orter die 3--Konsonanten--Regel ber"ucksichtigt. Es gibt W"orter, Fremdw"orter, die nicht nach den Duden--Regeln getrennt werden, z.B. Pro-gramm oder Pan-orama. In diesen F"allen ist in der Worttabelle der Stamm als "`Ausnahme"' deklariert und die m"oglichen Trennstellen sind angegeben. Der Algorithmus ber"ucksichtigt nat"urlich solche Angaben. Eine ausf"uhrliche Beschreibung des Verfahrens findet sich in \cite{BarthNi}. \section{Mehrdeutigkeiten} Nun gibt es im Deutschen das Problem, da"s viele, meist zusammengesetzte, W"orter existieren, die verschieden interpretiert und daher auch auf verschiedene Arten getrennt werden k"onnen. Das ergibt dann, sofern der Algorithmus eine unpassende Trennstelle w"ahlt, sinnentstellende Abtrennungen, die das fl"ussige Lesen erschweren. Einige Beispiele: \begin{quote} Wachs=tube/Wach=stube Bau=mast/Baum=ast Personal=mangel/Person=alm=angel Spiel=ende/spie-lende \end{quote} Alle anderen Trennverfahren, die die Einzelbestandteile von zusammengesetzten W"ortern (die "`Morpheme"') nicht erkennen (also auch die "`pattern--Methode"'), finden diese Mehrdeutigkeiten nicht. \sisisi\ (in \sitex) hingegen nutzt solche unsicheren Trennstellen generell nicht aus. Im Beispiel "`Bettruhe"' wird die angegebene Haupttrennstelle ignoriert. Nur die sichere Nebentrennstelle "`Bettru-he"' kommt in Frage. Hat man aber nur wenige sichere Trennstellen in langen, zusammengesetzten W"ortern, so k"onnen in manchen Zeilen (bei Randausgleich) gro"se L"ucken bzw.\ "`Stauchungen"' entstehen. Das Schriftbild wird unsch"on, h"aufig tritt die \TeX--Warnung "`underfull hbox"' auf. Dieses Problem wird in \isitex\ durch interaktives Eingreifen in den Produktionsvorgang gel"ost. Trifft \isitex\ auf ein mehrdeutiges Wort, so werden dem Benutzer alle m"oglichen Zerlegungen am Bildschirm angezeigt, soda"s er die in seinem Kontext sinngem"a"se ausw"ahlen kann. Diese Wahl mu"s f"ur ein solches mehrdeutiges Wort nur einmal getroffen werden, d.h.\ bei weiteren Vorkommen desselben Wortes in demselben Dokument soll dann immer automatisch diese richtige Trennung gew"ahlt werden. Dieser Forderung liegt die Erfahrung zugrunde, da"s ein mehrdeutiges Wort praktisch nie in demselben Dokument in verschiedenen Bedeutungen vorkommt. Au"serdem sind viele der von \sisisi\ "`erkannten"' Mehrdeutigkeiten im "ublichen Wortschatz nicht gebr"auchlich (siehe das Beispiel: Person=alm=angel). Weiters werden auch f"ur weitere Durchl"aufe (nach erneutem Editieren) die richtigen Trennstellen gemerkt und wieder verwendet. F"ur den Sonderfall, da"s ein mehrdeutiges Wort in mehreren Bedeutungen vorkommt, z.B. "`In der Wachstube liegt eine Wachstube"', gibt es die beiden folgenden M"oglichkeiten: \begin{itemize} \item Man macht "uberhaupt nichts. Dann werden nur die sicheren Trennstellen ausgenutzt. Es entstehen keine Trennfehler, allenfalls wird das Schriftbild etwas unruhig. \item Mit dem \TeX--Befehl \verb/\-/ tr"agt man beim Editieren bei allen (oder auch nur bei einigen ausgew"ahlten) Vorkommen des Wortes alle Trennstellen (oder nur einen Teil davon) ein. \isitex\ nutzt dann diese vorgegebenen Trennstellen aus, sucht aber in jedem Wort, das eine solche Vorgabe enth"alt, nicht nach weiteren Trennstellen. \end{itemize} Aber noch ein Vorfall mu"s beachtet werden. Wie kann der Benutzer, der irrt"umlich f"ur ein mehrdeutiges Wort eine falsche Trennvariante ausgew"ahlt hat, diesen Fehler wieder beseitigen? Bei jedem weiteren Durchlauf l"auft das Programm ohne Halt "uber alle Vorkommen dieses Wortes hinweg, es h"alt ja das Problem dieser Mehrdeutigkeit f"ur gel"ost. Deshalb wurde in \isitex\ am Anfang der Behandlung des Dokuments ein Halt eingef"ugt, bei dem der Benutzer aufgefordert wird, etwaige Fehler aus vorherigen Durchl"aufen wieder zu beseitigen. \section{Unbekannte W"orter} Alle W"orter, f"ur die \sisisi\ keine Zerlegung findet, sind {\bf unbekannte W"orter}. Das sind W"orter, die einen Schreibfehler enthalten, aber auch solche, die richtig geschrieben, dem \sisisi--Algorithmus aber noch unbekannt sind (d.h.\ die noch nicht in der Worttabelle sind). Die einfache L"osung von \sitex\ lautet: Solche Worte werden nicht getrennt. Die Folgen sind die gleichen wie bei mehrdeutigen W"ortern: L"ucken, Stauchungen, "`underfull hbox"' --- und wieder aus einem f"ur den Autor des Dokuments unerkl"arlichen Grund. Aber dennoch k"onnen keine Trennfehler entstehen! Das interaktive \isitex\ bleibt bei jedem unbekannten Wort stehen. Der Benutzer kann jetzt entscheiden, ob es sich um einen Tippfehler oder wirklich um ein unbekanntes Wort, d.h.\ um einen Namen, eine Abk"urzung, ein ausgefallenes Fremdwort oder etwas "Ahnliches handelt. Diese "`neuen W"orter"' sollen nur einmal als unbekannt gemeldet werden, also in den folgenden Produktionsl"aufen desselben Dokuments als bekannt akzeptiert werden. Tippfehler sollen hingegen immer angezeigt werden. Da aber ein Eingriff in das gerade bearbeitete \TeX--File nicht m"oglich ist (d.h.\ ein sofortiges Ausbessern der Tippfehler im Dokument ginge weit "uber den Einflu"sbereich der Silbentrennung hinaus und w"urde weitreichende Eingriffe in \TeX\ erfordern), speichert \isitex\ die vom Benutzer als "`Tippfehler"' bezeichneten W"orter in einem File, das man beim n"achsten Editieren als Ged"achtnisst"utze verwenden kann. Welche neuen M"oglichkeiten \isitex\ bietet, ist zusammenfassend in Abbildung~\ref{bild1} dargestellt. \begin{figure} \input{inst_ber.fg1} \caption{\label{bild1} Die neuen M"oglichkeiten} \end{figure} \section{\protect\isitex\ intern: Die neuen Files} \label{kapitel6} Um die obigen Erweiterungen zu erm"oglichen, werden die entsprechenden Informationen in drei Files gespeichert. "`doku"' steht im Folgenden f"ur den Namen des gerade bearbeiteten Dokuments. \begin{itemize} \item {\bf doku.mem}: Der Benutzer w"ahlt bei mehrdeutigen W"ortern die passende Bedeutung aus. Diese Wahl wird in \verb/doku.mem/ gespeichert. Von jetzt an werden alle Vorkommnisse dieses Wortes entsprechend dieser Festlegung getrennt. Achtung! Kommt ein Wort mit verschiedenen Endungen im Text vor, so wird f"ur jede Variante extra gefragt. (Kommt also in einem Dokument zB. dreimal "`Wachstube"' und f"unfmal "`Wachstuben"' vor, so mu"s der Benutzer je einmal die richtige Trennung f"ur "`Wachstube"' und "`Wachstuben"' angeben.) Ebenso werden alle W"orter, die dem System unbekannt sind und f"ur das Dokument spezielle Fremdw"orter oder Namen darstellen, durch ein Kommando des Benutzers (eventuell mit den eingegebenen Trennstellen) in \verb/doku.mem/ gespeichert. Diese Information wird dann bei allen weiteren \isitex\ Produktionsl"aufen ber"ucksichtigt und entsprechend erweitert (wenn beim weiteren Editieren neue mehrdeutige oder unbekannte W"orter hinzugef"ugt wurden). \item {\bf doku.lex}: Bei mehrdeutigen und insbesondere bei unbekannten W"ortern, kann sich der Benutzer dazu entschlie"sen, da"s sie (zus"atzlich zu der erw"ahnten Eintragung in \verb/doku.mem/) in die Worttabelle von \sisisi\ eingetragen werden sollen. Unbekannte W"orter kommen daher automatisch und mehrdeutige W"orter auf Wunsch in das File \verb/doku.lex/, damit sie leicht mit dem "`\lexikon--System"' am PC in die Worttabelle eingetragen werden k"onnen. So ist es dem Benutzer m"oglich, eine spezielle Worttabelle f"ur seinen pers"onlichen Wortschatz zu schaffen. \item {\bf doku.edt}: Alle als Tippfehler erkannten W"orter werden in das File \verb/doku.edt/ geschrieben. Dieses File unterscheidet sich grunds"atzlich von den beiden obigen. Eintragungen in diesem File werden nicht automatisch f"ur weitere Vorkommen desselben Wortes und auch nicht f"ur weitere Durchl"aufe verwendet. Es ist als "`Merkfile"' des Benutzers f"ur das n"achste Editieren gedacht. Er kann es daher anschauen, ausdrucken, editieren und l"oschen. Weiters wird dieses File bei jedem Durchlauf neu angelegt. Das ist sinnvoll, weil Tippfehler ja nicht hingenommen werden sollen (weder von \isitex\ noch vom Benutzer). Es werden also immer alle Tippfehler gemeldet. Das wiederholte Aufmerksammachen ist durchaus beabsichtigt. \end{itemize} Die Files \verb/doku.mem/ und \verb/doku.lex/ d"urfen nicht vom Benutzer ver"andert werden, weil sie vom System wieder verwendet werden. \verb/doku.edt/ darf ge"andert oder zerst"ort werden. \section{Wie erzeugt man ein druckfertiges Manuskript mit \protect\isitex ?} Beim \underline{ersten Editieren} bereitet man das Manuskript genauso wie f"ur "`normales"' \TeX\ auf. Die Befehle f"ur die Fonts, die Formate, usw.\ f"ugt man in den Text ein. Beim \underline{ersten Durchlauf} durch das \isitex--System beantwortet man die Fragen des Systems bez"uglich mehrdeutiger und unbekannter W"orter sinnvoll. Es entstehen die Files \verb/doku.mem/, \verb/doku.lex/ und \verb/doku.edt/ (siehe Abbildung \ref{bild2}). Im allgemeinen wird man auch das entstandene \underline{File drucken}, um weitere Hinweise f"ur Korrekturen im Manuskript zu erhalten. In diesem Ausdruck sind schon alle Trennstellen ber"ucksichtigt, die man ---~wie in Kapitel~\ref{kapitel6} beschrieben~--- an das File \verb/doku.mem/ gemeldet hat. Jetzt kann man die \underline{Worttabelle} mit dem System \lexikon\ erweitern. Man wird (siehe Kapitel~\ref{kapitel10}) alle speziellen W"orter dieses Dokuments, bzw.\ des Fachvokabulars eintragen. \lexikon\ benutzt dabei das File \verb/doku.lex/. Danach erfolgt das \underline{n"achste Editieren}. Mit den Hinweisen aus dem File \verb/doku.edt/ und den Erkenntnissen vom Korrekturlesen wird man insbesondere alle Tippfehler korrigieren, aber auch andere Korrekturen im Manuskript vornehmen. Beim folgenden \underline{n"achsten Durchlauf} bleibt das System nicht mehr bei allen mehrdeutigen und unbekannten W"ortern, die in einem fr"uheren Durchlauf in \verb/doku.mem/ eingetragen wurden, stehen. Am Anfang dieses Durchlaufs gibt es jedoch Gelegenheit, fr"uhere falsche Festlegungen zu l"oschen. Neue mehrdeutige oder unbekannte W"orter (auch alte Tippfehler) werden wie im ersten Durchgang behandelt. Diese Vorg"ange werden solange wiederholt, bis die Qualit"at des gedruckten Manuskripts den Anspr"uchen gen"ugt. Die Wege, die die Daten nehmen, sind in Abbildung~\ref{bild2} zusammenfassend dargestellt. \begin{figure} \input{inst_ber.fg2} \caption{\label{bild2} Die Wege der Daten} \end{figure} \section{"`xxx"' ist ein mehrdeutiges Wort! --- was tun?} Wenn \isitex\ ein mehrdeutiges Wort findet, dann sieht das folgenderma"sen aus (am Beispiel des Wortes "`Wachstube"'): \begin{verbatim} `wachstube' ist ein mehrdeutiges Wort! 0: nur die sicheren Trennstellen waehlen (`wachstu-be') 1: `wach=stu-be' 2: `wachs=tu-be' 9: Tippfehler! - merken im File `doku.edt' Bitte waehlen Sie eine Bedeutung z.B. `0'+`Enter' aus: (zusaetzlich E z.B. `0E'+`Enter': Wort auch fuer LEXIKON vormerken) \end{verbatim} Nun mu"s man eine Ziffer gefolgt von "`Enter"' eingeben. Ist z.B. die Bedeutung "`Wach=stube"' die gemeinte, so gibt man "`1"'+"`Enter"' ein. Ab jetzt wird das Wort "`Wachstube"' im ganzen Dokument und auch in k"unftigen Durchl"aufen entsprechend getrennt. Tritt der "uberaus seltene Fall auf, da"s ein Wort tats"achlich in mehreren Bedeutungen in ein und demselben Dokument vorkommt, so kann man sich durch "`0"'+"`Enter"' auf die sicheren Trennstellen beschr"anken. Will man das Wort sp"ater auch in die Worttabelle eintragen, so gibt man zus"atzlich noch ein "`E"' an (also zB. "`1E"'+"`Enter"' statt "`1"'+"`Enter"'). Dadurch wird das Wort zus"atzlich in das File \verb/doku.lex/ eingetragen, das die Arbeit mit dem Lexikon--System erleichtert. Gibt man "`9"'+"`Enter"' ein, so wird das Wort nur (!) ins File \verb/doku.edt/ geschrieben und kann dann beim Editieren von \verb/doku.tex/ gesucht und ausgebessert werden. \newpage \section{"`xxx"' ist ein unbekanntes Wort! --- was tun?} Wenn \isitex\ ein unbekanntes Wort findet, dann sieht das folgenderma"sen aus (am Beispiel des Wortes "`Acetylsalicyls"aure"'): \begin{verbatim} `acetylsalicyls"aure' ist ein unbekanntes Wort! 0: neues Wort, merken in `doku.lex' 1: neues Wort, Trennstellen angeben und merken in `doku.lex' 9: Tippfehler! - merken im File `doku.edt' Bitte waehlen Sie eine Bedeutung (0,1,9) aus: \end{verbatim} Nun mu"s man eine Ziffer gefolgt von "`Enter"' eingeben. Ist das Wort beispielsweise ein kurzes Fremdwort, so gibt man "`0"'+"`Enter"' ein. Ab jetzt ist das Wort bekannt; es wird jedoch nicht getrennt. Es wird in den Files \verb/doku.mem/ und auch \verb/doku.lex/ gespeichert, um es nachher eventuell mit dem \lexikon--System leicht in die Worttabelle eintragen zu k"onnen. Handelt es sich bei dem unbekannten Wort aber um ein langes (zusammengesetztes) fremdes Wort, so ist es --- aus den oben genannten Gr"unden --- sinnvoll, Trennstellen vorzugeben. Zu diesem Zweck tippt man "`1"'+"`Enter"'. Daraufhin erscheint dann folgende Eingabeaufforderung: \begin{verbatim} Bitte den Trennvektor angeben (`-' Nebentrennstelle, `=' Haupttrennstelle, `.' Weiterruecken, Trennstrich unter dem Buchstaben angeben, hinter dem getrennt werden soll): acetylsalicyls"aure \end{verbatim} Nun kann man direkt unter dem Wort die Trennstellen angeben: \begin{verbatim} acetylsalicyls"aure ..-..=.-.-..=...- \end{verbatim} Nachdem man "`Enter"' gedr"uckt hat, ist "`acetylsalicyls"aure"' bekannt und wird gegebenenfalls "`ace-tyl=sa-li-cyl=s"au-re"' getrennt. Als dritte Wahlm"oglichkeit hat man noch "`9"'+"`Enter"'. Dann wird das Wort ins File "`doku.edt"' geschrieben und kann dann beim Editieren von "`doku.tex"' gesucht und ausgebessert werden. \section{"Anderung der Worttabelle} \label{kapitel10} Es ist zu empfehlen, spezielle W"orter des benutzereigenen Vokabulars auch wirklich in die Worttabelle einzutragen. \sisisi\ kennt n"amlich nach dem Eintragen eines solchen neuen Wortes auch alle Abwandlungen dieses Wortes, die durch Voransetzen von Vorsilben oder auch Anf"ugen von Endungen entstehen, sowie alle seine Kombinationen mit anderen W"ortern. Nat"urlich erkennt \sisisi\ diese W"orter dann alle richtig und trennt sie bei Bedarf korrekt. Beispielsweise sind keine Tiernamen in der normalen Worttabelle. Tr"agt der Benutzer, der ein Tierbuch schreibt, \underline{Fuchs} als Stamm in die Tabelle ein, dann behandelt \sisisi\ auch Fuchses, Silberfuchs, Fuchsschwanz und "`es fuchst mich"' korrekt wie jedes andere Wort. Allerdings m"ussen F"uchse wegen der Wandlung des u in ein "u gesondert eingetragen werden. Man sollte nur neue Wortst"amme eintragen. Bei Fremdw"ortern mu"s man jedoch darauf achten, ob eine Ausnahme zu den Duden--Regeln vorliegt. Dazu mu"s man sich naturgem"a"s mit dieser Problematik befassen, z.B. \cite{BarthNi}, \cite{BarthNi2} und \cite{duden}. Ausnahmen sind z.B. Pro-gramm, Kata-strophe, Pin-up-girl, Pan-ora-ma. Man mu"s recht sorgf"altig arbeiten. Man kann folgende Morphem-Arten in die Worttabelle eintragen:\\ \noindent \begin{tabular}{|r|p{4.8cm}|c|p{5.5cm}|}\hline & Art & Kurzbezeichnung & Erkl"arung\\ \hline 1 & Stamm & s & normaler Stamm, wird nach Duden--Regeln getrennt\\ \hline 2 & Stamm, nicht geeignet f"ur Wortzusammensetzungen & st & Wie 1, jedoch kann dieser Stamm nicht mit anderen zu einem zusammengesetzten Wort verkn"upft werden\\ \hline 3 & Ausnahme & a {\it i j}~~oder~~a {\it i} & Es wird abweichend von den Dudenregeln nach dem {\it i}-ten und {\it j}-ten Buchstaben getrennt (und nur dort)\\ \hline 4 & Ausnahme mit Ende--Mar\-kie\-rung & au {\it i k}~~oder~~au {\it k} & Wie 3, jedoch definiert {\it k} keine Trennstelle, nach dem {\it k}-ten Buchstaben setzen die Duden-Regeln wieder ein\\ \hline \end{tabular} \begin{tabular}{|r|p{4.8cm}|c|p{5.5cm}|}\hline & Art & Kurzbezeichnung & Erkl"arung\\ \hline 5 & Vorsilbe & v & Nach der Vorsilbe wird ge\-trennt\\ \hline 6 & Endung & e & Die Endung(en) wird mit dem Stamm zusammen den Duden--Regeln unterworfen\\ \hline \end{tabular}\\ Die "Anderung der Worttabelle kann man auf eine der folgenden Arten durchf"uhren: \begin{itemize} \item[a)] \underline{mit dem mitgelieferten Lexikon-System auf einem PC}\\ Auf dem PC unterst"utzt Sie ein Dialogsystem beim Einf"ugen der neuen W"orter. Sie brauchen sich um Einzelheiten der Kodierung nicht zu k"ummern. Au"serdem zeigt Ihnen das System in jedem Fall zur Kontrolle an, wie \sisisi\ von nun an die fraglichen W"orter trennen wird. Nach der "Anderung m"ussen Sie die Worttabelle worttab.htx mit dem htx2tex--Programm in die unter UNIX "ubliche Kodierung (4 f"ur "a, \dots, 1 f"ur "s) umwandeln. Sie erhalten dadurch das neue File sihyphen.tex. \item[b)] \underline{durch Editieren des Files sihyphen.tex}\\ Sie k"onnen unmittelbar Eintragungen in der Art vornehmen, wie sie in obiger Tabelle beschrieben sind. Sie m"ussen dann allerdings die (benutzerfreundliche ?) Kodierung von UNIX beachten und erhalten auch keine explizite Angabe dar"uber, wie \sisisi\ die neuen W"orter sp"ater trennen wird. \end{itemize} Nach Abschlu"s dieser "Anderungsarbeiten ist in beiden F"allen a) und b) \sitex\ bzw. \isitex\ mit initex neu zu initialisieren, so wie das in der Installationsanleitung von \sitex\ bzw. \isitex\ f"ur UNIX beschrieben ist. \newpage \begin{thebibliography}{[8]} \bibitem{KnuthProg} Knuth, Donald E.: \TeX: The Program, Addison Wesley, Computers and Typesetting, Vol.\ B \bibitem{KnuthBook} Knuth, Donald E.: The \TeX book, Addison Wesley \bibitem{Lamport} Lamport, Leslie: \LaTeX. A document preparation system, Addison Wesley \bibitem{Kopka} Kopka, Helmut: \LaTeX: eine Einf"uhrung, Addison Wesley \bibitem{BarthNi} Barth W., Nirschl H.: Implementierung eines Verfahrens f"ur die Silbentrennung, TU~Wien, Institut f"ur Praktische Informatik, Bericht Nr.~26, 1985 \bibitem{BarthNi2} Barth W., Nirschl H.: Sichere sinnentsprechende Silbentrennung f"ur die deutsche Sprache. Angewandte Informatik~4, S.~152--159 (1985) \bibitem{Dante} Barth W., Steiner H.: Deutsche Silbentrennung f"ur \TeX\ 3.1, DANTE, Die \TeX nische Kom"odie, Heft 1/1992 \bibitem{FTP} \sisisi\ f"ur \TeX, Installationsanleitung, "uber anonymes FTP am server \verb/eiunix.tuwien.ac.at/. \bibitem{duden} DUDEN, Rechtschreibung der deutschen Sprache und der Fremdw"orter. 19.~ Auflage, Bibliographisches Institut, Mannheim/Wien/Z"urich (1986) \end{thebibliography} \end{document}