Natural Language Processing (NLP) ist ein Teilbereich der künstlichen Intelligenz. Hierbei „versteht“ und interpretiert eine Maschine menschliche Sprache.
Unternehmen können durch die Implementierung von NLP menschliche Sprache für die Interaktion mit Computern und Daten nutzen. Zu den Anwendungsbereichen gehören semantische Suchen, Beantwortung von Fragen (QA), konversationelle KI (Chatbots), Textzusammenfassung, Fragengenerierung, Sentiment-Analysen, maschinelle Übersetzung, Text Mining und Spracherkennung – um nur einige Anwendungsfälle zu nennen.
Wie funktioniert NLP technisch?
Automatisierte Textverarbeitung verwendet die Methoden, die dem Computer zur Verfügung stehen. Je nach gewünschter Anwendung gibt es eine Vielzahl verschiedener Tools und Prozesse.
Die Vorbereitung der Texte ist dabei häufig sehr ähnlich:
Im ersten Schritt werden die Sprachdaten bereinigt. Je nach Herkunft der Rohdaten, z.B. von Internetseiten, wird Markup wie HTML-Tags entfernt, sodass am Ende reiner Text vorliegt.
Dieser wird weiter um Satzzeichen, Großbuchstaben und sogenannte Stop-Wörter reduziert. Diese Stop-Wörter (Artikel, Präpositionen, Konjunktionen) haben nur grammatikalische Funktion aber kaum Einfluss auf den Inhalt eines Textes. Sie werden deshalb vor der Weiterverarbeitung entfernt. Der Fokus liegt auf den sinntragenden Wortarten wie Nomen, Adjektiven und Verben. Um diese zu finden, wird im nächsten Schritt die Wortart aller Wörter bestimmt, das sogenannte Part-of-Speech (POS) Tagging.
Danach folgt die Lemmatisierung. Hier werden alle Wörter auf ihre Grundform gebracht. Aus „ging“ wird „gehen“, aus „Bäumen“ wird „Baum“.
All das dient der Komplexitätsreduktion und effektiveren Weiterverarbeitung der Sprachdaten.
Von nun an unterscheiden sich die die weiteren Methoden stark, abhängig vom Anwendungsziel. Für einen häufigen Use Case, die Spam Detection, wird der bearbeitete Text nun mithilfe statistischer Methoden analysiert und mit einem Trainingskorpus verglichen. Signalwörter sind dabei übertriebener Gebrauch von monetären Begriffen, falsch geschriebene Firmennamen oder bedrohliche Sprache. Werden solche Signalwörter entdeckt, wird die E-Mail markiert und landet im Spamordner.
Welche Herausforderungen gibt es?
Die beschriebene Reduktion der Wörter macht die Sprachdaten einfacher und schneller zu verarbeiten, geht aber auf Kosten der Präzision. Wird Negation als Stop-Wort eingestuft und entfernt, kann das den Sinn von Texten verändern und zu Unschärfen führen.
Eine andere Herausforderung ist die Vielfältigkeit und Ambiguität menschlicher Sprache. Metaphern, Ironie, Dialekte, Synonyme, usw. sind für den Menschen ohne Weiteres zu verstehen, für die Maschine hingegen stellen sie ein Problem dar. Die Aufgabe von Programmierer*innen ist es, technische Lösungen für die Unregelmäßigkeiten und Vieldeutigkeit der Sprache zu entwickeln, um brauchbare Anwendungen zu schaffen.
Dabei helfen statistische Verfahren, Deep Learning und Machine Learning Modelle. Die Technologien befähigen den Computer zugrundeliegende Absichten und Meinungen in Texten und menschlicher Sprache tatsächlich zu „verstehen“.
Was ist der Vorteil von NLP für Unternehmen?
Während ein menschlicher Mitarbeiter zirka 250 Wörter (ungefähr eine Din-A4-Seite) pro Minute liest, braucht die Maschine dafür deutlich kürzer – unsere Verarbeitungspipelines benötigen durchschnittlich 10 Millisekunden und sind damit mindestens 6000x schneller. Und das, ohne jemals unkonzentriert oder müde zu werden.
In Unternehmen gibt es eine ständig wachsende Menge an unstrukturierten Daten, z.B. interne Dokumente, Finanzberichte, Forschungsunterlagen, Verträge, Bewerbungsunterlagen, Berichte an Behörden oder Investoren und viele mehr. Ein Großteil der Daten liegt dabei in unstrukturierter Form vor, was herkömmliche Unternehmenssoftware häufig vor große Herausforderungen in der Verarbeitung stellt.
Die NLP-Technologie ist in der Lage, 80% der alltäglich anfallenden Verarbeitungsaufgaben zu rationalisieren und steigert die Effizienz der Datenverarbeitung, Datenanalyse und des Berichtswesens. Eine schnelle und umfangreiche Bearbeitung steigert die Kundenzufriedenheit und senkt die Betriebskosten. Durch den Einsatz der natürlichen Sprachverarbeitung können Unternehmen intelligente Lösungen für gängige Geschäftsprobleme entwickeln.
Natural Language Processing bei Glanos
Bei Glanos verwenden wir NLP in verschiedenen Bereichen. Zum einen haben wir den news-monitor.ai entwickelt. Hier „liest“ eine künstliche Intelligenz rund um die Uhr alle seriösen Presseveröffentlichungen weltweit, extrahiert die wichtigsten Informationen und macht sie für unsere Kund*innen durchsuchbar. Du kannst bestimmten Themen oder Firmen folgen und weißt immer als Erste*r Bescheid.
Auf diesem Prinzip basiert auch unser esg-monitor.ai. Er filtert die Nachrichten nach unternehmerischen Aktivitäten bei den Themen Umwelt, Soziales und Unternehmensführung. Hier kommst du direkt zu unserer news-monitor.ai bzw. zur esg-monitor.ai. Ein anderes Anwendungsgebiet von NLP bei Glanos ist die Anonymisierung sensibler Daten in Dokumenten mit unserer anonymization.ai. Sie liest Dokumente ein und versteht ihren Inhalt. Sensible Daten kann sie schwärzen oder durch sinnerhaltende Platzhalter wie Name1, Name2, Firma1, Land4, usw. ersetzen, wodurch die Lesbarkeit erhalten bleibt. Du kannst die Anonymisierung auch wieder rückgängig machen, falls das nötig ist. Teste es selbst: Hier geht’s zur anonymization.ai.