NATURAL LANGUAGE PROCESSING TOOLKIT

Das Natural Language Processing Toolkit (NLTK) ist eine Python-basierte Softwareanwendung, die eine Reihe von Werkzeugen zur Verarbeitung natürlicher Sprache anbietet. Es stellt APIs bereit, mit denen Sie vorgefertigte NLP-Modelle schnell auf Ihren Text anwenden können, einschließlich Textzusammenfassung, Satzähnlichkeit und vielem mehr. Es enthält außerdem eine Demo-Benutzeroberfläche mit Streamlit.

overview

EINFÜHRUNG

mesa-trabajo

Natural Language Processing (NLP) ist ein Bereich der Informatik und der künstlichen Intelligenz, der sich auf die Interaktion zwischen Computern und Menschen in natürlicher Sprache konzentriert. Dabei werden Algorithmen und Modelle entwickelt, die menschliche Sprache analysieren, verstehen und erzeugen können. NLP wird in einer Vielzahl von Anwendungen eingesetzt, darunter Textzusammenfassung, Satzähnlichkeit, Chatbots, Grammatikkorrektur und vieles mehr.

UNSERE ANSÄTZE

Das Produkt Recognize wird mit verschiedenen Bibliotheken für Computer Vision wie OpenCV und TensorFlow implementiert und mit anderen Technologien wie Barcodes kombiniert, um Genauigkeit und Effizienz zu verbessern.
Unsere Ansätze für das Product Recognition-System erfolgen auf zwei Arten (abhängig vom Anwendungsfall und den verfügbaren Ressourcen). Hier die Vorgehensweisen:

product-recognition-approach

ANSÄTZE

Schritt 01:

Textzusammenfassung

Textzusammenfassung ist die Aufgabe, eine kürzere Version eines Dokuments zu erstellen, während dessen wichtige Informationen erhalten bleiben. Einige Modelle können Text aus der ursprünglichen Eingabe extrahieren, während andere völlig neuen Text generieren können.

Unsere Textzusammenfassung mit dem LongT5-Modell wurde auf einem großen Datensatz gepaarter Textzusammenfassungen optimiert. Bei diesem Ansatz wird das LongT5-Modell mit Paaren von Texteingaben und entsprechenden Zusammenfassungen gefüttert und das Modell optimiert, um genaue Zusammenfassungen vorherzusagen.

Das Modell wurde mithilfe von Techniken wie Transferlernen, Curriculum-Lernen und Multitasking-Lernen optimiert, um seine Leistung zu verbessern. Darüber hinaus können Techniken wie Beam-Search und Längennormalisierung angewendet werden, um die Qualität der generierten Zusammenfassungen zu verbessern.

our-approaches

Schritt 02:

Satzähnlichkeit

The Sentence Similarity is first fed with a pair of input sentences, and the final hidden state of the [CLS] token is extracted. The [CLS] token represents the aggregated representation of the two input sentences. Then, a fully connected layer is added on top of the [CLS] token to produce a similarity score between 0 and 1 for the pair of input sentences. The model is then trained on a dataset of sentence pairs with corresponding similarity scores using mean squared error loss or binary cross-entropy loss. Once the model is trained, it can be used to compute the similarity between new pairs of input sentences.

Schritt 03:

Satzähnlichkeit

Named Entity Recognition (NER) ist eine Aufgabe der natürlichen Sprachverarbeitung, die darauf abzielt, Entitäten wie Namen, Orte, Organisationen und Daten aus Text zu identifizieren und zu extrahieren. Spacy ist eine beliebte Python-Bibliothek für NLP, die eine benutzerfreundliche Oberfläche für NER bietet. Der grundlegende Ansatz für NER mit Spacy umfasst die folgenden Schritte:

our-approaches-2

Schritt 04:

Grammatikkorrektur

Grammatikkorrektur verwendet ein Sprachmodell, um basierend auf dem eingegebenen Text grammatisch korrekte Sätze zu generieren. Unser Ansatz verwendet Techniken wie Sequenz-zu-Sequenz-Modelle und Transformer. Das Modell wird auf einem großen Textkorpus trainiert, um die Muster von Grammatik und Syntax zu lernen, und dann verwendet, um synthetische Sätze zu generieren, die diesen Regeln entsprechen. Die Qualität der generierten Sätze hängt von der Komplexität des Modells und der Qualität und Quantität der Trainingsdaten ab.

our-approaches-3

Schritt 05:

Kommentar-Klassifizierung

Die Kommentar-Klassifizierung erkennt, ob Text beleidigende Inhalte wie Drohungen, Beleidigungen, Obszönes, Identitätshass oder sexuell eindeutige Sprache enthält. Unser Ansatz verwendet ein BERT-Modell, das auf einem großen Datensatz ziviler Kommentare trainiert wurde.

ANWENDUNG

Schritt 01

Zugriff auf die NLP Toolkit-Website: https://experiment.saigontechnology.vn/nlp-toolkit/. Alternativ können Sie die Hauptseite des Saigon Technology AI Research Lab hier aufrufen: https://experiment.saigontechnology.vn/, den Bereich „NLP Toolkit“ auswählen und auf die Schaltfläche „Try our demo“ klicken.

usage-1

Schritt 02

Wählen Sie auf der NLP Toolkit-Seite zum Starten bitte die Demo in der Seitenleiste aus.

usage-2

Schritt 03

Schritt 3.1: Geben Sie den Textkorpus in das Textfeld ein oder geben Sie einfach eine Artikel-URL ein. Die Zusammenfassung des Korpus/Artikels wird am unteren Rand der Seite angezeigt.

product-recognition-3

Schritt 3.2: (Satzähnlichkeit) Geben Sie den Referenzsatz und den Zielsatz in der Seitenleiste ein. Klicken Sie auf die Schaltfläche „Absenden“.

usage-3-2

Ergebnis:

usage-3-3

Schritt 3.3: (Named Entity Recognition) Geben Sie den Satz in das Textfeld ein. Drücken Sie „Strg + Enter“, um den Satz zu senden.

usage-3-4

Ergebnis:

usage-3-5

Schritt 3.5: (Kommentar Klassifizierung) Geben Sie Ihren Satz in das Textfeld ein. Drücken Sie „Strg + Enter“, um Ihren Satz zu senden.

usage-3-8

Ergebnis:

usage-3-9

Nächste Fallstudien

Mithilfe von KI-basierten Computer-Vision-Techniken erkennt und kategorisiert das Produkterkennungssystem selbstständig Produkte in Bildern oder Videos.
Music Recommendation System erfreuen sich großer Beliebtheit und ermöglichen es den Nutzern, neue Songs und Künstler auf der Grundlage ihrer Hörgewohnheiten und Vorlieben zu entdecken.

Lass Uns Reden

Beginnen Sie die Konversation mit unseren Analysten und Entwicklern. Zusammen erheben wir die Bedürfnisse und skizzieren die neue Lösung