CVParser-Dokumente

cvparser-documents-overview

EINFÜHRUNG

intro-1

Die STS Software GmbH ist das führende Softwareentwicklungsunternehmen in der Schweiz. Gegründet im Jahr 2012, verfügen wir über mehr als 350 erstklassige Softwareentwickler und ausgereifte Prozesse. Jeden Monat erhalten wir eine Vielzahl von Lebensläufen potenzieller Mitarbeiter. Das bedeutet, dass wir uns durch einen Berg von Lebensläufen durcharbeiten müssen.

intro-2

Um geeignete Bewerber zu finden, nutzen wir zusätzlich Online-Tools oder andere Quellen wie LinkedIn usw. Das Standardverfahren sieht vor, dass unser Talent Acquisition (TA)-Team jeden Lebenslauf manuell prüft, um die Informationen zu extrahieren, und diese dann an den Tech Lead und den Projektmanager zur Überprüfung und zum Vorstellungsgespräch weiterleitet. Schließlich werden die Daten an die Personalabteilung (HR) weitergeleitet, die den Vertrag erstellt, die persönlichen Daten des Kandidaten in unserem System aktualisiert usw.

intro-3

Die STS Software GmbH verfügt außerdem über ein starkes KI-Team mit viel Erfahrung in der Entwicklung von KI-Softwarelösungen. Unser KI-Team war bereits an vielen ähnlichen Projekten beteiligt und hat Kunden KI-Lösungen zur Verarbeitung großer Datensätze und zur Entwicklung leistungsstarker Systeme angeboten. Daher haben wir diese Technologien genutzt und ein End-to-End-System zur automatischen Verarbeitung von Lebenslaufdaten, das CV Parser-System, entwickelt.

UNSERE ANSÄTZE

Es gibt viele verfügbare Tools, PDF-Reader-Module und Bibliotheken, um die Textebene aus der PDF-Datei zu lesen. Aber diese Ausgaben sind nur Text, der zeilenweise angeordnet ist, und die erhaltenen Informationen sind chaotisch und bedeutungslos. Um die notwendigen Informationen aus einer PDF-Lebenslaufdatei zu extrahieren, müssen wir uns folgenden Problemen stellen:

Die Struktur von Lebenslaufdateien ist sehr unterschiedlich und sie haben kein einheitliches Format.

Es ist schwierig, alle zusammengehörigen Abschnitte zusammenzufassen.

Für Maschinen ist es schwer, die Bedeutung jedes Textes zu verstehen.

Wir brauchen viele Regeln, um diese Textinformationen zu bereinigen, …

Einige moderne KI-Technologien können jedoch mit den oben genannten Problemen umgehen. Deshalb haben wir ein End-to-End-System, CV Parser, entwickelt, das uns dabei helfen kann, automatisch alle relevanten Informationen aus einer PDF-Datei zu extrahieren. Unsere Systemarchitektur wurde in vier Hauptteile unterteilt:

Teil 1: Vorverarbeitung der Eingangsdaten

  • Eingabe: .pdf Lebenslaufdatei
  • Ausgabe: Bereinigte Bildebenen
  • Teil 2: Block-Textregionen erkennen

  • Eingabe: Bild
  • Ausgabe: Positionen von Blocktexten
  • Teil 3: Notwendige Informationen extrahieren

  • Eingabe: Textregion
  • Ausgabe: Text, wichtige Informationen
  • Teil 4:

    {
    Name:...,
    Email:...,
    Telefon:...,
    Arbeit:...,
    Ausbildung:...,
    ...
    }

    ANWENDUNG

    usage-1

    Schritt 01

    Zugriff auf die CV Parser-Website: https://experiment.saigontechnology.vn/cvparser. Alternativ können Sie die Hauptseite des Saigon Technology AI Research Lab hier aufrufen: https://experiment.saigontechnology.vn/, den Bereich CV Parser auswählen und auf die Schaltfläche "Try our demo" klicken.

    usage-2

    Schritt 02

    Klicken Sie auf der CVParser-Seite auf die Schaltfläche "Datei auswählen".

    usage-3

    Schritt 03

    Wählen Sie die .pdf-Lebenslaufdatei aus, die Sie verarbeiten möchten.

    usage-4

    Schritt 04

    Die extrahierten Informationen werden wie folgt ausgegeben: Wie Sie sehen, erfordert der gesamte Prozess erheblichen Aufwand, um die benötigten Informationen aus Lebenslaufdaten zu gewinnen. Dies gilt insbesondere dann, wenn wir eine große Menge an Lebensläufen verarbeiten müssen. Daher planen wir, mithilfe von künstlicher Intelligenz alle erforderlichen Informationen aus Lebenslaufdaten wie Name, Kontaktinformationen, Berufserfahrung, Ausbildung usw. automatisch zu extrahieren. Mit all diesen Informationen können wir die Bewerber kategorisieren, um die besten Kandidaten zu identifizieren, oder uns schnell einen Überblick über den Kandidaten verschaffen.

    Nächste Fallstudien

    Das Natural Language Processing Toolkit (NLTK) ist eine Python-basierte Softwareanwendung, die eine Reihe von Werkzeugen zur Verarbeitung natürlicher Sprache anbietet.
    Mithilfe von KI-basierten Computer-Vision-Techniken erkennt und kategorisiert das Produkterkennungssystem selbstständig Produkte in Bildern oder Videos.

    Lass Uns Reden

    Beginnen Sie die Konversation mit unseren Analysten und Entwicklern. Zusammen erheben wir die Bedürfnisse und skizzieren die neue Lösung