Masterarbeit: Erkennung von Hybridtexten mit menschlichen und LLM-generierten Anteilen

2 settimane fa


Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

Hintergrund/Motivation:Mit dem Aufkommen leistungsfähiger Sprachmodelle (LLMs) entstehen immer häufiger Texte, die nicht ausschließlich von Menschen verfasst sind, sondern aus einer Mischung von menschlichen und maschinellen Passagen bestehen [1]. Solche sogenannten Hybridtexte stellen neue Herausforderungen dar, etwa bei der Plagiatserkennung, in der akademischen Integrität oder in der journalistischen Qualitätskontrolle [2]. Während es bereits zahlreiche Forschungsarbeiten zur Erkennung von vollständig LLM-generierten Texten gibt, ist die Identifikation von Hybridtexte deutlich schwieriger. Es fehlt an Studien, die systematisch untersuchen, wie zuverlässig Abschnitte innerhalb eines Dokuments einem Menschen oder einem LLM zugeordnet werden können [3].Ziel:Das Ziel dieser Arbeit ist es, Transformer-basierte Verfahren für die Erkennung von Hybridtexten zu entwickeln und zu evaluieren. Konkret sollen Abschnitte in Dokumenten identifiziert werden, die entweder von einem Menschen oder von einem LLM stammen. Dazu werden geeignete Datensätze aufgebaut (z.B. durch künstliche Kombination von Human- und LLM-Texten) und Modelle trainiert, die diese Segmentierungsaufgabe lösen.Ergebnisse:Die Arbeit liefert eine erste systematische Untersuchung zur automatischen Segmentierung von Hybridtexten. Die Ergebnisse sollen zeigen, wie zuverlässig aktuelle Verfahren in der Lage sind, menschliche und LLM-generierte Abschnitte voneinander zu trennen. Damit leistet die Arbeit einen Beitrag zur Entwicklung von Werkzeugen, die im Bildungsbereich, in der Plagiatserkennung und in der Medienanalyse eingesetzt werden können.Hier sorgst Du für VeränderungAufbau eines Datensatzes aus Hybridtexten (Kombination von Human- und LLM-generierten Abschnitten).Implementierung und Training von Transformer-basierten Klassifikations- oder Segmentierungsverfahren.Evaluation der Verfahren anhand verschiedener Textarten (z.B. akademische Texte, journalistische Artikel, Social Media Posts).Vergleich der Performance mit existierenden Methoden zur Textklassifikation.Anfertigung eines Projektberichts in Form einer Masterarbeit.Hiermit bringst Du Dich einGrundkenntnisse im Bereich Machine Learning und Natural Language Processing.Gute Python-Kenntnisse, vorzugsweise erste Erfahrung mit PyTorch oder HuggingFace Transformer.Interesse an der Schnittstelle von KI und Gesellschaft (z.B. Bildung, Medien, Plagiatsprüfung).Motivation, sich eigenständig in aktuelle Forschung zu LLM-Detektion einzuarbeiten.Was wir für Dich bereithaltenSelbstständige ArbeitszeiteinteilungEinblicke in das Schnittfeld von akademischer Forschung und industrieller AnwendungVerwandte Arbeiten:[1] [2] [3] Wir wertschätzen und fördern die Vielfalt der Kompetenzen unserer Mitarbeitenden und begrüßen daher alle Bewerbungen – unabhängig von Alter, Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Weltanschauung, Behinderung sowie sexueller Orientierung und Identität. Schwerbehinderte Menschen werden bei gleicher Eignung bevorzugt eingestellt. Unsere Aufgaben sind vielfältig und anpassbar – für Bewerber*innen mit Behinderung finden wir gemeinsam Lösungen, die ihre Fähigkeiten optimal fördern. Mit ihrer Fokussierung auf zukunftsrelevante Schlüsseltechnologien sowie auf die Verwertung der Ergebnisse in Wirtschaft und Industrie spielt die Fraunhofer-Gesellschaft eine zentrale Rolle im Innovationsprozess. Als Wegweiser und Impulsgeber für innovative Entwicklungen und wissenschaftliche Exzellenz wirkt sie mit an der Gestaltung unserer Gesellschaft und unserer Zukunft. Bereit für Veränderung? Dann bewirb Dich jetzt, und mach einen Unterschied Nach Eingang Deiner Online-Bewerbung erhältst Du eine automatische Empfangsbestätigung. Dann melden wir uns schnellstmöglich und sagen Dir, wie es weitergeht. Fraunhofer-Institut für Sichere Informationstechnologie SIT ​" target="_blank" rel="noopener"> Kennziffer: Bewerbungsfrist:  [Not translated in selected language]



  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Zur Erkennung von erotischem und pornografischen Bildmaterial werden häufig Modelle eingesetzt, welche menschliche Haut, Körperteile oder Szenen erkennen können. Mithilfe von entsprechenden Datensätzen [1] lassen sich Klassifizierungs- und Objekterkennungsmodelle trainieren. Es gibt allerdings auch Bilder, welche offensichtlicht...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Zur Erkennung von erotischem und pornografischen Bildmaterial werden häufig Modelle eingesetzt, welche menschliche Haut, Körperteile oder Szenen erkennen können. Mithilfe von entsprechenden Datensätzen [1] lassen sich Klassifizierungs- und Objekterkennungsmodelle trainieren. Es gibt allerdings auch Bilder, welche offensichtlich...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Gesichtbasierte Altersschätzung ist in vielen Anwendungen zentral, wie z.B. in der Kriminalitätsbekämpfung, Identitätsverifizierung, Jugendschutz und auch im medizinischen Bereich. Systeme zur Altersschätzung zeigen häufig unterschiedliche Performance auf Subgruppen (z.B. bzgl. Alter, Geschlecht, ethnische Zugehörigkeit)....


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Das Fraunhofer-Institut für Sichere Informationstechnologie SIT gehört zu den führenden Forschungs- und Entwicklungseinrichtungen für Cyber-Sicherheit in Deutschland und Europa und ist Teil von ATHENE, dem nationalen Forschungszentrum für angewandte Cybersicherheit. ATHENE ist eine Kooperation der Fraunhofer-Gesellschaft mit der TU Darmstadt, der...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Gesichtbasierte Altersschätzung ist in vielen Anwendungen zentral (z. B. Identitätsprüfung, Jugendschutz, Medizin). Klassische Ansätze (reine Regression oder einfache Klassifikation) haben jedoch klare Grenzen: sie ignorieren Unsicherheit, leiden unter unausgewogenen Daten (long tail, fehlende Altersklassen) und unter der...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Gesichtbasierte Altersschätzung ist in vielen Anwendungen zentral (z. B. Identitätsprüfung, Jugendschutz, Medizin). Klassische Ansätze (reine Regression oder einfache Klassifikation) haben jedoch klare Grenzen: sie ignorieren Unsicherheit, leiden unter unausgewogenen Daten (long tail, fehlende Altersklassen) und unter der...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Autorschaftsverifikation (AV) wird in Bereichen wie Forensik, Plagiatserkennung und Fake-News-Detektion eingesetzt, um den wahren Urheber eines Textes zu identifizieren. Ziel der AV ist es, zu klassifizieren, ob zwei oder mehr Texte von demselben Autor verfasst worden sind (Y) oder nicht (N). Ein großes Problem besteht darin, dass...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation:Autorschaftsverifikation (AV) wird in Bereichen wie Forensik, Plagiatserkennung und Fake-News-Detektion eingesetzt, um den wahren Urheber eines Textes zu identifizieren. Ziel der AV ist es, zu klassifizieren, ob zwei oder mehr Texte von demselben Autor verfasst worden sind (Y) oder nicht (N). Wie in den meisten KI-Feldern heutzutage,...


  • Italia Startseite Fraunhofer-Gesellschaft A tempo pieno

    Hintergrund/Motivation: Backdoor Attacken sind Angriffe auf Neuronale Netze bei denen ein sogenannter Trigger das Entscheidungsverhalten der Netze verändert und dadurch Schwachstellen entstehen. Diese Trigger können in den Trainingsdatensatz eingeschleust werden oder direkt auf die Modellgewichte. Diese nennt man dann vergiftet. Durch Parametereffiziente...


  • Italia KNAPP A tempo pieno

    #yourmissionDu bist Teil eines interdisziplinären Teams und beschäftigst dich mit der Lösung von komplexen Problemstellungen aus dem Intralogistikbereich unter Anwendung von State-of-the-Art Machine Learning Ansätzen.Du legst optische Systeme aus (Kamera, Optik, Beleuchtung) und setzt sie am Testaufbau um.Du testest deine Software in unseren...