Listing 1 - 10 of 15 << page
of 2
>>
Sort by

Dissertation
Comparison of the terminology extraction performance of SDL MultiTerm Extract 2009 and Similis
Authors: --- ---
Year: 2012 Publisher: Gent : s.n.,

Loading...
Export citation

Choose an application

Bookmark

Abstract

Doelstelling: De automatische termextractie-capaciteiten van SDL MultiTerm Extract 2009 en Similis worden met elkaar vergeleken. MultiTerm Extract is een professioneel automatisch termextractieprogramma, Similis is een vrij te verkrijgen vertaaltool met een optie voor termextractie. Er wordt een onderscheid gemaakt tussen bilinguale (beide systemen) en monolinguale termextractie (enkel MultiTerm). Bedoeling van deze studie is te achterhalen welk systeem de beste resultaten geeft. Middelen of methode: Beide systemen worden getest aan de hand van een technisch corpus bestaande uit Apple-handleidingen, respectievelijk van de iMac, iPad2 en iPhone OS. Daarnaast wordt er manueel een gouden standaard gecreëerd voor het Engels en het Nederlands met technische termen uit het corpus. De resultaten van beide systemen worden hiermee vergeleken. Naast substantieven worden er ook werkwoorden en adjectieven in de gouden standaarden opgenomen. Na de termextracties worden de recall en precision voor beide systemen berekend. Resultaten: MultiTerm Extract heeft de hoogste recall en precision van beide systemen voor bilinguale termextractie. De recall voor substantieven en de precision voor substantieven en adjectieven is het hoogst bij MultiTerm. Similis produceert dus meer ‘noise' voor substantieven en adjectieven, maar het heeft wel de hoogste recall voor werkwoorden en adjectieven en de hoogste precision voor werkwoorden. MultiTerm geeft dus meer ‘noise' voor werkwoorden. De monolinguale extractie van MultiTerm heeft de hoogste recall en precision van alle termextracties. Het extraheert met andere woorden meer juiste termen dan de bilinguale extracties.Substantieven worden het meest geëxtraheerd bij bilinguale extractie, gevolgd door adjectieven en werkwoorden. Bij de monolinguale extractie maken substantieven ook het grootste deel van de extracties uit, gevolgd door werkwoorden en adjectieven. De cijfers tonen aan dat beide systemen voornamelijk substantieven extraheren.


Book
Advances in open domain question answering
Authors: ---
ISBN: 9781402047459 Year: 2006 Publisher: Dordrecht : Springer,

Loading...
Export citation

Choose an application

Bookmark

Abstract


Dissertation
Comparison of the performance of two automated term-extracti on systems
Authors: ---
Year: 2009 Publisher: Gent : s.n.,

Loading...
Export citation

Choose an application

Bookmark

Abstract

Doelstelling: De resultaten van twee systemen voor automatische termextractie worden vergeleken, namelijk het systeem van Macken et al en FragmALex, het systeem van Vanallemeersch en Wermuth. Het is de bedoeling om een beeld te krijgen van de performance van de systemen en om te achterhalen welk systeem de beste resultaten behaalt. Middelen of methode: Er wordt een comparatieve studie van de twee systemen voor termextractie gemaakt. De beide systemen worden op een Engels-Nederlands corpus van medische teksten (EPARS) uitgetest. Daarnaast wordt een gouden standaard gecreëerd door de termen manueel uit het corpus te halen met behulp van het programma Callisto. De resultaten van de systemen worden vergeleken met de gouden standaard om zo de algemene kwaliteit van de systemen te kunnen vaststellen. Tevens worden de systemen met elkaar vergeleken om te bepalen welk systeem het beste is, hiervoor worden ook recall en precision berekend. Resultaten: Er is een duidelijk verschil tussen het systeem van Macken et al en FragmALex.De output van het systeem van Macken, Lefever en Hoste leunt dichter aan bij de gouden standaard, zo worden er bijvoorbeeld ook complexe termen uit het corpus gehaald. Toch zou het programma nog wat verbeterd kunnen worden, want er worden ook algemene werkwoorden en nummers geëxtraheerd. De output van FragmALex bevat meer 'noise', dit betekent dat FragmALex termen extraheert/voorstelt die niet tot het medische domein behoren. Het zijn bijgevolg dus ook geen medische termen. Dit wordt ook weergegeven in de lage precision score. Het systeem haalt ook geen complexe termen uit het corpus.


Dissertation
La interpretación simultánea apoyada por el software de reconocimiento del habla Dragon Naturally Speaking: estudio preliminar de la precisión del reconocimiento acústico y de los factores influyentes
Authors: --- ---
Year: 2011 Publisher: Gent : s.n.,

Loading...
Export citation

Choose an application

Bookmark

Abstract

Doelstelling: Dit onderzoek is een voorstudie naar het gebruik van het spraakherkenningsprogramma Dragon Naturally Speaking in een context van simultaan tolken. Het doel van het onderzoek was enerzijds het foutenpercentage na te gaan bij het gebruik van deze software tijdens het simultaan tolken van Spaans naar Nederlands. Anderzijds wilden we nagaan of er een significant verschil was tussen de foutenpercentages van de verschillende condities in de testsituatie. Middelen of methode: Voor het experiment werden 4 tolkstudenten geselecteerd met Spaans in hun combinatie die elk 4 vooraf op video opgenomen speeches tolkten van Spaans naar Nederlands. De studenten werkten elk in één van de vier volgende condities: G/L (de student sprak een glossarium in het systeem in en kon de speeches op voorhand lezen), G/N (de student sprak een glossarium in het systeem in maar kon de speeches niet op voorhand lezen), N/L (de student sprak geen glossarium in maar kon de speeches op voorhand lezen) en N/N (de student sprak geen glossarium in en kon de speeches niet op voorhand lezen). De tolkprestaties van de studenten werden enerzijds digitaal verwerkt door Dragon Naturally Speaking en anderzijds werd een audio-opname gemaakt die daarna manueel getranscribeerd werd. Door vergelijking van elke digitale transcriptie met de corresponderende manuele transcriptie kon voor elke prestatie het foutenpercentage in de digitale transcriptie worden berekend. Hieruit konden we een gemiddeld foutenpercentage afleiden. Door middel van de statistische T-test werd ook nagegaan of er een significant verschil was tussen de foutenpercentages van enerzijds de condities met glossarium tegenover die zonder glossarium en anderzijds de condities met voorafgaande lectuur van de speeches tegenover die zonder. Resultaten: Uit onze berekeningen kwamen twee gemiddelde foutenpercentages naar voren: 26,75% (ongecorrigeerde cijfers) en 20,73% (cijfers gecorrigeerd voor verlies van data). In beide gevallen is het foutenpercentage te hoog om de software te kunnen gebruiken in een context van simultaan tolken. Verder was er geen significant verschil tussen de foutenpercentages van enerzijds de condities met glossarium tegenover die zonder glossarium en anderzijds de condities met voorafgaande lectuur van de speeches tegenover die zonder.


Dissertation
Word sense disambiguation based on parallel corpora: A comparison of the meanings and translations of five ambiguous words found in the Europarl corpus with those found in the dictionary
Authors: --- ---
Year: 2010 Publisher: Gent : s.n.,

Loading...
Export citation

Choose an application

Bookmark

Abstract

Doelstelling: Een van de belangrijkste problemen binnen de taaltechnologie is de automatische desambiguering van woordbetekenissen (Word Sense Disambiguation). Er zijn ruwweg twee manieren te onderscheiden om dit probleem aan te pakken: op basis van een geannoteerd corpus of op basis van parallelle corpora. Aan deze eerste methode zijn echter heel wat nadelen verbonden, onder andere het feit dat het samenstellen van een geannoteerd corpus erg veel tijd kost en er bijgevolg weinig geannoteerde corpora bestaan. Bovendien bestaan deze corpora bijna uitsluitend voor het Engels. Woordenboeken zijn vaak ook moeilijk te integreren in automatische vertaalsystemen omdat ze te specifieke betekenissen bevatten. Deze paper wil aantonen dat word sense disambiguation met behulp van parallelle corpora (in dit geval het Europarl corpus) een goed alternatief is dat deze nadelen niet heeft. Middelen of methode: Word sense disambiguation met behulp van parallelle corpora heeft als uitgangspunt dat de verschillende betekenissen van een woord door verschillende woorden vertaald worden in een andere taal. Daarom werden voor dit onderzoek alle zinnen die vijf vooraf gedefiniëerde Engelse polyseme woorden bevatten en hun vertalingen in het Nederlands, Duits, Frans, Italiaans en Spaans uit het zinsgealigneerd Europarl corpus geselecteerd. Vervolgens werden deze zinnen gealigneerd op woordniveau met behulp van het programma GIZA++ en werden de woordalignaties van de vijf polyseme woorden in kwestie met hun veronderstelde vertalingen manueel nagekeken. Op basis hiervan werd dan een lijst opgesteld van alle unieke vertalingen van deze vijf woorden en werden de woorden met hun vertalingen geclusterd volgens betekenis. Om na te gaan in hoeverre de gevonden betekenissen en vertalingen overeenkomen met die in het woordenboek, werden ze vergeleken met enerzijds een verklarend en anderzijds een vertalend woordenboek. Resultaten: Uit de resultaten blijkt dat de meeste algemene betekenissen en vertalingen in het corpus zijn terug te vinden. Betekenissen en vertalingen die alleen in het woordenboek en dus niet in het corpus staan, zijn vaak erg specifieke betekenissen die niet binnen de context van het corpus vallen of die niet tot de standaardtaal behoren. Betekenissen die alleen in het corpus en dus niet in het woordenboek staan, zijn vaak erg contextspecifieke woorden, in dit geval vaak politieke termen. Uit deze resultaten kunnen we afleiden dat word sense disambiguation met behulp van parallelle corpora wel degelijk een goede optie is, maar dat er zeker rekening gehouden moet worden met de context van het gebruikte corpus.


Book
Nature of translated text : an interdisciplinary methodology for the investigation of the specific properties of translations
Author:
ISBN: 3933218128 Year: 2003 Publisher: Saarbrücken, Germany : German Research Center for Artificial Intelligence, Saarland University,

Loading...
Export citation

Choose an application

Bookmark

Abstract


Dissertation
L'utilisation de textes parallèles pour la désambiguïsation sémantique : une étude contrastive des traductions de mots polysémiques tirées d'Europarl et proposées par des dictionnaires bilingues
Authors: --- ---
Year: 2011 Publisher: Gent : s.n.,

Loading...
Export citation

Choose an application

Bookmark

Abstract

Doelstelling: De taak van word sens desambiguation (WSD) bestaat erin automatisch de juiste betekenis van een ambigu woord toe te kennen in een bepaalde context. Dit gebeurt vaak aan de hand van externe bronnen zoals woordenboeken of betekenisgeannoteerde corpora. Betekenisgeannoteerde corpora zijn echter heel schaars, waardoor men de laatste jaren steeds vaker gebruikt maakt van parallelle corpora. Hierbij gaat men ervan uit dat een polyseem woord verschillende vertalingen heeft en dat deze vertalingen dan ook de verschillende betekenissen van dat woord weergeven. Met dit onderzoek willen wij nagaan of het mogelijk is om een WSD-systeem te creëren op basis van een parallel corpus, namelijk Europarl, zonder beroep te doen op externe bronnen. We zullen dit onderzoeken aan de hand van de vertalingen van vier Nederlandse polyseme substantieven. Middelen of methode: Om na te gaan of het mogelijk is om een WSD-systeem te creëren op basis van een parallel corpus zonder gebruik te maken van externe bronnen, hebben we volgende stappen ondernomen. De eerste stap van ons onderzoek bestond uit het selecteren van vier Nederlandse polyseme substantieven. Wij kozen voor missie, ring, test en zijde. Vervolgens extraheerden we uit het Europarl corpus drie talenparen: Nederlands-Engels, Nederlands-Frans en Nederlands-Duits. Voor ons onderzoek maakten we enkel gebruik van de 1-op-1 gealigneerde zinnen die een van de vier substantieven bevatten. Vervolgens werden de woorden gealigneerd aan de hand van GIZA++ zodat we alle mogelijke vertalingen van het polyseem woord konden opsporen. Deze automatische woordalignatie werd ook nog eens manueel gecontroleerd. Ten slotte hebben we alle vertalingen gecategoriseerd per betekenis en vergeleken met de betekenissen in een vertalend woordenboek. Zo konden we onderzoeken of alle betekenissen van de vier polyseme woorden ook effectief in het corpus voorkwamen. Resultaten: Uit ons onderzoek is gebleken dat Europarl niet alle betekenissen en vertalingen bevat van onze polyseme woorden. Het corpus bestaat namelijk uit parallelle teksten over de debatten van het Europees parlement, die vooral politieke onderwerpen behandelen. Bijgevolg zal het Europarl-corpus zeker nuttig zijn voor het desambiguëren van politieke teksten maar heeft men ook andere corpora nodig voor het desambiguëren van teksten uit andere domeinen. Ons onderzoek heeft ook aangetoond dat vertalende woordenboeken ook niet alle betekenissen en vertalingen van onze doelwoorden bevatten. Bovendien geeft Europarl meestal meer vertalingen voor een bepaalde betekenis dan vertalende woordenboeken. Uit onze resultaten is echter ook gebleken dat ons Nederslands-Engels-Duits-Frans corpus meestal niet in staat is om onze doelwoorden te desambiguëren omdat hun betekenissen in de verschillende talen op dezelfde manier evoluëren. Bijgevolg is het noodzakelijk om extra talenparen toe te voegen. Hieruit kunnen we besluiten dat het Europarl-corpus slechts bruikbaar is voor bepaalde WSD-applicaties zoals voor het maken van automatische vertalingen, maar bijvoorbeeld niet voor information retrieval


Dissertation
A pattern-based approach for abbreviation detection in EPARs A comparative study between English and Dutch
Authors: --- ---
Year: 2011 Publisher: Gent : s.n.,

Loading...
Export citation

Choose an application

Bookmark

Abstract

Doelstelling: De stijging van het aantal wetenschappelijke en (bio)medische teksten gaat hand in hand met een enorme groei van afkortingen en hun definities. Dat heeft een invloed op de leesbaarheid van een tekst, met alle gevolgen van dien. Onderzoekers proberen dat probleem te verhelpen door steeds op zoek te gaan naar nieuwe technieken om afkortingen en hun definities automatisch te detecteren en met elkaar te linken. Middelen of methode: Wij hebben een corpus samengesteld met ongeveer dertig Engelse en Nederlandse EPARs die we geannoteerd hebben met behulp van het softwareprogramma Callisto. Met een “pattern-based approach” hebben we de afkortingen in de EPARs automatisch gedetecteerd en vergeleken met onze eigen annotaties (“the gold standard”). Resultaten: Voor de detectie van de afkortingen in het Engelse deel van het corpus haalden we een F-score van 61.82 procent. De automatische detectie in de Nederlandse EPARs gaf een F-score van 59.09 procent. De resultaten van beide talen zijn gelijklopend, maar behoorlijk laag. Voor de automatische definitie detectie in de Engelse EPARs haalden we een F-score van 68.92 procent, voor de Nederlandse EPARs was dat 60.42 procent. Deze lage scores zijn vooral te wijten aan het feit dat de scores voor de labels "NONE" zo hoog zijn.


Book
The Talking Heads experiment : Origins of words and meanings.
Author:
ISBN: 9783944675428 3944675428 9783944675763 9783944675770 Year: 2015 Publisher: Berlin Language Science Press

Loading...
Export citation

Choose an application

Bookmark

Abstract

The Talking Heads Experiment, conducted in the years 1999-2001, was the first large-scale experiment in which open populations of situated embodied agents created for the first time ever a new shared vocabulary by playing language games about real world scenes in front of them. The agents could teleport to different physical sites in the world through the Internet. Sites, in Antwerp, Brussels, Paris, Tokyo, London, Cambridge and several other locations were linked into the network. Humans could interact with the robotic agents either on site or remotely through the Internet and thus influence the evolving ontologies and languages of the artificial agents. The present book describes in detail the motivation, the cognitive mechanisms used by the agents, the various installations of the Talking Heads, the experimental results that were obtained, and the interaction with humans. It also provides a perspective on what happened in the field after these initial groundbreaking experiments. The book is invaluable reading for anyone interested in the history of agent-based models of language evolution and the future of Artificial Intelligence.

Listing 1 - 10 of 15 << page
of 2
>>
Sort by