Padesátédruhé setkání Pražského informatického semináře

Ondřej Dušek

Robust Data-to-Text Generation with Pretrained Language Models

The task of data-to-text generation amounts to describing structured data in fluent natural language sentences. The state-of-the-art approach in research systems today is finetuning pretrained neural language models (PLMs).

9. února 2023


Posluchárna E-107, FEL ČVUT
Karlovo nám. 13, Praha 2
Zobrazit na mapě

Anotace přednášky

The task of data-to-text generation amounts to describing structured data in fluent natural language sentences. The state-of-the-art approach in research systems today is finetuning pretrained neural language models (PLMs). This often leads to overfitting and hallucinations, i.e. situations where the PLM generates outputs that are not grounded in the input, replicating or amplifying training data noise. Rather than applying a PLM as black box for the whole data-to-text task, we aim at using PLMs for simple subtasks, aiming to achieve broad generalization and minimize hallucination. First, we use a pipeline approach where the PLMs only work as text “editors”, rather than generators, taking advantage of their high output fluency. The data is converted into text in an initial preprocessing step, where we use simple handcrafted templates recounting the individual input facts (i.e. relations between entities).

The PLMs then order the facts and fuse them into fluent sentences. This helps us generate without in-domain training data and achieve good fluency and accuracy. We further examine the capability of PLMs to produce accurate descriptions of individual facts from the data, in order to remove the last handcrafted step. Using a specially collected dataset, we show that PLMs finetuned to describe a variety of relations are very robust in verbalizing novel, unseen relations. The key to PLMs’ usability here is providing clear relation names on the input.


Ondřej Dušek

Ondřej Dušek is an Assistant Professor at Charles University in Prague, focusing on natural language generation (NLG) and dialogue systems. His recent research focuses on end-to-end neural NLG architectures, mostly applied to the data-to-text and dialogue response generation tasks. He is specifically interested in NLG semantic accuracy and semantic grounding, as well as ways of evaluating NLG accuracy. He co-authored more than 90 publications on NLG, dialogue, machine translation or speech synthesis. After obtaining his PhD in Prague, he spent 2 years as a postdoc at Heriot-Watt University in Edinburgh in 2016-2018, where he co-supervised a 2x Amazon Alexa Prize chatbot competition finalist team. He is currently the PI of the NG-NLG (Next-Generation Natural Language Generation) ERC Starting Grant, which aims to constrain neural models and combine them with knowledge graphs and semantic representations in order to produce fluent, accurate and explainable NLG systems.


Seminář se obvykle schází jednou za měsíc ve čtvrtek v 16:15 a to buď v budově FEL ČVUT nebo v budově MFF UK.

Jeho program je tvořen hodinovou přednáškou, po níž následuje časově neomezená diskuse. Základem přednášky je něco (v mezinárodním měřítku) mimořádného nebo aspoň pozoruhodného, na co přednášející přišel a co vysvětlí způsobem srozumitelným a zajímavým i pro širší informatickou obec. Přednášky jsou standardně v angličtině.

Seminář připravuje organizační výbor ve složení Roman Barták (MFF UK), Jaroslav Hlinka (ÚI AV ČR), Michal Chytil, Pavel Kordík (FIT ČVUT), Michal Koucký (MFF UK), Jan Kybic (FEL ČVUT), Michal Pěchouček (FEL ČVUT), Jiří Sgall (MFF UK), Vojtěch Svátek (FIS VŠE), Michal Šorel (ÚTIA AV ČR), Tomáš Werner (FEL ČVUT), Filip Železný (FEL ČVUT)

Idea Pražského informatického semináře vznikla z rozhovorů představitelů několika vědeckých institucí na téma, jak odstranit zbytečnou fragmentaci informatické komunity v ČR.



Pražský informatický seminář je z důvodů prevence šíření nákazy novým koronavirem do odvolání pozastaven.