2014
2015
2016
2017
2018
2019
2020
2022
2023
2024

Dvacátéšesté setkání Pražského informatického semináře

Tomáš Skopal

Podobnostní vyhledávání v nestrukturovaných datech

V dnešní době velkých dat ("Big Data") se stále častěji setkáváme s daty, která pocházejí ze senzorů digitalizujících "signály přírody" a jejichž technická datová struktura slouží pouze k manipulaci a reprodukci. Nejčastěji mezi tato nestrukturovaná data řadíme multimédia (obraz, zvuk), ale senzorová data mohou být daleko rozmanitější.

23. února 2017

16:00

Posluchárna E-107, FEL ČVUT
Karlovo nám. 13, Praha 2
Zobrazit na mapě

Anotace přednášky

V dnešní době velkých dat ("Big Data") se stále častěji setkáváme s daty, která pocházejí ze senzorů digitalizujících "signály přírody" a jejichž technická datová struktura slouží pouze k manipulaci a reprodukci. Nejčastěji mezi tato nestrukturovaná data řadíme multimédia (obraz, zvuk), ale senzorová data mohou být daleko rozmanitější. Pro vyhledávání v nestrukturovaných datech se používají abstraktní podobnostní modely, kde jsou datové entity reprezentovány doménově specifickými deskriptory (např. vysokodimenzionálními vektory, časovými řadami nebo řetězci). Podobnost entit se pak měří jako vzdálenost jejich deskriptorů a celý problém je tak geometrizován jako vyhledávání nejbližších deskriptorů k deskriptoru dotazového objektu.

Geometrie podobnostních prostorů je velmi důležitá pro indexování, tj. pro databázovou techniku urychlující vyhledávání, ale také pro samotné modelování podobnosti a deskriptorů. V přednášce ukážeme, že obvyklé euklidovské vnímání prostoru není zdaleka jedinou možností reprezentace, velmi používaný je obecnější metrický model. Lze dokonce vyrobit unikátní vzdálenostní prostory, jejichž topologické vlastnosti jsou přímo odvozeny z dat. Budeme také diskutovat otázky spojené s modelováním podobnosti, zejména problematiku sémantických deskriptorů vs. chytrých podobností.

Přednášející

Tomáš Skopal

Tomáš Skopal se věnuje výzkumu v oblasti podobnostního vyhledávání a tématům okolo multimediálních databází a information retrieval. Je docentem a vedoucím katedry softwarového inženýrství MFF UK. V roce 2006 založil úspěšnou výzkumnou skupinu SIRet (SImilarity RETrieval), kterou až do současnosti vede. Magisterský diplom získal na Univerzitě Palackého v Olomouci, doktorát na VŠB - Technické univerzitě v Ostravě. Od té doby působí v Praze na Univerzitě Karlově a pracoval také jako hostující profesor a výzkumník na Univerzitě v Kostnici (Německo) a na DCC, University of Chile v Santiagu.

O PRAŽSKÉM INFORMATICKÉM SEMINÁŘI

Seminář se obvykle schází jednou za měsíc ve čtvrtek v 16:15 a to buď v budově FEL ČVUT nebo v budově MFF UK.

Jeho program je tvořen hodinovou přednáškou, po níž následuje časově neomezená diskuse. Základem přednášky je něco (v mezinárodním měřítku) mimořádného nebo aspoň pozoruhodného, na co přednášející přišel a co vysvětlí způsobem srozumitelným a zajímavým i pro širší informatickou obec. Přednášky jsou standardně v angličtině.

Seminář připravuje organizační výbor ve složení Roman Barták (MFF UK), Jaroslav Hlinka (ÚI AV ČR), Michal Chytil, Pavel Kordík (FIT ČVUT), Michal Koucký (MFF UK), Jan Kybic (FEL ČVUT), Michal Pěchouček (FEL ČVUT), Jiří Sgall (MFF UK), Vojtěch Svátek (FIS VŠE), Michal Šorel (ÚTIA AV ČR), Tomáš Werner (FEL ČVUT), Filip Železný (FEL ČVUT)

Idea Pražského informatického semináře vznikla z rozhovorů představitelů několika vědeckých institucí na téma, jak odstranit zbytečnou fragmentaci informatické komunity v ČR.

Podporovatelé

Kontakt

Pražský informatický seminář je z důvodů prevence šíření nákazy novým koronavirem do odvolání pozastaven.