Quelques mots sur Universal Dependencies
Les exercices proposés sur ce site piochent dans la base de données Universal Dependencies en ukrainien. Outre les cas, sont consignés entre autres, pour chaque mot: sa classe grammaticale, son genre, son temps pour les verbes, etc. Universal Dependencies est un projet multilingue destiné à entrainé des IA de reconnaissance morpho-syntaxiques. Les corpus d'entrainement sont annontés "à la main" par des humains et contiennent divers types de documents pour avoir un panel représentatif des niveaux de langage. La base de données ukrainienne contient des textes littéraires ukrainiens (Lecia Ukraïnka, Ivan Bagriany par exemple) mais aussi internationaux (G.Orwell), des articles de presse, Wikipedia, mais aussi discussions internet (Instagram, Facebook, Youtube). Les bases de données Universal Dependencies sont utilisées par plusieurs projets d'IA linguistiques comme Stanza ou UD Pipe. Il s'agit d'un matériel open source, d'où son utilisation ici à une fin un peu détournée.
La base de données ukrainienne représente plus de 5500 phrases (5521 pour être précis). Pour des raisons de fluidité des pages d'exercices, j'ai divisé la BDD en 12 sous-parties, chacune étant un échantillon représentatif de l'ensemble du corpus (il n'y a pas une base de données avec les phrases littéraires, une autre avec les discussions internet, tout est "haché" pour être homogène).
Si vous voulez en savoir plus sur le corpus ou sur les contributeurs, vous pouvez vous rendre sur le site du projet.
Ou bien là pour les différents textes.