Що таке корпус?

Корпус української мови – це електронне зібрання текстів, впорядковане, організоване й оформлене певним чином, призначене для наукового та практичного вивчення української мови.

У корпусі зберігаються тексти, опрацьовані автоматичним лінгвістичним аналізатором. Це означає, що кожній одиниці тексту (морфемі, слову, словосполученню, реченню) приписана певна супровідна інформація: частиномовна належність, граматична форма, синтаксична функція, контекст тощо.

Чим корисний Корпус?

Ви можете здійснювати пошук текстових прикладів у корпусі як за конкретними словами, так і за лінгвістичними характеристиками (наприклад, знайти всі речення з невідмінюваними іменниками або всі словосполучення, що складаються з прикметників та іменників).

Чому в корпусі трапляються помилки?

Тому що корпус створюється та анотується в автоматичному режимі. Відредагувати вручну такий великий обсяг інформації неможливо, але ми працюємо над тим, щоб поліпшувати її якість.

Яку інформацію надає корпус?

Корпус надає інформацію двох типів:

  1. Конкорданси, або ж контексти вживання шуканих одиниць (із вказівкою на джерела). За допомогою конкордансів можна вивчати особливості використання слів у текстах різних стилів, індивідуально-авторські вживання тих чи інших лексем, розвиток нових значень тощо. Конкорданси використовуються також для психолінгвістичних та соціолінгвістичних досліджень (вивчення асоціативних зв’язків між словами), у літературознавчому аналізі (для розкриття авторського бачення певних концептів чи образів, особливостей мовної картини світу певного автора) тощо.
  2. Кількісні характеристики вживання у текстах мовних одиниць. Частотна інформація розкриває закономірності лексичної та статистичної будови текстів, функціонування мови в мовленні, стилістичні особливості, формальні риси одиниць і граматичних категорій.