🚀 Великий ШІ-лінгвістичний детектив: студенти 4 курсу ІКС завершили фахову практику! 📊🧠

Цього року наша фахова практика перетворилася на масштабний міжлінгвістичний хакатон! До створення та розмітки великих мовних корпусів офіційно доєдналися студенти УКУ (вже не вперше) та ІФНМУ (вперше!) завдяки неймовірним координаторам Оксані Таран і Галині Юрчак. ✨🤝

Наші студенти проявили максимум професіоналізму та встигли зробити колосальний обсяг роботи для розвитку українського NLP:

1️⃣ Повна метарозмітка близько 4000 текстів для ГРАКу (Генерального корпусу української мови). Тексти було завантажено з інтернет-бібліотеки лише з автором і назвою. Тепер вони мають усі необхідні атрибути: дату, стиль, мову оригіналу та перекладача. Детективний азарт був великий! Студенти шукали дані у Вікіпедії, каталогах, архівах та статтях. Навіть написали одному сучасному автору, щоб уточнити дату твору (він, на жаль, не відповів, але спроба була потужною! 😎).

2️⃣ Оцифрування та розмітка 54 газет кінця 80-х – початку 90-х років. Загальний обсяг тексту склав 6 МБ (це як 3-4 товсті книжки!). Між іншим, під час аналізу студенти зробили висновок: друковані газети того часу виконували функцію тогочасних соцмереж! 📰💬

3️⃣ Підготовка та вирівнювання текстів для паралельних корпусів англійською, німецькою та іспанською мовами.

ГРАК і ParaRook щиро дякують нашим четвертокурсникам та колегам за такий великий внесок у цифрову лінгвістику! Ви — мегапрофі! 💎🛸

Поділитись: