Що саме потрібно знати, щоб стати фахівцем з Data Science Machine Learning?
Сьогодні ми наведено для вас 100 найбільш поширених питань, що задаються на співбесідах при прийомі на роботу в ІТ компанію.
А чи знаєте ви відповіді на ці питання?
Перевірте себе!
Якщо ні, то освітня програма «Комп’ютерні науки. Штучний інтелект та управління проєктами» допоможе вам знайти відповіді!
Питання з математичної статистики
- Що таке нормальний розподіл?
- Середня проектна оцінка у групі з 10 учнів вийшла 7, а медіана 8. Як так вийшло?Чому більше довіряти?
- Яка ймовірність зараження пацієнта, якщо його тест позитивний, а ймовірність захворювання у його країні становить 0.1%?
- Що таке центральна гранична теорема?У чому полягає її практичний зміст?
- Які приклади набору даних із негаусовим розподілом ви можете навести? Що таке спосіб максимізації подібності?
- Ви балотуєтеся на пост, у вибірці зі 100 виборців 60 голосуватимуть за вас.Чи можете ви бути впевнені у перемозі?
- Як оцінити статистичну значущість аналізу?
- Скільки всього шляхів, якими миша може дістатися до сиру, переміщаючись лише лініями клітини?
- У чому різниця між лінійною та логістичною регресією?
- Наведіть три приклади розподілу з довгим хвостом.Чому вони важливі у завданнях класифікації та регресії?
- Суть закону великих чисел?
- Що показує p-значення (значуща ймовірність)?
- Що таке біноміальна формула ймовірності?
- Лічильник Гейгера записує 100 радіоактивних розпадів за 5 хвилин.Знайдіть приблизний 95% інтервал для кількості розпадів на годину.
- Як розрахувати потрібний розмір вибірки?
- У яких випадках ви використовували б MSE і MAE?
- Коли медіана краще описує дані, ніж середнє арифметичне?
- У чому різниця між модою, медіаною та математичним очікуванням?
Питання з SQL
- У чому різниця між MySQL та SQL Server?
- Що робить UNION?
- У чому різниця між UNION та UNION ALL?
- Як оптимізувати SQL запити?
- Виведіть список співробітників із зарплатою вище, ніж у керівника.
- Які віконні функції існують?
- Знайдіть список ID відділів із максимальною сумарною зарплатою співробітників.
- У чому різниця між CHAR та VARCHAR?
- Виберіть найвищу зарплату, не рівну максимальній зарплаті з таблиці.
- Чим відрізняються SQL та NoSQL?
- У чому різниця між DELETE та TRUNCATE?
- Пронумеруйте рядки у таблиці employee.
- Пронумеруйте рядки у таблиці у розрізі відділу із зарплати.
- Які є рівні ізоляції транзакцій?
Питання з Python
- Які відмінності у Series і DataFrame у Pandas?
- Напишіть функцію, яка визначає кількість кроків для перетворення одного слова на інше.
- У чому переваги масивів NumPy в порівнянні з (вкладеними) списками python?
- У чому різниця між map, apply та applymap у Pandas?
- Найпростіший спосіб реалізувати ковзне середнє за допомогою NumPy.
- Чи Python підтримує регулярні вирази?
- Продовжіть: “try, except, …”.
- Як побудувати просту модель логістичної регресії на Python?
- Як вибрати рядки з DataFrame на основі значень стовпців?
- Як дізнатися тип даних елементів із масиву NumPy?
- У чому відмінність loc від iloc в Pandas?
- Напишіть код, який будує всі N-грами на основі речення.
- Які можливі способи завантаження масиву з текстового файлу даних у Python?
- Чим відрізняються багатопотоковий і багатопроцесорний додаток?
- Як можна використовувати groupby+transform?
- Напишіть фінальні значення A0, …, A7
- Чим відрізняються mean() і average() у NumPy?
- Наведіть приклад використання filter і reduce над об’єктом, що ітерується.
- Як об’єднати два масиви NumPy?
- Напишіть однорядок, який підраховуватиме кількість великих літер у файлі.
- Як би ви очистили датасет за допомогою Pandas?
- array і ndarray – у чому відмінності?
- Обчисліть мінімальний елемент у кожному рядку 2D масиву.
- Як перевірити, чи є набір даних або тимчасовий ряд випадковим?
- У чому різниця між pivot та pivot_table?
- Реалізуйте метод k-середніх за допомогою SciPy.
- Які варіанти ітерування по рядках об’єкта DataFrame?
- Що таке декоратор?Як написати свій?
Питання з Data Science
- Що таке семплювання?Скільки методів вибірки ви знаєте?
- Чим кореляція відрізняється від коваріації?
- Що таке крос-валідація?Які проблеми вона має вирішити?
- Що таке матриця помилок?Навіщо вона потрібна?
- Як перетворення Бокса-Кокса покращує якість моделі?
- Які методи можна використовувати для заповнення пропущених даних та які наслідки неуважного заповнення даних?
- Що таке ROC-крива?Що таке AUC?
- Що таке повнота (recall) та точність (precision)?
- Як би ви впоралися з різними формами сезонності під час моделювання часових рядів?
- Які помилки ви можете зробити, коли робите вибірку?
- Що таке RCA (root cause analysis)?Як відрізнити причину від кореляції?
- Що таке викид та внутрішня помилка?Поясніть, як їх виявити, і що ви робили б, якщо знайшли їх у наборі даних?
- Що таке A/B тестування?
- У яких ситуаціях загальна лінійна модель невдала?
- Чи є підстановка середніх значень замість пропусків допустимою?Чому?
- Є дані про тривалість дзвінків.Розробіть план аналізу цих даних.Як може виглядати розподіл цих даних?Як ви могли б перевірити, чи підтверджуються ваші очікування?
Питання з Machine Learning
- Що таке векторизація TF/IDF?
- Що таке перенавчання та як його можна уникнути?
- Вам дали набір даних твітів, завдання – передбачити їхню тональність (позитивна або негативна).Як би ви проводили попередню обробку?
- Розкажіть про SVM.
- У яких випадках ви хотіли б використовувати SVM, а не Випадковий ліс (і навпаки)?
- Якими є наслідки встановлення неправильної швидкості навчання?
- Поясніть різницю між епохою, пакетом (batch) та ітерацією.
- Чому нелінійна функція Softmax часто буває останньою операцією у складній нейронній мережі?
- Поясніть і дайте приклади колаборативної фільтрації, фільтрації контенту та гібридної фільтрації.
- У чому різниця між bagging та boosting для ансамблів?
- Як вибрати число k для алгоритму кластеризації «метод k-середніх» (k-Means Clustering), не дивлячись на кластери?
- Як би ви могли найефективніше подати дані з п’ятьма вимірами?
- Що таке ансамблі і чим вони корисні?
- У вашому комп’ютері 5Гб ОЗП, а вам потрібно навчити модель на 10-гігабайтовому наборі даних.Як ви це зробите?
- Чи завжди методи градієнтного спуску сходяться в одній точці?
- Що таке рекомендаційні системи?
- Поясніть дилему зміщення-дисперсії (bias-variance tradeoff) та наведіть приклади алгоритмів з високим та низьким зміщенням.
- Що таке PCA і чим він може допомогти?
- Поясніть різницю між методами регуляризації L1 та L2.