Що саме потрібно знати, щоб стати фахівцем з Data Science Machine Learning?

Сьогодні ми наведено для вас 100 найбільш поширених питань, що задаються на співбесідах при прийомі на роботу в ІТ компанію.

А чи знаєте ви відповіді на ці питання?

Перевірте себе!

Якщо ні, то освітня програма «Комп’ютерні науки. Штучний інтелект та управління проєктами» допоможе вам знайти відповіді!

Питання з математичної статистики

Що таке нормальний розподіл?
Середня проектна оцінка у групі з 10 учнів вийшла 7, а медіана 8. Як так вийшло?Чому більше довіряти?
Яка ймовірність зараження пацієнта, якщо його тест позитивний, а ймовірність захворювання у його країні становить 0.1%?
Що таке центральна гранична теорема?У чому полягає її практичний зміст?
Які приклади набору даних із негаусовим розподілом ви можете навести? Що таке спосіб максимізації подібності?
Ви балотуєтеся на пост, у вибірці зі 100 виборців 60 голосуватимуть за вас.Чи можете ви бути впевнені у перемозі?
Як оцінити статистичну значущість аналізу?
Скільки всього шляхів, якими миша може дістатися до сиру, переміщаючись лише лініями клітини?
У чому різниця між лінійною та логістичною регресією?
Наведіть три приклади розподілу з довгим хвостом.Чому вони важливі у завданнях класифікації та регресії?
Суть закону великих чисел?
Що показує p-значення (значуща ймовірність)?
Що таке біноміальна формула ймовірності?
Лічильник Гейгера записує 100 радіоактивних розпадів за 5 хвилин.Знайдіть приблизний 95% інтервал для кількості розпадів на годину.
Як розрахувати потрібний розмір вибірки?
У яких випадках ви використовували б MSE і MAE?
Коли медіана краще описує дані, ніж середнє арифметичне?
У чому різниця між модою, медіаною та математичним очікуванням?

Питання з SQL

У чому різниця між MySQL та SQL Server?
Що робить UNION?
У чому різниця між UNION та UNION ALL?
Як оптимізувати SQL запити?
Виведіть список співробітників із зарплатою вище, ніж у керівника.
Які віконні функції існують?
Знайдіть список ID відділів із максимальною сумарною зарплатою співробітників.
У чому різниця між CHAR та VARCHAR?
Виберіть найвищу зарплату, не рівну максимальній зарплаті з таблиці.
Чим відрізняються SQL та NoSQL?
У чому різниця між DELETE та TRUNCATE?
Пронумеруйте рядки у таблиці employee.
Пронумеруйте рядки у таблиці у розрізі відділу із зарплати.
Які є рівні ізоляції транзакцій?

Питання з Python

Які відмінності у Series і DataFrame у Pandas?
Напишіть функцію, яка визначає кількість кроків для перетворення одного слова на інше.
У чому переваги масивів NumPy в порівнянні з (вкладеними) списками python?
У чому різниця між map, apply та applymap у Pandas?
Найпростіший спосіб реалізувати ковзне середнє за допомогою NumPy.
Чи Python підтримує регулярні вирази?
Продовжіть: “try, except, …”.
Як побудувати просту модель логістичної регресії на Python?
Як вибрати рядки з DataFrame на основі значень стовпців?
Як дізнатися тип даних елементів із масиву NumPy?
У чому відмінність loc від iloc в Pandas?
Напишіть код, який будує всі N-грами на основі речення.
Які можливі способи завантаження масиву з текстового файлу даних у Python?
Чим відрізняються багатопотоковий і багатопроцесорний додаток?
Як можна використовувати groupby+transform?
Напишіть фінальні значення A0, …, A7
Чим відрізняються mean() і average() у NumPy?
Наведіть приклад використання filter і reduce над об’єктом, що ітерується.
Як об’єднати два масиви NumPy?
Напишіть однорядок, який підраховуватиме кількість великих літер у файлі.
Як би ви очистили датасет за допомогою Pandas?
array і ndarray – у чому відмінності?
Обчисліть мінімальний елемент у кожному рядку 2D масиву.
Як перевірити, чи є набір даних або тимчасовий ряд випадковим?
У чому різниця між pivot та pivot_table?
Реалізуйте метод k-середніх за допомогою SciPy.
Які варіанти ітерування по рядках об’єкта DataFrame?
Що таке декоратор?Як написати свій?

Питання з Data Science

Що таке семплювання?Скільки методів вибірки ви знаєте?
Чим кореляція відрізняється від коваріації?
Що таке крос-валідація?Які проблеми вона має вирішити?
Що таке матриця помилок?Навіщо вона потрібна?
Як перетворення Бокса-Кокса покращує якість моделі?
Які методи можна використовувати для заповнення пропущених даних та які наслідки неуважного заповнення даних?
Що таке ROC-крива?Що таке AUC?
Що таке повнота (recall) та точність (precision)?
Як би ви впоралися з різними формами сезонності під час моделювання часових рядів?
Які помилки ви можете зробити, коли робите вибірку?
Що таке RCA (root cause analysis)?Як відрізнити причину від кореляції?
Що таке викид та внутрішня помилка?Поясніть, як їх виявити, і що ви робили б, якщо знайшли їх у наборі даних?
Що таке A/B тестування?
У яких ситуаціях загальна лінійна модель невдала?
Чи є підстановка середніх значень замість пропусків допустимою?Чому?
Є дані про тривалість дзвінків.Розробіть план аналізу цих даних.Як може виглядати розподіл цих даних?Як ви могли б перевірити, чи підтверджуються ваші очікування?

Питання з Machine Learning

Що таке векторизація TF/IDF?
Що таке перенавчання та як його можна уникнути?
Вам дали набір даних твітів, завдання – передбачити їхню тональність (позитивна або негативна).Як би ви проводили попередню обробку?
Розкажіть про SVM.
У яких випадках ви хотіли б використовувати SVM, а не Випадковий ліс (і навпаки)?
Якими є наслідки встановлення неправильної швидкості навчання?
Поясніть різницю між епохою, пакетом (batch) та ітерацією.
Чому нелінійна функція Softmax часто буває останньою операцією у складній нейронній мережі?
Поясніть і дайте приклади колаборативної фільтрації, фільтрації контенту та гібридної фільтрації.
У чому різниця між bagging та boosting для ансамблів?
Як вибрати число k для алгоритму кластеризації «метод k-середніх» (k-Means Clustering), не дивлячись на кластери?
Як би ви могли найефективніше подати дані з п’ятьма вимірами?
Що таке ансамблі і чим вони корисні?
У вашому комп’ютері 5Гб ОЗП, а вам потрібно навчити модель на 10-гігабайтовому наборі даних.Як ви це зробите?
Чи завжди методи градієнтного спуску сходяться в одній точці?
Що таке рекомендаційні системи?
Поясніть дилему зміщення-дисперсії (bias-variance tradeoff) та наведіть приклади алгоритмів з високим та низьким зміщенням.
Що таке PCA і чим він може допомогти?
Поясніть різницю між методами регуляризації L1 та L2.