Практичне використання Data Science. Мова R, Hadoop стек

Понеділок, 06 липня 2020 20:09

Практичне використання Data Science. Мова R, Hadoop стек

Запрошуємо студентів, учнів старших класів, викладачів та всіх бажаючих на курси Data Science. Мова R, Hadoop стек.

Керівник курсу – кандидат технічних наук, доцент Пантєєв Роман Леонідович.

ПРО КУРС

Курс науки про дані (Data Science) призначений для систематизації роботи з даними різного характеру. Наука про дані це міждисциплінарна галузь про наукові методи, процеси і системи, які стосуються добування знань із даних у різних формах, як структурованих так і неструктурованих. Наука про дані є продовженням деяких галузей аналізу даних, таких як статистика, класифікація, кластеризація, машинне навчання, добування даних і передбачувальна аналітика. Лауреат Премії Тюрінга Джим Ґрей розглядав науку про дані як «четверту парадигму» науки (поруч з емпіричною, теоретичною та обчислювальною).

Практичні знання Data Science, отримані за допомогою даного курсу, дозволять:

— аналізувати і структурувати зразки поведінки,

— виявляти закономірності і відхилення від них,

— будувати неочевидні взаємозв'язки між даними.

Особливо буде розглянуто випадок впливу декількох чинників в сукупності для побудови надійних моделейпрогнозування поведінки.

Методи машинного навчання, розглянуті в рамках цього курсу, дадуть можливість:

— автоматизувати розпізнавання зразків поведінки,

— будувати ефективні алгоритми в залежності від необхідних характеристик,

— обробляти масиви інформації і видавати рекомендації за прийнятний час із заданою точністю.

Серед джерел інформації будуть також розглянуті реляційні і нереляційні СКБД, текстові файли, гіпертекстові документи, соціальні мережі.

Особливістю курсу є максимально ефективна візуалізація статистичних висновків для ефективногоприйняття рішень. За підсумками курсу кожен слухач надасть звіт про фінальний проект за допомогою засобів візуалізації.

Зміст

1. Математичний апарат Data Science. Основи теорії ймовірностей і математичної статистики. Статистичніоцінки. Закони розподілу. Регресія. Кореляція та інше.

2. Огляд інструментарію аналізу даних. Огляд математичних пакетів і мов. Мова R: особливості збірок,IDE. Установка навчального середовища.

3. R-Studio. Інтерфейс користувача. Вікна. Гарячі клавіші. Налагодження. Організація робочого простору.Консоль.

4. Мова R:

— Основи. Базові операції і функції. Система допомоги. Навчальні набори. Змінні і набори спостережень.Створення довільних наборів.

— Описовий аналіз. Фільтрація. Підмножини. Завантаження з файлу. Система супровідної документаціїR Markdown . Встановлення додаткових пакетів.

— Основні алгоритмічні елементи мови. Формати команд. Умовні розгалуження. Цикли. Функції.

— Типи даних. Вектор. Матриця. Списки. Data Frame . Особливості роботи з ними.

— Базові пакети. Вивчення функціоналу базових пакетів.

5. Основи Data Science :

— Аналіз змінних факторного типу. Рівні факторів. Сортування міток. Графічний висновок. Можливіваріанти представлення даних.

— Аналіз вибірки 1-єї змінної. Візуалізація. Діаграми розсіювання, гістограми, частотні діаграми,«коробки з вусами». Масштабування, зміна розмірності, нелінійні шкали. Описовий аналіз. Перетворенняданих.

— Аналіз вибірки 2-х змінних. Візуалізація. Умовне мат. очікування. Знання предметної області.Кореляція. Шум. Згладжування. Тренди.

— Багатомірний аналіз. Складнощі багатовимірного аналізу Відносини. Теплові карти. Типовийдіапазон. Згладжування.

— Регресія і прогноз. Лінійна і нелінійна регресія. Проблеми лінійної регресії. Прогноз. Прогнозуючааналітика. Порівняння моделей.

— Методи заповнення пропусків даних і нормалізації.

— Text Mining . Особливості аналізу неструктурованої текстової інформації. Побудова висновків.

— Аналіз просторових даних. Особливості аналізу та візуалізації просторових даних. Побудова карт.

6. Основи Machine Learning :

— Методи класифікації.

— Методи кластеризації. Методи типу к-середніх, ієрархічні методи.

— Методи факторного аналізу. Методи зменшення розмірності даних.

— Методи прийняття рішень. Дерева, ліси.

— Нейронні мережі.

— Адекватність моделей. Вибір ефективної моделі.

— Технології роботи з великими і розподіленими даними: Огляд технологій Hadoop і ін. Пакети в R.(Глибина вивчення опціонально в залежності від швидкості освоєння матеріалу групою)

7. Фінальний проєкт.

Після закінчення курсу Ви отримаєте Cертифікат.

Кількість годин: 45

Вартість: 3000 грн.

Тел.: (044)406–79–08, 406–72–02, 406–74–04, 497–52–84, 406–74–15, 406–72–09.
Адреса: 03058, м. Київ, пр.-т Любомира Гузара, 1, корп. 8а, каб. 610, 609, 708.
E-mail: idpnau20Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її., Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

Прочитано 469 разів

вгору

Всеукраїнський поетичний конкурс «Білий голуб»

ЦИКЛУ ЛЕКЦІЙ «ПРО ОБДАРОВАНІСТЬ ВІД «А до Я»»

Дні НАУки

ДОРОЖНЯ КАРТА УЧАСНИКА НМТ – 2025

Філіал підготовчого відділення громадян України Національного авіаційного ...

Курси підготовки до вступу

Сторінками історії української авіації та космонавтики

ЦИКЛ ЛЕКЦІЙ «ЩО ТАКЕ ПСИХОЛОГІЯ»

ГОТУЄМОСЯ ДО НМТ

Дорожня карта - 2025

АБІТУРІЄНТУ - 2025

Профорієнтаційні

Практичне використання Data Science. Мова R, Hadoop стек