Preview

Advanced Engineering Research

Расширенный поиск

Применение инструментов машинного обучения и интеллектуальный анализ данных в отношении баз данных с небольшим количеством записей

https://doi.org/10.23947/2687-1653-2021-21-4-346-363

Полный текст:

Аннотация

Использование инструментов интеллектуального анализа данных и машинного обучения становится все более распространенным явлением. Их полезность особенно заметна в случае больших наборов данных, когда информация, которую необходимо найти, или новые взаимосвязи извлекаются из информационного шума. Развитие этих инструментов означает, что исследуются наборы данных с гораздо меньшим количеством записей, обычно связанных с конкретными явлениями. Такая специфика чаще всего приводит к невозможности увеличения количества случаев, а это может облегчить поиск зависимостей в изучаемых явлениях. В статье рассмотрены особенности применения выбранных инструментов к небольшим наборам данных. Предприняты попытки представить методы подготовки данных, методы расчета производительности инструментов с учетом специфики баз данных с небольшим количеством записей. Предложены избранные автором методики, которые помогли выйти из тупика в расчетах, т. е. получить результаты, намного хуже ожидаемых. Необходимость применения методов повышения точности прогнозов и точности классификации была вызвана небольшим количеством анализируемых данных. Эта статья не является обзором популярных методов машинного обучения и интеллектуального анализа данных, тем не менее собранный и представленный материал поможет читателю сократить путь к получению удовлетворительных результатов при применении описанных вычислительных методов.

Для цитирования:


Аныш Х. Применение инструментов машинного обучения и интеллектуальный анализ данных в отношении баз данных с небольшим количеством записей. Advanced Engineering Research. 2021;21(4):346-363. https://doi.org/10.23947/2687-1653-2021-21-4-346-363

For citation:


Anysz H. Machine Learning and data mining tools applied for databases of low number of records. Advanced Engineering Research. 2021;21(4):346-363. https://doi.org/10.23947/2687-1653-2021-21-4-346-363

Введение. В эпоху всеобщего доступа в Интернет все больше и больше устройств взаимодействуют друг с другом или с централизованными базами данных. Рекламодатели превосходят друг друга в эффективности персонализированной рекламы. Все это заставляет бурно развиваться группу инструментов, известную как искусственный интеллект. Объем данных, который необходимо обработать, чтобы получить нужную информацию, огромен, поэтому количество публикаций по алгоритмам, позволяющим быстро извлекать информацию из информационного шума, очень велико. Наиболее часто при этом приходится сталкиваться с информационной перегрузкой. Ученые из разных областей знаний знакомы с проблемами, связанными с анализом данных. Нередко сбор данных об изучаемых явлениях требует дорогостоящих устройств, установок и испытаний. Само исследование также может быть длительным. Это означает, что в научно-исследовательских базах данных о причинах и следствиях анализируемых явлений часто может содержаться всего несколько десятков или несколько сотен записей. Преимущества инструментов машинного обучения и интеллектуального анализа данных, в т. ч. возможности поиска значительных зависимостей между многомерными входными и выходными данными, дают возможность исследователям использовать эти инструменты для определения ранее не обнаруженных взаимосвязей изучаемых процессов и явлений. Недостаточное количество записей в созданной базе данных, описывающих какое-либо явление, может снизить ценность полученных результатов анализа. В статье представлены разработки автора, в которых инструменты машинного обучения и интеллектуального анализа данных использовались для исследования материалов и анализа процессов, когда количество входных данных было большим по сравнению с количеством выполненных тестов (т. е. записей в базе данных). Собранные примеры приложений были расширены за счет включения методов подготовки данных и методов оценки точности прогнозов и классификации, чтобы облегчить работу и помочь быстрее достичь ожидаемых результатов людям, которые намерены использовать инструменты машинного обучения для анализа собственных исследований.

Анализ явлений, описываемых многими переменными. Перед любым исследователем непременно встают вопросы: какие входные значения принимать для анализа как влияющие на изучаемое явление, а какие параметры измерять на выходе. Очень полезен бывает статистический подход в исследовании, но он имеет существенный недостаток, который состоит в том, что можно анализировать только одну пару функций. При этом стоит, конечно, определиться, что такое статистика. Согласно [1], «Статистика — это наука о методах проведения статистического обследования и методах анализа его результатов». Предметом же статистического обследования являются отдельный набор объектов, который называется статистическим сообществом (населением), или несколько статистических сообществ. Статистику можно разделить на три основные части: описательная статистика, распределение случайных величин и статистический вывод (рис. 1) [2].

 

Рис. 1. Статистические управления [2]

 

В случае, когда на результат процесса влияет множество переменных, с помощью статистических методов очень сложно найти такие комбинации значений входных переменных, которые существенно влияют на изменчивость выходных данных. И самое востребованное — как эффективно управлять процессом или явлением, чтобы на выходе получить желаемый результат. С помощью инструментов интеллектуального анализа данных гораздо проще найти взаимосвязи между многомерными входными и выходными данными. Интеллектуальный анализ данных очень точно определяется самим названием книги [3], которое можно перевести как «Обнаружение знаний из данных». Существует определение интеллектуального анализа данных, сформулированное в 2001 году как анализ (часто огромных) наборов данных наблюдений с целью обнаружения неожиданных взаимосвязей и обобщения данных оригинальным способом, чтобы они были понятны и полезны своему владельцу [4–5]. Для этих нужд разрабатываются методы и алгоритмы, благодаря которым поиск вышеупомянутых соединений происходит быстрее и эффективнее. Методы интеллектуального анализа данных можно разделить на:

  • обнаружение ассоциаций (правила ассоциации);
  • классификация и прогнозирование;
  • группировка;
  • анализ последовательности и времени;
  • обнаружение характеристик;
  • интеллектуальный анализ текстовых и полуструктурных данных;
  • изучение контента, размещенного в Интернете;
  • изучение графиков и социальных сетей;
  • интеллектуальный анализ мультимедийных и пространственных данных;
  • обнаружение особенности [6].

На этой основе были разработаны методы, обычно называемые искусственным интеллектом, благодаря которым выполняются наиболее часто выбираемые задачи интеллектуального анализа данных. Несмотря на развитие информационных технологий и возрастающую вычислительную мощность компьютеров, до сих пор практически невозможно проверить все возможные комбинации многомерного ввода и вывода сложной системы [7]. Использование методов искусственного интеллекта тем более оправдано, чем сложнее проблема и не известны механизмы, управляющие ею, как показано на рис. 2.

 

Рис. 2. Предлагаемые условия использования методов искусственного интеллекта [7]

Существует множество методов и приемов искусственного интеллекта (включая искусственные нейронные сети, метод K-ближайших соседей, случайный лес, деревья решений), и они все еще разрабатываются1. Популярность, которую можно прочесть как полезность приложений одного из инструментов искусственного интеллекта — искусственных нейронных сетей очень заметна, например, на основе [8]. Вместо строгого поиска возможных комбинаций используется метаэвристика. Если необходимо использовать вышеупомянутые инструменты, следует решить, пользоваться ли специализированным программным обеспечением или создать его самостоятельно с помощью общедоступных модулей (так называемых «движков»), реализующих алгоритмы искусственного интеллекта. Независимо от принятого решения в основе будут лежать данные, которые будут анализироваться.

Подготовка данных. Можно выделить следующие этапы подготовки данных к анализу:

  • очистка данных;
  • интеграция данных;
  • выбор данных;
  • консолидация и преобразование данных [6].

Такая подготовка должна выполняться независимо от размера базы данных. Для небольших наборов данных их правильная подготовка даже более важна, чем для больших. Примером может служить сравнение двух наборов данных: один с 10 000 записей, а другой со 100 записями, где 5 % записей относятся к повторяющемуся явлению (повторяемость еще не обнаружена). Когда две записи содержат ошибочные данные, то в первом случае можно найти повторяемость в 4,8 % случаев вместо 5,0 %. Во втором случае повторяемость обнаруживается только в 3,0 %. Разница существенная.

Очистка и интеграция данных. При очистке данных из базы удаляются в основном записи, содержащие неполные данные. В больших базах данных удаление, например, двух записей существенно не повлияет на результаты, полученные на последующих этапах. При небольшом количестве наборов данных потеря даже одной записи может существенно повлиять на полученные результаты анализа. По этой причине отсутствующие значения не могут быть заменены, например, средним для всей генеральной совокупности (один из методов увеличения данных) или ее части (аналогичной описанию в записи, которую следует удалить), как это делается для больших баз данных Причина та же, что и описана выше — замена одного отсутствующего признака в описании явления может существенно изменить результаты, если анализируется небольшой набор данных. Однако записи, удаленные в процессе, не должны удаляться безвозвратно. На последующих этапах может оказаться, что в окончательно принятой модели данная особенность не будет учтена, а изначально удаленная запись будет содержать полные данные — это будет полезно для анализа.

Второй важный этап очистки данных — это статистический анализ каждой характеристики (столбцов в базе данных) отдельно и ее корреляция с выходными данными. Рекомендуется представлять статистику основных характеристик анализируемого процесса (количество записей, среднее арифметическое, медиана, минимальное и максимальное значение, стандартное отклонение, квартили значений характеристик) также и для функции или функций, описывающих выходные данные. Диаграммы «рамка-усы» очень удобочитаемы (рис. 3).

 

Рис. 3. Пример диаграммы типа «кадр-усы» [9]

 

На таком графике легко прочитать, например, что для 50 % образцов с 21,9–25,0 % содержания глины с пылью прочность была выше 9 МПа, но при этом минимальная прочность для этого типа образцов была ниже 2 МПа. Для таких образцов прочность была ниже 6,5 МПа. Анализ базовой статистики может облегчить решение об исключении из анализа записей (т. е. образцов или исследуемых явлений), для которых измеренные значения несовместимы со всеми другими случаями. Значительное несоответствие может быть результатом ошибочного измерения или того факта, что на измерение повлиял другой фактор, который вообще не принимался во внимание (он не учитывался и не измерялся ни в одном из случаев). По этим причинам все записи, отклоненные из базы данных, должны быть описаны, а также должны быть указаны причины отклонения [10].

Другой случай. Если обнаружено, к примеру, что решение об отклонении записи может быть принято только после того, как будут выполнены все или часть вычислений. Об этом идет речь в статье [11]: на основе наборов из 95 ускорений (а) стандартизированного молота (ударяющего по испытуемому стальному элементу), измеряемых каждые 0,01 мс с использованием искусственных нейронных сетей, была предпринята попытка отнести испытываемый стальной элемент к одному из девяти классов (рис. 4, 5).

Анализируя ускорения на рис. 4, можно сказать, что один из тестов во временном диапазоне от 0,01 до 0,31 мс отстает от других, но по-прежнему ведет себя как другие образцы. Только предварительная классификация по четырем группам марок стали показала, что через 0,31 мс в испытании № 29 были получены результаты, которые показывают резко отклоняющийся характер результатов также через 0,31 мс (рис. 5). В испытании № 29 был исследован стальной образец, для которого во всех других испытаниях ускорение изменило знак с отрицательного на положительный между 0,424 и 0,450 мс. Для испытания № 29 знак ускорения изменился в пределах 0,460–0,495 мс, то есть за время, подходящее для другой группы марок стали. Только этот вывод позволил достаточно хорошо обосновать отклонение из анализов испытания № 29. В результате была повышена первоначально полученная точность классификации до девяти марок стали по результатам 67 испытаний, равная 80 %, до 95 % (после отказа от теста № 29 и повторного использования искусственных нейронных сетей).

 

Рис. 5. Фрагмент диаграммы с рис. 4 с предварительной классификацией на четыре группы классов сталей и выпадающим тестом № 29 также через 0,31 мс [11]

Интеграция данных — это объединение данных об одном и том же явлении из разных источников в одну базу данных. Пример интеграции содержится в работе [12], в которой прогнозируется задержка строительства участков скоростных и автомагистралей в Польше. Независимыми переменными, на основании которых делались прогнозы, являются данные о построенных объектах (предусмотренных законом о доступе к информации главного управления национальных дорог и автомагистралей), данные о предприятиях, реализующих эти объекты (собранные в регистрационный суд), Интернет, агентство бизнес-аналитики, макроэкономические данные (с источником в публикациях центрального статистического управления). Значение зависимой переменной (необходимое для «обучения» искусственной нейронной сети) — количество дней, на которое откладывается завершение каждой из проанализированных дорожных инвестиций, искали в публикациях в прессе и в Интернете. Собранная информация была использована для интеграции в базу данных о реализации 128 строительных проектов. В Польше в 2009–2013 годах было построено 156 участков скоростных и автомагистралей, но получить полную информацию о них было практически невозможно. После анализа хода этого строительства были отклонены и те случаи, когда возникали неожиданные нарушения (например, в виде протестов экологов, которые не учитывались в анализах как независимая переменная). Это уменьшило количество дел на 28, но обеспечило полноту, целостность базы данных — основы расчета.

Выбор данных. В больших наборах данных их размер является существенной проблемой — большое количество записей приводит к неэффективной и длительной работе программного обеспечения. В базах данных с небольшими размерами записей программному обеспечению поиска отношений ввода-вывода может быть недостаточно, чтобы найти эти отношения. Бывает, что изучаемое явление можно описать многими параметрами, но в базе данных мало случаев (записей) с описанными параметрами явления. Таким образом, выбор данных означает необходимость выбора лишь нескольких независимых переменных, на основе которых будут выполняться классификация или прогнозирование выходного значения с использованием искусственного интеллекта (также известного как машинное обучение). При выборе независимых переменных может оказаться полезным следующее:

  • изучение взаимной корреляции линейных независимых переменных, а также корреляции со значениями на выходе;
  • анализ основных компонентов;
  • эмпирический поиск оптимального набора независимых переменных.

Корреляционное исследование. Исследование линейной корреляции Пирсона между парами независимых переменных и между каждой из них и зависимой переменной может быть представлено в форме таблицы с числами, а также графически, в виде так называемых «тепловых карт» (пары независимых переменных) [13]. Переменные наиболее сильно коррелируют положительно, а интенсивный синий цвет на рис. 6 демонстрирует наименьшее значение коэффициента Пирсона. Сильная положительная или отрицательная корреляция, считанная с тепловой карты, не обязывает удалять переменную, сильно коррелированную с другой, это всего лишь предположение, потому что она сильно положительно коррелирует с zn2 (коэффициент корреляции между ними составляет 0,88), и в то же время zn5 не коррелирует с выходом (обозначено как wy, коэффициент корреляции равен 0,03).

 

Рис. 6. Примерная «тепловая карта» независимых переменных от n1 до n5 и выходных данных

Хотя вычисляется линейная корреляция, и фактическая связь между независимыми переменными (или независимой переменной и переменной, зависящей от выпуска) может быть не линейной, вычисление этих линейных корреляций часто подсказывает, какие переменные не включать (если есть необходимость их уменьшения). Такая проверка была сделана среди прочего в работах [9, 12]. В [12] количество зависимых переменных было сокращено, а в [9] для анализа была принята новая переменная как сумма значений двух сильно положительно коррелированных независимых переменных (это также было технически оправданно). Переменная, которая имеет сильную отрицательную корреляцию с другой независимой переменной, также может быть удалена из базы данных.

Анализ главных компонентов. Анализ главных компонент (PCA) выполняется для независимых переменных — выходное значение не учитывается2 В результате получаем рейтинг, показывающий, какая из независимых переменных больше всего влияет на изменчивость наборов независимых переменных. Можно представить, что каждая из независимых переменных осуществляет измерение многомерного пространства. Независимые переменные связаны между собой, они образуют множества (записи в базе данных, описывающие явление). Результатом PCA является ответ на вопрос, какая из независимых переменных наиболее ответственна за то, что расстояния (в многомерном пространстве) между точками (наборы независимых переменных, описанные в записях — координаты точек) являются наибольшими. Переменные, оказывающие наименьшее влияние на разброс данных, это те, которые могут быть удалены из анализа в попытке уменьшить количество независимых переменных. Примеры эффективного применения анализа главных компонентов для повышения производительности инструментов машинного обучения можно легко найти, например, в работах [14–16]. Однако стоит иметь в виду, что PCA не принимает во внимание значение зависимой переменной. Следовательно, нет уверенности в том, что именно независимая переменная, которая также оказывает наибольшее влияние на прогнозируемое значение (зависимая переменная), вызывает наибольшую изменчивость в наборах данных.

Эмпирические исследования. И корреляционное исследование, и анализ главных компонентов не дают абсолютной уверенности в том, был ли выбор независимых переменных оптимальным. Оптимальный — это значит наиболее точный прогноз или максимально возможная доля точных классификаций для базы данных и выбранного инструмента машинного обучения. Инструменты искусственного интеллекта чаще всего применяются, когда их пользователь подозревает, что существует связь между вводом и выводом (между наборами независимых переменных и эффектом их совместного появления — зависимой переменной). Когда эти зависимости невозможно описать строго (функцией многих переменных), когда изучаемые процессы и

Список литературы

1. Lissowski, G. Podstawy statystyki dla socjologów. Opis statystyczny. Tom 1 / G. Lissowski, J. Haman, M. Jasiński. — Warszawa: Wydawnictwo Naukowe Scholar, 2011. — 223 p.

2. Stanisławek J. Podstawy statystyki: opis statystyczny, korelacja i regresja, rozkłady zmiennej losowej, wnioskowanie statystyczne / J. Stanisławek. — Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej, 2010. — 212 p.

3. Larose, D. T. Discovering Knowledge in Data: An Introduction to Data Mining. 2nd ed. / D. T. Larose, C.D. Larose. — Hoboken, NJ, USA: Wiley-IEEE Press, 2016. — 309 p.

4. Larose, D. T. Metody I modele eksploracji danych / D.T. Larose. Warszaw: PWN, 2012. — 337 p.

5. Hand, D. Principles of Data Mining / D. Hand, H. Mannila, P. Smyth. — Cambridge, MA, USA: MIT Press, 2001. — 322 p.

6. Morzy, T. Eksploracja danych. Metody i algorytmy / T. Morzy. — Warszawa: PWN, 2013. — 533 p.

7. Bartkiewicz, W. Sztuczne sieci neuronowe. W: Zieliński JS. (red), Inteligentne systemy w zarządzaniu. Teoria i praktyka / W. Bartkiewicz. — Warszawa: PWN, 2000. — 348 p.

8. Rutkowski, L. Metody i techniki sztucznej inteligencji / L. Rutkowski. — Warszawa: PWN, 2012. — 449 p.

9. Doroshenko, A. Applying Artificial Neural Networks In Construction / A. Doroshenko // In: Proceedings of 2nd International Symposium on ARFEE 2019. — 2020. — Vol. 143. — P. 01029. https://doi.org/10.1051/e3sconf/202014301029

10. Feature Importance of Stabilised Rammed Earth Components Affecting the Compressive Strength Calculated with Explainable Artificial Intelligence Tools / H. Anysz, Ł. Brzozowski, W. Kretowicz, P. Narloch // Materials. — 2020. — Vol. 13. — P. 2317. https://doi.org/10.3390/ma13102317

11. Artificial Neural Networks in Classification of Steel Grades Based on Non-Destructive Tests / A. Beskopylny, A. Lyapin, H. Anysz, et al. // Materials. — 2020. — Vol. 13. — P. 2445. https://doi.org/10.3390/ma13112445

12. Anysz, H. Wykorzystanie sztucznych sieci neuronowych do oceny możliwości wystąpienia opóźnień w realizacji kontraktów budowlanych / H. Anysz. — Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej, 2017. — 280 p.

13. Rabiej, M. Statystyka z programem Statistica / M. Rabiej. — Poland: Helion, Gliwice, 2012. — 344 p.

14. Mrówczyńska, M. Compression of results of geodetic displacement measurements using the PCA method and neural networks / M. Mrówczyńska, J. Sztubecki, A. Greinert // Measurement. — 2020. — Vol. 158. — P. 107693. https://doi.org/10.1016/j.measurement.2020.107693

15. Mohamad-Saleh, J. Improved Neural Network Performance Using Principal Component Analysis on Matlab / J. Mohamad-Saleh, B. C. Hoyle // International Journal of the Computer, the Internet and Management. — 2008. — Vol. 16. — P. 1–8.

16. Juszczyk, M. Application of PCA-based data compression in the ANN-supported conceptual cost estimation of residential buildings / M. Juszczyk // AIP Conference Proceedings. — 2016. — Vol. 1738. — P. 200007. https://doi.org/10.1063/1.4951979

17. Anysz, H. Neuro-fuzzy predictions of construction site completion dates / H. Anysz, N. Ibadov // Technical Transactions. Civil Engineering. — 2017. — Vol. 6. — P. 51–58. https://doi.org/10.4467/2353737XCT.17.086.6562

18. Rogalska, M. Wieloczynnikowe modele w prognozowaniu czasu procesów budowlanych / M. Rogalska. — Lublin: Politechniki Lubelskiej, 2016. — 154 p.

19. Kaftanowicz, M. Multiple-criteria analysis of plasterboard systems / M. Kaftanowicz, M. Krzemiński // Procedia Engineering. — 2015. — Vol. 111. — P. 351–355. https://doi.org/10.1016/j.proeng.2015.07.102

20. Anysz, H. The influence of input data standardization method on prediction accuracy of artificial neural networks / H. Anysz, A. Zbiciak, I. Ibadov // Procedia Engineering. — 2016. — Vol. 153. — P. 66–70. https://doi.org/10.1016/j.proeng.2016.08.081

21. Nicał, A. The quality management in precast concrete production and delivery processes supported by association analysis / A. Nicał, H. Anysz // International Journal of Environmental Science and Technology. — 2020. — Vol. 17. — P. 577–590. https://doi.org/10.1007/s13762-019-02597-9

22. Anysz, H. The association analysis for risk evaluation of significant delay occurrence in the completion date of construction project / H. Anysz, B. Buczkowski // International Journal of Environmental Science and Technology. — 2019. — Vol. 16. — P. 5396–5374. https://doi.org/10.1007/s13762-018-1892-7

23. Zeliaś, A. Prognozowanie ekonomiczne. Teoria, przykłady, zadania / A. Zeliaś, B. Pawełek, S. Wanat. — Warszawa: PWN, 2013. — 380 p.

24. Juszczyk, M. Modelling Construction Site Cost Index Based on Neural Network Ensembles/ M. Juszczyk, A. Leśniak // Symmetry. — 2019. — Vol. 11. — P. 411. https://doi.org/10.3390/sym11030411

25. Anysz, H. Comparison of ANN Classifier to the Neuro-Fuzzy System for Collusion Detection in the Tender Procedures of Road Construction Sector / H. Anysz, A. Foremny, J. Kulejewski // IOP Conference Series: Materials Science and Engineering. — 2019. — Vol. 471. — P. 112064. https://doi.org/10.1088/1757- 899X/471/11/112064

26. Piegorsch, W. W. Confusion Matrix. In: Wiley StatsRef: Statistics Reference Online. — 2020. — P. 1–4. https://doi.org/10.1002/9781118445112.stat08244

27. Kot, S. M. Statystyka / S. M. Kot, J. Jakubowski, A. Sokołowski. — Warszawa: DIFIN, 2011. — 528 p.

28. Aczel, A. D. Statystyka w zarządzaniu / A. D. Aczel, J. Saunderpandian. — Warszawa: PWN, 2000. — 977 p.

29. Narloch, P. Predicting Compressive Strength of Cement-Stabilized Rammed Earth Based on SEM Images Using Computer Vision and Deep Learning / P. Narloch, A. Hassanat, A. S. Trawneh, et al. // Applied Sciences, 2019. — Vol. 9. — P. 5131. https://doi.org/10.3390/app9235131

30. Tadeusiewicz, R. Sieci neuronowe / R. Tadeusiewicz. — Kraków: Akademicka Oficyna Wydawnicza, 1993. — 130 p.

31. Anysz, H. Designing the Composition of Cement Stabilized Rammed Earth Using Artificial Neural Networks / H. Anysz, P. Narloch // Materials. — 2019. — Vol. 12. — P. 1396. https://doi.org/10.3390/ma12091396

32. Zadeh, L. A. Fuzzy Sets / L. A. Zadeh // Information and Control. — 1965. — Vol. 8. — P. 338–353. https://doi.org/10.1016/S0019-9958(65)90241-X

33. Yagang Zhang. A hybrid prediction model for forecasting wind energy resources / Yagang Zhang, Guifang Pan // Environmental Science and Pollution Research. — 2020. — Vol. 27. — P. 19428–19446. https://doi.org/10.1007/s11356-020-08452-6

34. Eugene, E.A. Learning and Optimization with Bayesian Hybrid Models. 2020 American Control Conference (ACC) / E. A. Eugene, Xian Gao, A. W. Dowling. — IEEE. — 2020. https://doi.org/10.23919/ACC45564.2020.9148007

35. Neural Network Design / M. T. Hagan, H. B. Demuth, M. H. Beale, O. De Jesús. — Martin Hagan: Lexington, KY, USA, 2014. — 1012 p.

36. Osowski, S. Sieci neuronowe do przetwarzania informacji / S. Osowski. —Warszawa: Oficyna Wydawnicza PW, 2006. — 419 p.


Об авторе

Хуберт Аныш
Варшавский технологический университет
Польша

Аныш, Хуберт, старший преподаватель факультета гражданского строительства, доктор философии

Scopus, Researcher

00-661, г. Варшава, пл. Политехники, 1

 



Рецензия

Для цитирования:


Аныш Х. Применение инструментов машинного обучения и интеллектуальный анализ данных в отношении баз данных с небольшим количеством записей. Advanced Engineering Research. 2021;21(4):346-363. https://doi.org/10.23947/2687-1653-2021-21-4-346-363

For citation:


Anysz H. Machine Learning and data mining tools applied for databases of low number of records. Advanced Engineering Research. 2021;21(4):346-363. https://doi.org/10.23947/2687-1653-2021-21-4-346-363

Просмотров: 68


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2687-1653 (Online)