Внедрение концепции матричного профиля в реляционную СУБД для интеллектуального анализа временных рядов

Елена Владимировна Иванова, Михаил Леонидович Цымблер

Аннотация


В настоящее время большие временные ряды используются в широком спектре предметных областей. Современные системы управления базами данных временных рядов (СУБД-ВР) предлагают, однако, скромный  набор встроенных инструментов и средств для интеллектуального анализа данных. Использование сторонних систем интеллектуального анализа временных рядов приводит в связи с этим к нежелательным накладным расходам на экспорт данных вне СУБД-ВР, преобразование данных и импорт результатов анализа. В то же время актуальной научной задачей является внедрение методов интеллектуального анализа данных в реляционные СУБД (РСУБД), которые доминируют на рынке средств управления данными. Однако пока отсутствуют разработки по внедрению методов интеллектуального анализа временных рядов в РСУБД. В статье предлагается подход к управлению и интеллектуальному анализу временных рядов внутри РСУБД на основе концепции матричного профиля. Матричный профиль представляет собой структуру данных, которая для каждой подпоследовательности временного ряда сохраняет индекс и расстояние до ее ближайшего соседа (подпоследовательности ряда, наиболее похожей на данную). Матричный профиль служит основой для обнаружения лейтмотивов (шаблонов), аномалий и других примитивов интеллектуального анализа временных рядов. Описанный подход реализован в РСУБД PostgreSQL. Представлены результаты вычислительных экспериментов, показавшие более высокую эффективность предложенного подхода по сравнению с СУБД-ВР InfluxDB и OpenTSDB.

Ключевые слова


временные ряды; матричный профиль; PostgreSQL; InfluxDB; OpenTSDB

Полный текст:

PDF

Литература


Ivanova E.V., Zymbler M.L. Overview of Modern Time Series Management Systems. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2020. Vol. 9, no. 4. P. 79–97. DOI: 10.14529/cmse200406. (in Russian)

Zymbler M.L. Overview of Methods for Integrating Data Mining into DBMS. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2019. Vol. 8, no. 2. P. 32–62. DOI: 10.14529/cmse190203. (in Russian)

Baralis E., Cerquitelli T., Chiusano S. Index Support for Frequent Itemset Mining in a Relational DBMS. Proceedings of the 21st International Conference on Data Engineering, ICDE 2005 (Tokyo, Japan, April 5–8, 2005). IEEE Computer Society, 2005. P. 754–765. DOI: 10.1109/ICDE.2005.80.

Benschoten A.V., Ouyang A., Bischoff F., et al. MPA: a novel cross-language API for time series analysis. Journal of Open Source Software. 2020. Vol. 5, no. 49. Article 2179. DOI: 10.21105/joss.02179.

DB-Engines Ranking of Time Series DBMS. URL: https://db-engines.com/en/ranking/time+series+dbms Available at: https://docs.timescale.com/ (accessed: 26.06.2021).

Feng X., Kumar A., Recht B., et al. Towards a unified architecture for in-RDBMS analytics. Proceedings of the ACM SIGMOD International Conference on Management of Data, SIGMOD 2012 (Scottsdale, AZ, USA, May 20–24, 2012). P. 325–336. DOI: 10.1145/2213836.2213874.

Gharghabi S., Ding Y., Yeh C.M., et al. Matrix Profile VIII: Domain Agnostic Online Semantic Segmentation at Superhuman Performance Levels. 2017 IEEE International Conference on Data Mining, ICDM 2017 (New Orleans, LA, USA, November 18–21, 2017). P. 117–126. DOI: 10.1109/ICDM.2017.21.

Hellerstein J.M., Re C., Schoppmann F., et al. The MADlib analytics library or MAD skills, the SQL. PVLDB. 2012. Vol. 5, no. 12. P. 1700–1711. DOI: 10.14778/2367502.2367510.

Imani S., Madrid F., Ding W., et al. Matrix Profile XIII: Time Series Snippets: A New Primitive for Time Series Data Mining. 2018 IEEE International Conference on Big Knowledge, ICBK 2018 (Singapore, November 17–18, 2018). IEEE Computer Society, 2018. P. 382–389. DOI: 10.1109/ICBK.2018.00058.

Lee Y.Q., Beh W.L., Ooi B.Y. Tracking Operation Status of Machines through Vibration Analysis using Motif Discovery. Journal of Physics: Conference Series. 2020. Vol. 1529. Article 052005. DOI: 10.1088/1742-6596/1529/5/052005.

Mahajan D., Kim J.K., Sacks J., et al. In-RDBMS Hardware Acceleration of Advanced Analytics. Proc. VLDB Endow. 2018. Vol. 11. P. 1317–1331. DOI: 10.14778/3236187.3236188.

McCaffrey J.D. A Hybrid System for Analyzing Very Large Graphs. 9th International Conference on Information Technology: New Generations, ITNG 2012 (Las Vegas, Nevada, USA, April 16–18, 2012). IEEE Computer Society, 2012. P. 253–257. DOI: 10.1109/ITNG.2012.43.

Miller C., Meggers F. The Building Data Genome Project: An open, public data set from non-residential building electrical meters. Energy Procedia. 2017. Vol. 122. P. 439–444. DOI: 10.1016/j.egypro.2017.07.400.

Nichiforov C., Stancu I., Stamatescu I., et al. Information Extraction Approach for Energy Time Series Modelling. 24th International Conference on System Theory, Control and Computing, ICSTCC 2020 (Sinaia, Romania, October 8–10, 2020). IEEE, 2020. P. 886–891. DOI: 10.1109/ICSTCC50638.2020.9259635.

Ordonez C. Can we analyze big data inside a DBMS? Proceedings of the 16th international workshop on Data warehousing and OLAP, DOLAP 2013 (San Francisco, CA, USA, October 28, 2013). ACM, 2013. P. 85–92. DOI: 10.1145/2513190.2513198.

Pan C.S., Zymbler M.L. Very Large Graph Partitioning by Means of Parallel DBMS. Advances in Databases and Information Systems – 17th East European Conference, ADBIS 2013 (Genoa, Italy, September 1–4, 2013). Lecture Notes in Computer Science. Vol. 8133. Springer, 2013. P. 388–399. DOI: 10.1007/978-3-642-40683-6_29.

Pelekis N., Tampakis P., Vodas M., et al. In-DBMS Sampling-based Sub-trajectory Clustering. Proceedings of the 20th International Conference on Extending Database Technology, EDBT 2017 (Venice, Italy, March 21–24, 2017). OpenProceedings.org, 2017. P. 632–643. DOI: 10.5441/002/edbt.2017.84.

Pizo´n J., Kulisz M., Lipski J. Matrix profile implementation perspective in Industrial Internet of Things production maintenance application. Journal of Physics: Conference Series. 2021. Vol. 1736. Article 012036. DOI: 10.1088/1742-6596/1736/1/012036.

Rechkalov T., Zymbler M.L. Integrating DBMS and Parallel Data Mining Algorithms for Modern Many-Core Processors. Data Analytics and Management in Data Intensive Domains – XIX International Conference, DAMDID/RCDL 2017 (Moscow, Russia, October 10–13, 2017). Communications in Computer and Information Science. Vol. 822. Springer, 2017. P. 230–245. DOI: 10.1007/978-3-319-96553-6_17.

Shi J., Yu N., Keogh E., et al. Discovering and Labeling Power System Events in Synchrophasor Data with Matrix Profile. 2019 IEEE Sustainable Power and Energy Conference (iSPEC) (Beijing, China, November 21–23, 2019). Article 19303617. DOI: 10.1109/iSPEC48194.2019.8975286.

Sidl´o C.I., Luk´acs A. Shaping SQL-Based Frequent Pattern Mining Algorithms. Knowledge Discovery in Inductive Databases, 4th International Workshop, KDID 2005 (Porto, Portugal, October 3, 2005), Revised Selected and Invited Papers. Lecture Notes in Computer Science. Vol. 3933. Springer, 2005. P. 188–201. DOI: 10.1007/11733492_11.

Yankov D., Keogh E.J., Rebbapragada U. Disk aware discord discovery: finding unusual time series in terabyte sized datasets. Knowledge and Information Systems. 2008. Vol. 17. P. 241–262. DOI: 10.1109/ICDM.2007.61.

Yeh C.-C.M., Zhu Y., Ulanova L., et al. Time series joins, motifs, discords and shapelets: a unifying view that exploits the matrix profile. Data Min. Knowl. Discov. 2018. Vol. 32, no. 1. P. 83–123. DOI: 10.1007/s10618-017-0519-9.

Zhu Y., Gharghabi S., Silva D.F., et al. The Swiss army knife of time series data mining: ten useful things you can do with the matrix profile and ten lines of code. Data Mining and Knowledge Discovery. 2020. Vol. 34. P. 949–979. DOI: 10.1007/s10618-019-00668-6.

Zhu Y., Imamura M., Nikovski D., et al. Matrix Profile VII: Time Series Chains: A New Primitive for Time Series Data Mining. 2017 IEEE International Conference on Data Mining, ICDM 2017 (New Orleans, LA, USA, November 18–21, 2017). P. 695–704. DOI: 10.1109/ICDM.2017.79.

Zhu Y., Zimmerman Z., Senobari N.S., et al. Matrix Profile II: Exploiting a Novel Algorithm and GPUs to Break the One Hundred Million Barrier for Time Series Motifs and Joins. IEEE 16th International Conference on Data Mining, ICDM 2016 (Barcelona, Spain, December 12–15, 2016). IEEE Computer Society, 2016. P. 739–748. DOI: 10.1109/ICDM.2016.0085.

Zymbler M.L., Kraeva Y., Grents A., et al. An Approach to Fuzzy Clustering of Big Data Inside a Parallel Relational DBMS. Data Analytics and Management in Data Intensive Domains – 21st International Conference, DAMDID/RCDL 2019 (Kazan, Russia, October 15–18, 2019). Communications in Computer and Information Science. Vol. 1223. Springer, 2019. P. 211–223. DOI: 10.1007/978-3-030-51913-1_14.




DOI: http://dx.doi.org/10.14529/cmse210305