РАЗРАБОТКА МОДИФИЦИРОВАННОГО МЕТОДА WINNOWING ДЛЯ АГРЕГИРОВАНИЯ ДАННЫХ БИБЛИОГРАФИЧЕСКОЙ ИНФОРМАЦИИ ИЗ СИСТЕМ ЦИТИРОВАНИЯ В УСЛОВИЯХ НЕПОЛНОЙ ИНФОРМАЦИИ

Ирина Павловна Болодурина, Юлия Петровна Иванова (Луговскова), Лариса Михайловна Анциферова, Владислав Дмитриевич Блинов

Аннотация


В настоящее время переход к представлению библиографической информации о научных работах к электронному виду послужил причиной повышенного интереса к наукометрическим исследованиям. При этом существующие наукометрические методы подвергаются критике со стороны ученых, так как неполная библиографическая база и инструменты ее оценивания не позволяют наиболее точно оценить вклад научного труда. Проблема качества наукометрических оценок, как правило, основывается на исследовании данных некоторой системы цитирования, которая не включает полные сведения обо всех публикациях авторов, содержащихся в других системах цитирования. Цель исследования. Данное исследование направлено на разработку адаптивного подхода для формирования агрегированных данных библиографической информации научной организации в условиях неполной информации из систем цитирования РИНЦ, «Академия Google» и Scopus. Методы. Определение агрегированного списка публикаций для анализа наукометрических показателей проведено методом Winnowing, алгоритмом Левенштейна, методом шинглов и Джаро – Винклера. В рамках экспериментального исследования проведена оценка эффективности применения рассмотренных методов для агрегирования информации систем цитировния на основе анализа точности, полноты и F-меры. Результаты. Эксперименты на тестовых данных списка публикаций авторов Оренбургского государственного университета из систем цитирования РИНЦ, «Академия Google» и Scopus показали, что наиболее точные списки публикаций по критерию F-меры сформировал метод Winnowing. Для повышения производительности данного алгоритма проведена двухэтапная оптимизация процесса агрегирования, которая позволила улучшить время работы алгоритма при формировании списка библиографических описаний. Заключение. Предложенный подход для формирования агрегированных данных библиографической информации научной организации в условиях неполной информации из систем цитирования РИНЦ, «Академия Google» и Scopus позволяет повысить производительность при формировании списка публикаций авторов и показывает хорошую эффективность при определении наукометрических характеристик авторов.

Ключевые слова


система цитирования, наукометрические методы, агрегирование библиографической ин-формации, модификация метода Winnowing, метод Левенштейна, метод шинглов

Полный текст:

PDF

Литература


Yang, K. Citation Analysis: A Comparison of Google Scholar, Scopus, and Web of Science /

K. Yang, L.I. Meho // Proceedings of the American Society for Information Science and Tech-nology. – 2006. – Vol. 43, no. 1. – P. 1–15.

Collection statistics for fast duplicate document detection / A. Chowdhury, O. Frieder, D. Gros¬sman, C. Mccabe // ACM Trans. Inform. Syst. – 2002. – Vol. 20, no. 2. – P. 171–191.

Kotsemir, M.N. Publication Activity of Russian Researches in Leading International Scientific Journals / M.N. Kotsemir // Acta naturae. – 2012. – Vol. 4, no. 2 (13). – P. 15–35.

Мазов, Н.А. Программы для наукометрических и библиометрических исследований: краткий обзор и сравнительный анализ / Н.А. Мазов, В.Н. Гуреев // Труды 15-й Всерос-сийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». – 2013. – С. 23–28.

Косинов, Д.И. Использование статистической информации при выявлении схожих документов / Д.И. Косиянов // Сборник «Интернет-математика». – 2007. – С. 84–90.

Baneyx, A. «Publish or Perish» as citation metrics used to analyze scientific output in the humanities: international case studies in economics, geography, social sciences, philosophy, and history / A. Baneyx // Archivum Immunologiae et Therapiae Experimentalis. – 2008. – Vol. 56, no. 6. – P. 363–371.

Болдырев, П.А. Обзор программных средств в области анализа публикационной активности учёных / П.А. Болдырев, И.Б. Крылов // XXIII студенческая международная заоч-ная научно-практическая конференция «Молодёжный научный форум: технические и математические науки». – 2015. – http://nauchforum.ru/ru/node/6914 (дата обращения: 01.10.2020).

Квелидзе-Кузнецова, Н.Н. Библиометрические показатели как оценочный критерий деятельности преподавателя университета / Н.Н. Квелидзе-Кузнецова, С.А. Морозова // Universum: Вестник Герценовского университета. – 2009. – № 4. – С. 38–45.

Москалева, О.В. Потери публикаций России: почему и как избежать? / О.В. Москалева // 4-я Международная научно-практическая конференция «Научное издание международного уровня – 2015: современные тенденции в мировой практике редактирования, издания и оценки научных публикаций». – 2015. – С. 87–91.

Полянин, А.Д. Об индексе Хирша и других наукометрических показателях / А.Д. Полянин // Научное сообщество. – 2013. – № 8–9. – С. 20–22.

Штовба, С.Д. Обзор наукометрических показателей для оценки публикационной активности учёного / С.Д. Штовба, Е.В. Штовба // Управление большими системами. Специальный выпуск 44: «Наукометрия и экспертиза в управлении наукой» . – 2013. – С. 262–278.

Холодов, А.С. Об индексах цитирования научных работ / А.С. Холодов // Вестник Рос-сийской академии наук. – 2015. – Т. 85, № 4. – С. 310–320.

Garcia-Perez, M.A. The Hirsch h index in a nonmainstream area: methodology of the behavioral sciences in Spain / M.A. Garcia-Perez // The Spanish Journal of Psychology. – 2009. – Vol. 12, no. 2. – P. 833–849.

Egghe, L. Mathematical theory of the h- and g-index in case of fractional counting of author-ship / L. Egghe // Journal of the American Society for Information Science and Technology. – 2008. – Vol. 59, no. 10. – P. 1608–1616.

Krylov, I.B. Several characteristics of existing automated systems according to survey of rus-sian scientists publishing activity / I.B. Krylov, P.A. Boldyrev // Theoretical & Applied Science. – 2015. – no. 5 (25). – P. 6–9.




DOI: http://dx.doi.org/10.14529/ctcr200413

Ссылки

  • На текущий момент ссылки отсутствуют.