DRSA: алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности


И. В. Гончаренко


DOI: https://doi.org/10.31111/vegrus/2015.27.125


Аннотация статьи

Описан новый метод неиерархической, основанной на группировке с использованием k-NN графа и получившей название «сортирующей по рангам» кластеризации — DRSA, «Distance-Ranked Sorting Assembling». Метод рассматривается в контексте применимости для классификации растительности и апробирован на 4 модельных наборах фитоценотических данных из Чехии и Украины. Для оценки достигнутого качества фитоценонов использованы внутренние (по матрице расстояний) и флористические (по количеству верных видов) критерии, а также расчет корреляции автоматической (по методу DRSA) и экспертной (по методике Браун-Бланке) классификаций. Перспективность предложенного метода для классификации растительности связана с такими его особенностями, как минимум настроечных параметров для начала анализа, отсутствие необходимости указывать число кластеров или уровней деления, робастность кластеризации, определение экотонных фитоценозов (шума), эффективность при широком эколого-фитоценотическом диапазоне и разном альфа- и бета-разнообразии, возможность варьировать масштаб кластеризации, малая зависимость от коэффициента связи между фитоценозами из-за использования ранжированных расстояний.


Ключевые слова: DRSA, сортирующая кластеризация, кластерный анализ, классификация растительности


Рубрика: Методика исследований


Цитирование статьи

Гончаренко И. В. 2015. DRSA: алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности // Растительность России. № 27. С. 125–138. https://doi.org/10.31111/vegrus/2015.27.125


Получено 6 апреля 2015 г.


Список литературы

Гиляров А. М. 2005. Перестройка в экологии: от описания видимого к пониманию скрытого // Вестн. РАН. Т. 75. № 3. С. 214–223.

Голуб В. Б. 2010. Использование геоботанических описаний в качестве коллекции образцов для классификации растительности // Растительность России. № 17–18. С. 70–83. https://doi.org/10.31111/vegrus/2011.17-18.70

Гончаренко І. В. 2003. Аналіз рослинного покриву північно-східного Лісостепу України. Монографія // Укр. фітоцен. зб. Сер. А. № 1 (19). 203 c.

Гончаренко І. В. 2015a. Свідоцтво про реєстрацію авторського права на збірку наукових творів № 58837 від 26.02.2015 р. DRSA (distance-ranked sorting assembling) — метод сортуючого кластерного аналізу (DRSA—метод сортуючого кластерного аналізу). Бюл. № 36. 45 с.

Гончаренко І. В. 2015б. Метод «сортуючої» кластеризації (DRSA) для класифікації рослинності // Доповіді НАН України. № 9. С. 129–136.

Ким Дж.-O., Мюллер Ч. У., Клекка У. Р., Олдендерфер М. С., Блэшфильд Р. К. 1989. Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Под ред. И. С. Енюкова. М. 215 с.

Косман Є. Г., Сіренко І. П., Соломаха В. А., Шеляг-Сосонко Ю. Р. 1991. Новий комп’ютерний метод обробки описів рослинних угруповань // Укр. ботан. журн. Т. 48. № 2. С. 98–104.

Мандель И. Д. 1988. Кластерный анализ. М. 176 с.

Миркин Б. М., Наумова Л. Г. 2009. Метод классификации растительности по Браун-Бланке в России // Журн. общ. биологии. Т. 70. № 1. С. 66–77.

Миркин Б. М., Наумова Л. Г. 2012. Синтаксономия растительности России: вчера, сегодня, завтра // Изв. Самар. науч. центра РАН. Т. 14. № 1 (4). С. 937–941.

BelbinL., McDonaldC. 1993. Comparing three classification strategies for use in ecology // J. Veg. Sci. Vol. 4. P. 341–348. https://doi.org/10.2307/3235592

Chytrý M., Horák J. 1997. Plant communities of the thermophilous oak forests in Moravia // Preslia. Vol. 68. P. 193–240.

Chytrý M., Vicherek J. 1995. Lesní vegetace Národního ­par­ku Podyjí / Thayatal. Die Waldvegetation des ­Nationalparks Podyjí / Thayatal. Praha. 1995. 166 p.

Chytrý M., Vicherek J. 1996. Přirozená a polopřirozená vegetace údolí řek Oslavy, Jihlavy a Rokytné // Přírod. Sborn. Západomorav. Muz. Třebíč. Vol. 22. P. 1–125.

Chytrý M., Tichý L., Holt J., Botta-Dukát Z. 2002. Determination of diagnostic species with statistical fidelity measures // J. Veg. Sci. Vol. 13. P. 79–90. https://doi.org/10.1111/j.1654-1103.2002.tb02025.x

Cover T. M., Hart P. E. 1967. Nearest neighbor pattern classification // Information Theory. Vol. 13. P. 21–27. https://doi.org/10.1109/TIT.1967.1053964

Cramér H. 1946. Mathematical methods of statistics. Prin­ceton. 282 p.

De Cáceres M., Font X., Oliva F. 2008. Assessing diagnostic species value in large data sets: A comparison between phi-coefficient and Ochiai index // J. Veg. Sci. Vol. 19. P. 779–788. https://doi.org/10.3170/2008-8-18446

Dengler J., Löbel S., Dolnik C. 2009. Species constancy depends on plot size — a problem for vegetation classification and how it can be solved // J. Veg. Sci.. Vol. 20. P. 754–766. https://doi.org/10.1111/j.1654-1103.2009.01073.x

Dufrêne M., Legendre P. 1997. Species assemblages and indicator s pecies: the need for a flexible asymmetrical approach // Ecol. Monogr. Vol. 67. P. 345–366. https://doi.org/10.1890/0012-9615(1997)067[0345:SAAIST]2.0.CO;2

Ester M., Kriegel H. P., Sander J., Xu X. 1996. A density-based algorithm for discovering clusters in large spatial databases // Proc. 1996 Intern. Conference on know­ledge discovery and data mining. Portland, USA (August 1996). Portland. P. 226–231.

Halkidi M., Batistakis Y., Vazirgiannis M. 2001. On clustering validation techniques // J. Intelligent Information Systems. Vol. 17. P. 107–145. https://doi.org/10.1023/A:1012801612483

Hennekens S. M. 1996. MEGATAB — a visual editor for phytosociological tables. Version 1.0. Oсtober 1996. Ulft., 11 p.

Hill M. O. 1979. TWINSPAN — A FORTRAN program for arranging multivariate data in an ordered two-way table by classification of the individuals and attributes. Ithaca, New York. Program manual. 90 p.

Hill M. O., Šmilauer P. 2005. TWINSPAN for Windows version 2.3. Huntingdon; České Budějovice. 29 p.

Ochiai A. 1957. Zoogeographic studies on the soleoid fishes found in Japan and its neighbouring regions // Bul. Japan. Society for Fish Science. Vol. 22. №. 9. P. 526–530. (In Japanese, English summary).

Rand W. M. 1971. Objective criteria for the evaluation of clustering methods // J. American Statistic. Association. Vol. 66 (336). P. 846–850.

Rendón E., Abundez I., Arizmendi A., Quiroz E. 2011. Internal versus external cluster validation indices // Int. J. Computers and Communications. Vol. 5. P. 27–34.

Roleček J., Tichy L., Zeleny D., Chytry M. 2009. Modified TWINSPAN classification in which the hierarchy respects cluster heterogeneity // J. Veg. Sci. Vol. 20. P. 596–602. https://doi.org/10.1111/j.1654-1103.2009.01062.x

The Plant List.2010. Version 1.1. Published on the Internet. URL:http://www.theplantlist.org (датаобращения: 07.10.2015).

TichýL. 2002. JUICE, software for vegetation classification // J. Veg. Sci. Vol. 13. P. 451–453. https://doi.org/10.1111/j.1654-1103.2002.tb02069.x

Tichý L., Chytrý M., Hájek M., Talbot S. S., Botta-Dukát Z. 2010. OptimClass: Using species-to-cluster fidelity to determine the optimal partition in classification of ecological communities // J. Veg. Sci. Vol. 21. P. 287–299. https://doi.org/10.1111/j.1654-1103.2009.01143.x