С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.
Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов.
Проще говоря, это программа, которая позволяет создать собственный корпус.
Чтобы загрузить файл в меню File нажимаем «Open File» (файл должен быть в формате .txt /.xml /.html).
- Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности
- Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу ) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов.
- Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от я до а.
- Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне Concordance.
Конкорданс — это список всех употреблений заданного языкового выражения (например, слова) в контексте, возможно, со ссылками на источник.
(В НКРЯ нечто похожее было тогда, когда мы выводили в KWIC.)
Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах.
Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы: например, пишем пункт — выйдет пункта, пункты и т. п.
Кроме того можно использовать следующие специальные символы:
Вы можете сохранить результаты вашего поиска в отдельный файл: во вкладке File > «Save Output».
График конкорданса (Concordance Plot). В этом инструменте все адреса для каждого элемента поиска представлены в виде «штрих-кода», указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент. Он также может быть использован для определения места, где сталкиваются искомый элемент и кластер. Во вкладке File View вы можете посмотреть расширенный контекст, в котором встречается искомое слово.
Кластеры (Clusters).Инструмент кластеры используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна. С помощью функции Cluster Size мы можем изменять длину искомой последовательности. Search Term Position задаёт позицию искомого слова внутри N-граммы.
Коллокации (Collocates). Кластеры показывают N-граммы, которые встречаются в тексте (т.е. слова, которые стоят рядом друг с другом непосредственно), тогда как в списке коллокаций мы видим слова, которые статистически часто встречаются с искомым словом (слова, находящиеся в «окне поиска» – Window Span).
- Freq(R) — насколько часто встречается данное слово справа от искомого
- Freq(L) — насколько часто встречается данное слово слева от искомого
- Freq — насколько часто встречается данное слово вместе с искомым
- Stat — вероятность того, что данные слова встретятся вместе относительно того насколько часто они встречаются по отдельности.
Список слов. Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе.
Список ключевых слов. В дополнение к созданию списка слов, с помощью AntConc можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми (или редкими) в целевых файлах.
Advanced Usage of Google NGram Viewer
Corpus Analysis with AntConc (tutorial)