Удаление дублей строк онлайн
Удалите дублирующиеся строки из текста. Учёт регистра, пробелов, сортировка.
Использовано: — раз
Удаление дублирующихся строк
Инструмент удаляет повторяющиеся строки из текста, оставляя только уникальные. Это полезно для очистки списков email-адресов, ключевых слов, данных из Excel, логов и любых текстовых списков.
Алгоритм работает на основе JavaScript Set — это гарантирует производительность O(n) даже для больших текстов (до 100 000 символов).
Для подсчёта символов используйте счётчик символов. Для транслитерации текста — транслитерацию онлайн.
Зачем удалять дублирующиеся строки
Дублирующиеся строки — частая проблема при работе с текстовыми данными. Вот типичные ситуации, когда вам понадобится очистка:
- Списки email-адресов. При объединении нескольких баз подписчиков неизбежно появляются дубли. Отправка писем по дублирующимся адресам портит репутацию домена и увеличивает расходы на рассылку.
- SEO-работа. Семантическое ядро, собранное из нескольких источников (Wordstat, Keys.so, Serpstat), часто содержит повторяющиеся ключевые фразы. Перед загрузкой в таблицу кластеризации дубли нужно убрать.
- Лог-файлы. В серверных логах одинаковые ошибки могут повторяться тысячи раз. Удаление дублей помогает быстро увидеть список уникальных ошибок.
- Данные из CSV и Excel. При экспорте данных из разных систем и объединении в один файл появляются повторы строк. Очистка перед импортом в базу — обязательный шаг.
- Списки товаров, артикулов, ID. Если вы работаете с каталогами, маркетплейсами или CRM, дубли в списках артикулов приводят к ошибкам обработки.
Режимы удаления дублей
Инструмент поддерживает несколько режимов, которые можно комбинировать:
С учётом регистра (по умолчанию). Строки «Москва» и «москва» считаются разными. Это подходит для работы с данными, где регистр несёт смысловую нагрузку — например, имена собственные или программный код.
Без учёта регистра. Включите опцию «Игнорировать регистр» — тогда «Москва», «москва» и «МОСКВА» будут считаться одной строкой. Останется первое вхождение. Этот режим удобен для списков ключевых слов, доменов, email-адресов.
Обрезка пробелов. По умолчанию пробелы в начале и конце строки обрезаются перед сравнением. Это предотвращает ситуацию, когда « Москва» и «Москва» считаются разными строками. Особенно полезно при вставке из Excel, где ячейки часто содержат невидимые пробелы.
Удаление пустых строк. Если включена опция «Убрать пустые строки», пустые строки и строки, состоящие только из пробелов, будут удалены из результата.
Сортировка. Опция «Сортировать» упорядочивает оставшиеся уникальные строки по алфавиту. Это удобно для формирования финального списка.
Работа с большими списками
Инструмент обрабатывает тексты до 100 000 символов прямо в браузере. Алгоритм основан на JavaScript Set — структуре данных с временной сложностью O(n), что означает мгновенную обработку даже для списков из десятков тысяч строк.
Ориентировочные ограничения:
- До 10 000 строк — мгновенно (менее 50 мс)
- 10 000 — 50 000 строк — менее секунды
- 50 000 — 100 000 строк — 1-2 секунды
Если вам нужно обработать файл больше 100 000 символов, разделите его на части или используйте
командную строку: в Linux и macOS команда sort -u file.txt обрабатывает файлы
любого размера. В Windows аналог — Get-Content file.txt | Sort-Object -Unique
в PowerShell.
Все вычисления происходят в вашем браузере. Текст не отправляется на сервер, что важно при работе с конфиденциальными списками — email-адресами клиентов, внутренними данными компании или персональной информацией.
Примеры использования
Очистка email-рассылки. Вы собрали базу подписчиков из трёх источников: форма на сайте, CRM и старый Excel-файл. Скопируйте все адреса в инструмент, включите «Игнорировать регистр» (потому что user@Mail.ru и user@mail.ru — один адрес), отметьте «Убрать пустые строки» — и получите чистый список уникальных адресов.
Семантическое ядро. После сбора ключевых слов из Wordstat, Keys.so и конкурентов у вас 5000 фраз с дублями. Вставьте список, включите «Сортировать» — получите чистый отсортированный список для дальнейшей кластеризации.
Лог-файлы. Скопируйте строки ошибок из лога сервера. Инструмент покажет только уникальные сообщения об ошибках и статистику — сколько строк было и сколько осталось после очистки.
После удаления дублей проверьте количество оставшихся строк через счётчик символов и слов. А если нужно транслитерировать очищенный список — используйте транслитерацию онлайн.
Встроить на свой сайт
Скопируйте код:
Часто задаваемые вопросы
Вставьте текст в поле — дубликаты будут удалены мгновенно. Каждая строка сравнивается с остальными, повторы убираются.
По умолчанию регистр учитывается: «Привет» и «привет» — разные строки. Включите опцию «Игнорировать регистр» для нечувствительного сравнения.
Да, если включена опция «Убрать пустые строки». По умолчанию пустые строки сохраняются.
Да. Включите опцию «Сортировать» — строки будут отсортированы по алфавиту после удаления дублей.
Да, пробелы в начале и конце каждой строки обрезаются перед сравнением. Это предотвращает ложные дубли.