Извлечь адреса электронной почты из файла

Обновлено: 07.07.2024

7 ЛУЧШЕЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ИЗВЛЕЧЕНИЯ ЭЛЕКТРОННОЙ ПОЧТЫ ДЛЯ СБОРА АДРЕСОВ ЭЛЕКТРОННОЙ ПОЧТЫ [СВЕЖИЙ СПИСОК] - ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ - 2021

Видео: Настя и сборник весёлых историй 2021.

Программное обеспечение для извлечения электронной почты включает сборщик адресов электронной почты. Другими словами, инструмент для извлечения электронной почты извлекает адреса электронной почты из Интернета.

Не забудьте внести в белый список наш сайт. Это уведомление не исчезнет, ​​пока вы не сделаете это. Вы ненавидите рекламу, мы ее получаем. Мы делаем так же. К сожалению, это единственный способ для нас, чтобы продолжать предоставлять звездный контент и руководства о том, как решить ваши самые большие технические проблемы. Вы можете поддержать нашу команду из 30 человек, чтобы они продолжали выполнять свою работу, занеся в белый список наш сайт. Мы размещаем только несколько рекламных объявлений на странице, не препятствуя вашему доступу к контенту.

Вы можете определить любые критерии поиска, которые могут быть доменным именем, поисковой системой и ключевым словом. На рынке представлено множество инструментов для извлечения электронной почты, и мы выбрали семь лучших из них, чтобы сделать ваш выбор намного проще.

Какой самый лучший экстрактор электронной почты?

  1. Technocom Email Extractor
  2. Y-Leads экстрактор
  3. Email Extractor Pro
  4. Gmail Email Extractor
  5. GSA Email Spider
  6. Ведущий экстрактор свинца
  7. Email Grabber

1. Technocom Email Extractor


Этот экстрактор электронной почты является одним из самых быстрых инструментов, которые мы тестировали. Он извлекает все возможные адреса электронной почты со всех веб-сайтов, URL-адреса и, как правило, из Интернета.

С его помощью вы можете извлекать электронные письма в быстром режиме. Все, что вам нужно сделать, это добавить URL-адреса, из которых вы хотите извлечь письма, и начать процесс.

Еще одна отличная функциональность - устранение дублирующихся адресов . У вас будет меньше выбора и удаления работы, тем самым ускоряя рабочий процесс.

Вы также можете выбрать, чтобы сохранять электронные письма, которые вам действительно нужны, и сосредоточиться на важных адресах, используя функцию «перейти на уровень».

Вы можете скачать его бесплатно и протестировать, а также напрямую купить по ссылкам ниже.

  • Загрузить сейчас Technocom Email Extractor

2. Y-LEADS EXTRACTOR


Yellow Leads Extractor - полезный и профессиональный инструмент для тех, кому необходимо создать базу данных о бизнес-перспективах.

Фактически, программа способна сканировать и извлекать контактные данные (например, название компании, телефон и адрес электронной почты) тысяч компаний непосредственно с сайтов «Желтых страниц» по всему миру.

Это просто и интуитивно понятно. Просто выберите нужную страну, выберите категорию, местоположение и ключевое слово и нажмите кнопку «Получить данные». В конце процесса извлечения вы можете экспортировать все записи в Excel или CSV.

Источниками, поддерживаемыми Y-Leads Extractor, являются каталоги YellowPages, Yelp и Infobel из крупнейших стран мира, таких как США, Германия, Канада, Испания, Франция, Бразилия, Россия, Индия и многие другие.

Программа постоянно обновляется и новые источники добавляются ежемесячно.

  • Проверьте сейчас Y-приводит экстрактор

3. Email Extractor Pro


Это усовершенствованный сборщик адресов электронной почты, который извлекает адреса электронной почты из Интернета. Мощный движок программного обеспечения будет быстро извлекать адреса электронной почты с веб-сайтов и ведущих поисковых систем, включая MSN, Yahoo и Google.

Проверьте более важные функции, которые включены в этот инструмент:

  • Email Extractor Pro автоматически удаляет дубликаты писем.
  • Вы можете легко дополнить свой список рассылки тысячами адресов электронной почты, исключая при этом много часов работы.
  • Инструмент предназначен для автоматического извлечения адресов электронной почты из Интернета и локальных файлов.
  • Email Extractor Pro компилирует электронные письма в список, исключающий дубликаты.
  • Мощный движок делает Email Extractor Pro одним из самых быстрых инструментов.
  • Он использует минимум ресурсов вашей системы и будет работать в фоновом режиме.
  • Он прост в использовании и имеет удобный интерфейс.
  • Это обеспечивает быструю и плавную работу.
  • Надежность Email Extractor действительно впечатляет, и программа легко устанавливается и удаляется с вашего ПК.
  • Несмотря на то, что этот инструмент легок и не займет много места в вашей системе, его скорость впечатляет.

Вы также получите качественную поддержку от профессиональной команды поддержки.

Вы можете заказать Email Extractor Pro с официального сайта, где вы также можете перемещаться, чтобы узнать больше о нем и о том, как он работает.

4. Gmail Email Extractor


Этот экстрактор почтовых идентификаторов может собирать почтовые идентификаторы из Gmail, и этот инструмент является небольшим, но эффективным одновременно. У него есть мастерство в получении идентификаторов электронной почты из учетной записи Gmail.

Ознакомьтесь с более интересными функциями этого инструмента ниже:

Это быстрое и свободное от спама программное обеспечение, которое способно сэкономить вам массу времени. Вы можете скачать Gmail Email Extractor прямо сейчас и попробовать его самостоятельно, а также купить Pro версию из того же места.

5. GSA Email Spider


GSA Email Spider позволяет собирать и извлекать электронные письма, а также номера телефонов и факсов с веб-сайтов по всему миру.

Инструмент позволит вам использовать определенные ключевые слова, а сайты будут анализироваться приложением по ранее введенному вами ключевому слову.

Инструмент способен пауков, захватывать, ползать, рвать, собирать и извлекать предметы.

Проверьте более впечатляющие функции, которые упакованы в этом программном обеспечении:

6. Ведущий экстрактор свинца


Top Lead Extractor может извлекать адреса электронной почты, номера телефонов, факсов, идентификаторы Skype, MSN, AOL, Yahoo и ICQ из Интернета.

Проверьте основные функции этого инструмента ниже:

  • Top Lead Extractor извлекает адреса электронной почты, стационарные контактные данные, номера мобильных телефонов, Skype, номера факсов, MSN, Yahoo и ICQ идентификаторы из Интернета через такие механизмы, как Yahoo, Google, Bing и так далее.
  • Инструмент предназначен для извлечения данных с различными критериями и вариантами, чтобы обеспечить наилучшие результаты.
  • Программное обеспечение поставляется с параметрами фильтра, так что вы сможете уточнить результаты поиска контактной информации.
  • Вы сможете сохранить результаты поиска отдельно в разных файлах.
  • Программа поставляется с простым в использовании интерфейсом.

Он может обрабатывать сотни контактов в секунду из нескольких источников одновременно. Инструмент использует многопоточную технологию. Вы можете получить его с этого сайта.

7. Email Grabber


Email Grabber позволяет автоматически извлекать адреса электронной почты с различных сайтов. Это быстрый экстрактор электронной почты, который использует несколько одновременных подключений для одновременного сканирования большего количества URL-адресов, а также максимально быстро.

Ознакомьтесь с более интересными функциями этого инструмента ниже:

  • Вы должны предоставить программе стартовый веб-сайт или стартовые ключевые слова с помощью Мастера поиска и просто позволить Grabbed по электронной почте сделать всю остальную работу за вас.
  • Инструменты будут сканировать сеть и собирать все найденные адреса электронной почты.
  • Вы сможете защитить свой поиск, используя фильтр уровней и фильтры URL.
  • Email Grabber позволяет фильтровать ваш поиск, ограничивая количество уровней, разрешенных для поиска.
  • У вас также будет возможность сохранить сеанс поиска, чтобы вы могли возобновить его позже.
  • Вы можете экспортировать адреса электронной почты, собранные с помощью форматов, которые подходят для приложений электронных таблиц, почтовых клиентов и баз данных.
  • Вы также можете объединить адреса электронной почты из нескольких локальных файлов, удалив дубликаты и выполнив проверку синтаксиса.

Программное обеспечение перемещается по сети в поисках адресов электронной почты, и это делает это невероятно быстро, экономя вам много времени. Email Grabber поставляется с инструментами, которые позволяют вам направлять программное обеспечение, чтобы вы могли сосредоточить поиск на своей цели.

Проверьте более подробную информацию о программном обеспечении на официальном сайте Email Grabber.

Это лучшие семь инструментов для извлечения писем, и, как вы можете видеть, все они имеют уникальные функции.

Посетите их официальные веб-страницы, чтобы узнать больше информации об этих программах и выбрать ту, которая вам нравится больше всего, в соответствии с вашими потребностями.

Если у вас есть другие предложения или вопросы, не стесняйтесь оставлять их в разделе комментариев ниже.

Какое лучшее программное обеспечение для защиты электронной почты на 2019 год? [обновленный список]

Какое лучшее программное обеспечение для защиты электронной почты на 2019 год? [обновленный список]

Если вы хотите, чтобы ваши личные данные были защищены, вот 5 лучших программ для обеспечения конфиденциальности электронной почты на 2019 год, включая Mailpile и Tutanota.

5 Лучшее программное обеспечение для отслеживания электронной почты для мониторинга вашей электронной почты

5 Лучшее программное обеспечение для отслеживания электронной почты для мониторинга вашей электронной почты

Инструменты отслеживания электронной почты полезны для предоставления важных сведений и функций, включая объявление о том, что вы знаете, когда получатель открыл ваши отправленные электронные письма и была ли нажата какая-либо из ссылок, включенных в них, среди прочего. Есть много программ отслеживания электронной почты, доступных онлайн, некоторые из них бесплатно и другие, которые имеют…

5 Лучшее программное обеспечение для ремонта ПК аудио для Windows 10 [свежий список]

5 Лучшее программное обеспечение для ремонта ПК аудио для Windows 10 [свежий список]

Устали слушать эссе, взрывные устройства, шипение, взлом и треск? Тогда прочитайте эту статью о 5 лучших аудио программ для ремонта на рынке сегодня.

Как извлечь адреса электронной почты из текстового файла?

Имея файл, например извлечение из вашего почтового ящика, и вы хотите извлечь только адреса электронной почты?

Используя Notepad ++ и простое регулярное выражение, это довольно просто.

Ниже приведен полный пример или, чтобы подвести итог, откройте свой файл, используйте ниже regexp для поиска адресов электронной почты, добавьте разрывы строк до и после каждого из них, а затем отметьте строки, содержащие адрес электронной почты, и удалите немаркированные строки.

Блокнот ++ регулярное выражение‌ для извлечения текста

Начиная с вашего файла - в этом примере извлечение адресов «TO» в папке электронной почты Outlook 2013 отправлено - у вас может быть много странных символов, ненужный текст, адреса электронной почты в одной строке, .

Первый шаг - открыть параметр «Заменить», «Поиск»> «Заменить» или «Ctrl + H».

Nnotepad ++ регулярное выражение

Здесь, в Find, введите ниже регулярное выражение.

В поле «Заменить» введите это, чтобы заменить каждый адрес электронной почты на: break line \ n + строка поиска $ 1 + разрыв строки \ n

Обязательно проверьте переключатель «Регулярное выражение» и нажмите «Заменить все».

Посмотрите результат - каждый адрес электронной почты теперь находится на одной линии в новой строке.

Следующий шаг - идентифицировать все эти строки, содержащие только один адрес электронной почты. Откройте Marktab в окне поиска. Скопируйте те же регулярные выражения, что и раньше, чтобы идентифицировать адреса электронной почты. Убедитесь, что флажок Регулярное выражение отмечено вместе с параметром «Закладка» и запустите операцию маркировки с помощью «Отметить все»

В файле все строки, содержащие адреса электронной почты, теперь отмечены закладкой.

В Search => Bookmark выберите Удалить строки без подписки

И вуаля! Теперь ваш файл содержит только адреса электронной почты без ненужного текста.

В качестве последнего шага вы можете удалить дубликаты, чтобы иметь список уникальных адресов электронной почты.

Извлекать электронные письма из текста file

Чтобы извлечь электронные письма из текстового файла, откройте его с помощью текстового редактора Notepad ++ и примените приведенные выше инструкции, используя регулярное выражение, помечая все электронные письма, выбирая только электронные письма и копируя их.

Notepad ++ скопировать все совпадения регулярных выражений

Чтобы скопировать все совпадения регулярных выражений, используйте окно поиска Marktab in Notepad ++. Помещая здесь регулярное выражение, все результаты, соответствующие регулярному выражению, будут отмечены, и их можно будет выбрать и скопировать таким образом.

Блокнот ++ обрезать теги HTML

Чтобы удалить теги HTML в Notepad ++ из текста, используйте регулярное выражение‌ ниже<.*?>|</.*?>и заменить, например, пробелом. Убедитесь, что в форме поиска установлен флажок регулярного выражения.

Блокнот ++ извлечь URL

В меню замены, доступном с помощью сочетания клавиш CTRL + H, используйте следующее регулярное выражение‌ с проверенным регулярным выражением и совпадением точек с новой строкой:

И используйте эту строку замены, чтобы получить список всех URL, извлеченных в файле:

Как скопировать отмеченные строки в NotePad ++?

Помеченный текст в Notepad ++ можно скопировать с помощью поиска регулярных выражений, используя меню поиска> отметка, выбрав строку закладки и щелкнув отметку «все».

Затем используйте меню поиска> закладка> копировать строки с закладками, и результат может быть вставлен в новый файл, содержащий копию отмеченных строк.

Как извлечь электронные письма из текста в несколько кликов?

Чтобы извлечь электронные письма из текста, просто введите регулярное выражение, чтобы узнать все адреса электронной почты в текстовом файле, например, извлечение всех ваших контактов из Microsoft Outlook.

Затем определите адреса электронной почты и удалите лишние строки. Используя NotePad ++, это легко сделать, следуя нашему руководству.

Как извлечь письма из файла CSV?

Адреса электронной почты в CSV, такие как экспорт MicrosoftOutlook, работают точно так же, как и для стандартного текстового файла.

Чтобы извлечь электронные письма из CSV-файла, начните с открытия CSV-файла в текстовом редакторе Notepad ++, выделите отдельные адреса электронной почты с помощью процесса, описанного выше, и скопируйте их.

  • Откройте файл CSV с помощью текстового редактора Notepad ++,
  • Введите регулярное выражение, соответствующее потенциальным адресам электронной почты,
  • Замените их на электронную почту и разрыв строки,
  • Используйте регулярное выражение‌ для закладки эффективных адресов электронной почты,
  • Удалить незаписанные строки, не содержащие адреса электронной почты,
  • Получите окончательный список, выполнив операцию удаления дубликатов, которая очистит ваш файл и извлечет электронные письма из вашего CSV-файла и будет готов к экспорту.

Когда процесс извлечения писем из файла CSV завершен с использованием регулярного выражения, вы сможете скопировать их непосредственно из результатов.

Электронная почта является одним из самых мощных инструментов интернет-маркетинга. Несмотря на ограниченную функциональность, она в некоторой степени повышает заинтересованность пользователя к предлагаемым продуктам или услугам. Один из самых популярных каналов коммуникации широко используется маркетологами не только в России, но и во всём мире.

Email-маркетинг всё чаще используется в информационных и рекламных целях. Метод также может применяться для маркетинговых исследований (например, опрос, голосование и пр.), что позволяет собирать информацию о потребностях или уровне удовлетворенности клиентов касательно продукта или сервиса.

Преимущества парсинга перед сбором контактов на сайте

Метод востребован по ряду причин:

  • Экономия средств. Еmail-маркетинг является одним из самых дешевых способов рекламирования компании в интернете. Метод, в отличие от других инструментов, позволяет получить большую клиентскую базу без дополнительных затрат.
  • Быстрый и эффективный способ поиска контактов. Парсинг позволяет мгновенно увеличить число потенциальных клиентов. Расширяя свою аудиторию, владелец повышает объем продаж.

Другие преимущества парсинга:

  • скорость передачи информации;
  • масштабность охвата;
  • полученные данные можно сохранить в таблице (Excel, Google Docs, Word и пр.);
  • встроенные инструменты позволяют удалять дубликаты.

Программы могут выполнять поиск странам, по ключевым словам и другим критериям (в зависимости от произведенной настройки).

Виды программ и сервисов для парсинга email адресов

Для создания базы адресов электронной почты приобретают готовый продукт у сторонних компаний либо производят сбор контактов с помощью специальных программ и сервисов. Основными источниками для сбора информации являются социальные сети, тематические сайты, форумы, доски объявлений, онлайн-справочники и др.

Это мощный инструмент для привлечения потенциальных клиентов. Программа помогает производить сбор email адресов из веб-сайтов, поисковых систем, социальных сетей и форумов. LetsExtract Email Studio производит сканирование страниц, после чего автоматически генерирует список контактной информации.

Программа может предоставлять дополнительные сведения об аккаунтах (например: номера телефонов, логины в скайпе, ссылки на веб-сайты, имена владельцев и мн.др).

Главным преимуществом продукта является то, что программа поддерживает все основные поисковые системы, включая Google, Яндекс, Bing, AOL. Инструмент быстро анализирует html-страницы, генерирует на основании ключевого запроса десятки тысяч результатов, извлекая адреса электронных почт.

LetsExtract Email Studio предоставляет широкие возможности настройки (ограничение глубины поиска и количества сканирования страниц; фильтрация результатов по доменам или стране; использование регулярных выражений для сбора электронных писем и номеров телефонов; применение списка прокси серверов и другие функции).

В отличие от аналогичных инструментов, программа позволяет сканировать неограниченное количество страниц, получая список контактов за короткое время.

Другие преимущества продукта:

  • Удобный, интуитивно понятный интерфейс. LetsExtract Email Studio подходит не только для опытных пользователей, но и начинающих маркетологов. Для работы с инструментом не требуется специальных навыков.
  • После завершения сканирования, результаты можно сохранить в файлы TXT, CSV, XLS или скопировать в буфер обмена.

В программе доступны специальные настройки, которые позволяют выбрать пользователей (для парсинга) по специальным критериям (интересы, местожительство, образование, род занятий). Программное обеспечение автоматически сканирует профили в социальных сетях в соответствии с заданными параметрами для извлечения необходимой информации.

Email-ы найдутся везде! Программа для поиска email на компьютере сканирует кэш браузера, мессенджеры, адресные книги и переписку в почтовых клиентах.

Предотвращайте сбор нежелательных email адресов. Задавайте типы обрабатываемых файлов или устанавливайте фильтрацию по содержимому, чтобы получить только необходимые контакты.

Программа находит максимальное количество контактов, а потом редактирует или исключает некорректные. Полученный список может быть экспортирован в программы ePochta для дальнейшей проверки или рассылки, приложения Microsoft Office или буфер обмена.

Заказать демонстрацию программы

Выберите удобное для вас время, и наш менеджер покажет все функции продукта

Управление извлеченными email

Редактируйте списки собранных адресов с помощью встроенных функций программы: удаляйте, добавляйте и изменяйте контакты для максимально эффективных рассылок.

Высокая скорость работы

Поиск осуществляется на локальных дисках, поэтому типичный жесткий диск в 500 Гб обрабатывается за считанные минуты. В результате вы получите список, содержащий недоступные ранее контакты.

Не открывается определенный формат файла? Добавляйте плагины и сканируйте все, что угодно. А чтобы осуществить массовую email рассылку по найденным контактам, интегрируйте программу с другими инструментами ePochta.

Техническая поддержка 24/7

Возникли вопросы или сложности в использовании программы? У вас всегда есть возможность попросить помощи у техподдержки ePochta, бесплатно и круглосуточно! Обращайтесь к нам по email, телефону или в чате.

Высокая скорость работы

Поиск осуществляется на локальных дисках, поэтому типичный жесткий диск в 500 Гб обрабатывается за считанные минуты. В результате вы получите список, содержащий недоступные ранее контакты.

Не открывается определенный формат файла? Добавляйте плагины и сканируйте все, что угодно. А чтобы осуществить массовую email рассылку по найденным контактам, интегрируйте программу с другими инструментами ePochta.

image

image

image

image

ePochta Lead Extractor

ePochta Whois Extractor

image

ePochta List Manager

image

ePochta Verifier Online

Отзывы наших клиентов

Возникла необходимость из старой базы с кучей файлов .doc извлечь все адреса электронной почты. Файлов действительно много) Скачал попробовать пробную версию ePochta Harvester - просто огонь. Сейчас буду покупать. Ускорение работы значительное, рассылка на ура!

Читать весь отзыв Закрыть весь отзыв

Возможности программы ePochta Harvester

Извлечение email из:

Временных файлов браузеров

Адресных книг Windows/Outlook

Жестких дисков ПК

С помощью набора плагинов вы можете обрабатывать любые типы файлов.

Файлы *.doc, *.docx, *.pdf, *.wab, *.xls, *.xlsx

Почтовые программы Outlook, Outlook Express, The Bat, Eudora, Incredimail

ZIP, RAR, ACE и GZ архивы

В файлы .txt, .word, .exel

Управление извлеченными данными

Фильтрация дубликатов и сомнительных email

Удаление по указанным критериям

Добавление и изменение контактов

24/7 техническая поддержка клиентов

Фильтрация email для поиска только валидных адресов

text

text

Установите ePochta Harvester и оцените преимущества программы. 7 дней вам будут доступны основные функции со следующими ограничениями:

• нет возможности сохранить результат работы

• просмотр 50 извлеченных email адресов

Программа ePochta LHarvester не содержит вредоносных файлов, даже если ваше антивирусное ПО говорит об обратном.

Для установки и запуска программы необходимы права администратора.

1. С какими ОС совместима программа ePochta Harvester? Для успешной работы ePochta Harvester на вашем ПК должна быть установлена ОС Windows 7, 8 или 10. Запустите программу, кликните "Извлечь" и выберите вариант "Извлечь с моего компьютера", выберите жесткий диск, на котором хотите найти электронные адреса и нажмите ОК. Программа найдет адреса во всех файлах, которые могут их содержать. Таким образом вы соберете в один список адреса из всех локальных файлов. Запустите программу, кликните "Извлечь" и выберите "Извлечь из файла". Найдите на ПК файл, из которого хотите извлечь электронные адреса. Программа соберет email с них. 5. Возможно ли протестировать ePochta Harvester бесплатно? Да, вы можете скачать демо версию, которая будет активна на протяжении 7 дней.

Скриншоты ePochta Harvester

Сомневаетесь, подойдет ли ePochta Harvester для вас? Убедитесь в простоте работы программы. Для этого мы подготовили несколько скриншотов.

Программа осуществляет поиск email на компьютере без доступа к сети. А система подключаемых модулей позволяет обрабатывать любые форматы файлов.


программа для поиска на компьютере

Программа создает базу контактов из файлов, которые находятся на жестких дисках вашего компьютера.


email harvester


как найти емейл на компьютере

Для обработки некоторых типов файлов требуется использование дополнительных плагинов, помимо встроенных бесплатных и стандартных.

Возникла адская задачка. Необходимо распарсить файл бэкапа БД, и выдернуть из него _только_ e-mail адреса. Формат разный, могут быть большие и маленькие буквы, _, -, точки - в общем, все возможные варианты. Адресов много, мусора ещё больше.

Вопрос: как это сделать с помощью perl или есть более удобные средства для этого? Объём файла - 440 мегабайт.

В RTFM не отправлять, спрашиваю потому, что надо сделать в ближайшие пару часов.




helios ★★★★★ ( 26.12.12 14:08:39 )
Последнее исправление: helios 26.12.12 14:14:24 (всего исправлений: 2)


И да, там нет ничего в видел e-mail.

Подписи выделены чёрным в notepad++, Но перед адресами стоят непонятные метки: перед одним NUL DC1 SI, перед другим NUL EM ETB и так далее. Вообще не вижу логики. Ну и выглядит это отвратно.


На выходе пустой файл.

Вроде не бинарный, т.к. notepad++ в виндовс и gedit в linux открывают его (правда gedit зависает и тупит, но сам факт открытия файла имеет место).


по желанию, можешь для -E воткнуть регекс от будиста


Я по ходу написания однострочника правил его — проверь, последнюю ли версию его ты запускал.


В RTFM не отправлять, спрашиваю потому, что надо сделать в ближайшие пару часов.

почему тогда не запостил маленький кусочек БД? Что-бы было на чём проверять.


Вопрос: как это сделать с помощью perl или есть более удобные средства для этого? Объём файла - 440 мегабайт.

на sed будет быстрее в разы. (там более дубовые RE без возврата)


Упс, точно. Последняя версия сработала, дубли потом убрал, пропустив результат через grep. Спасибо большое!

дубли потом убрал, пропустив результат через grep.


почему тогда не запостил маленький кусочек БД? Что-бы было на чём проверять.

Инфокуб же - непонятно что там и как.

Да и не копируется - там ад какой-то.

И потом, perl уже всё сделал =)


Хм, а я отдельно пропускал через sort | uniq.


Инфокуб же - непонятно что там и как.

дело ваше. просто это очень долго через жопу кошки в перловку загонять.


просто это очень долго через жопу кошки в перловку загонять.

cat test | wc -l
297327
time cat test | perl -e 'while(<>) < $_ =

redgremlin ★★★★★ ( 26.12.12 15:21:43 )
Последнее исправление: redgremlin 26.12.12 15:21:55 (всего исправлений: 1)


всё зависит от скорости чтения и скорости обработки. Если время упирается в чтение(как у тебя), то каждая строка обрабатывается _быстрее_, чем читается. Посему, общая скорость будет равна скорости чтения. Ну а с твоим регэкспом время вообще около нуля. IRL если взять большой дамп, со строчками в

60K, и с регекспами, которые что-то _изменяют_, то разница получается значительной.


Ну вот кусок пасты. Как выдернуть что-то другое - я хз. Первые 8 тысяч строк описывается местами структура, а местами и вовсе непонятно что. А потом идёт дикая каша.

Из любого текстового редактора это просто невозможно скопировать. Ну или я не знаю как.

дело ваше. просто это очень долго через жопу кошки в перловку загонять.

Да ладно, 30 секунд и готово. На выходе порядка 350 e-mail адресов (после дедупликации).


взять большой дамп, со строчками в

Ха! Это большой дамп? Вот то, что сейчас разбиралось - имеет 3,3 млн строк, и до 1000 символов в строке (пока самая большая строка - 764 символа). Сейчас ради интереса замеряю реальное время.


Хотя да, с 30 секундами я погорячился, вышло дольше.


я не вижу тут ни одного адреса.

Из любого текстового редактора это просто невозможно скопировать. Ну или я не знаю как.

потом мышкой скопипастить.

а. ну тогда ладно.

взять большой дамп, со строчками в

Ха! Это большой дамп? Вот то, что сейчас разбиралось - имеет 3,3 млн строк, и до 1000 символов в строке (пока самая большая строка - 764 символа). Сейчас ради интереса замеряю реальное время.

ты не понял - это несколько тысяч мб дампа, где _каждая_ строчка примерно 60000байт. И это ещё не большой, а так, средний. а твой - вообще мелочь.


Если время упирается в чтение(как у тебя)

Нет. man tmpfs. time cat test > /dev/null даёт несколько тысячных секунды.


Нет. man tmpfs. time cat test > /dev/null даёт несколько тысячных секунды.

Короче - надо тестировать на больших строчках со сложной обработкой. Часто sed получается в разы быстрее, ибо все регекспы в sed обрабатываются _всегда_ за один проход (это не только быстро, но и плохо, ибо сложные RE писать неудобно, а иногда и невозможно, приходится делать сложные циклы, и в итоге иногда получается проигрыш по сравнению с PCRE).


Не /a/, а s/a/b/g, для чего он должен перебрать всю строку посимвольно. В test я тупо с'cat'ал все сорцы одного проекта. Попробовал еще сорцы mplayer также проверить (это с миллион строк кода), получилось 0.940s perl и 0.794s sed. Могу еще на 40 гиговом дампе от постгреса проверить (завтра и с харда, 40 гигов на tmpfs у меня нет), но, думаю, будет также не более 20% разницы.


Не /a/, а s/a/b/g, для чего он должен перебрать всю строку посимвольно.

а любое RE всю строку перебирает. и те, что в glibc и тем более PCRE. Даже если это /./

В test я тупо с'cat'ал все сорцы одного проекта. Попробовал еще сорцы mplayer также проверить (это с миллион строк кода), получилось 0.940s perl и 0.794s sed.

с мелкими строками (

50 символов) разницы практически нет. Заметно только на больших строках (скомпилированные выражения очень быстро применяются к строке. Причём, насколько я понимаю, если это обычное RE, то выполняется оно кодом из glibc. Смысл сравнивать одно и тоже?)

Могу еще на 40 гиговом дампе от постгреса проверить (завтра и с харда, 40 гигов на tmpfs у меня нет), но, думаю, будет также не более 20% разницы.

сравнивали как-то на UFO - перловка победила. Она по дефолту без UTF-8 работала. Если и то и другое с/без UTF-8 - одно и тоже.

Читайте также: