Как управлять компьютером с помощью python

Обновлено: 07.07.2024

В этом руководстве мы узнаем, как использовать библиотеку pyautogui в Python 3. Она обеспечивает кроссплатформенную поддержку для управления операциями с мышью и клавиатурой с помощью кода, позволяющего автоматизировать задачи. Библиотека pyautogui также доступна для Python 2, однако мы будем использовать Python 3 на протяжении всего этого руководства.

Такой инструмент имеет множество приложений, некоторые из которых включают создание снимков экрана, автоматизацию тестирования графического интерфейса пользователя (например, Selenium), автоматизацию задач, которые можно выполнить только с помощью графического интерфейса, и т.д.

Прежде чем продолжить это руководство, обратите внимание, что есть несколько предварительных условий. Вы должны иметь базовое представление о синтаксисе Python или программировать на каком-либо другом языке, по крайней мере, для начинающих. В остальном учебник довольно прост и понятен новичкам.

Установка PyAutoGUI в Python

Процесс установки PyAutoGUI довольно прост для всех операционных систем. Однако существует несколько зависимостей для Mac и Linux, которые необходимо установить перед установкой и использованием библиотеки PyAutoGUI в программах.

Windows

Для Windows PyAutoGUI не имеет зависимостей. Просто запустите следующую команду в командной строке, и установка будет завершена.

Для Mac сначала необходимо последовательно установить модули pyobjc-core и pyobjc. Ниже приведены команды, которые необходимо последовательно запустить в терминале для успешной установки:

Linux

Для Linux единственная зависимость – это python3-xlib (для Python 3). Чтобы установить его, а затем pyautogui, запустите в своем терминале две указанные ниже команды:

Общие функции

В этом разделе мы собираемся охватить некоторые из наиболее часто используемых функций из библиотеки PyAutoGUI.

position()

Прежде чем мы сможем использовать функции PyAutoGUI, нам нужно импортировать их в нашу программу:

Эта функция position() сообщает нам текущее положение мыши на экране:

onScreen()

Функция onScreen() сообщает нам, существует ли на экране точка с координатами x и y:

Здесь мы видим, что первая точка существует на экране, но вторая точка выходит за пределы.

Функция size() находит высоту и ширину (разрешение) экрана.

Ваш результат может отличаться и будет зависеть от размера вашего экрана.

Общие операции с мышью

В этом разделе мы собираемся охватить функции PyAutoGUI для управления мышью, которые включают в себя как перемещение положения курсора, так и автоматическое нажатие кнопок с помощью кода.

moveTo()

Синтаксис функции moveTo() следующий:

Значение x_coordinate увеличивается слева направо на экране, а значение y_coordinate увеличивается сверху вниз. Значение как x_coordinate, так и y_coordinate в верхнем левом углу экрана равно 0.

Взгляните на следующий скрипт:

В приведенном выше коде основное внимание уделяется функции moveTo(), которая перемещает курсор мыши по экрану на основе координат, которые мы предоставляем в качестве параметров. Первый параметр – это координата x, а второй параметр – координата y. Важно отметить, что эти координаты представляют собой абсолютное положение курсора.

Еще одна вещь, которая была введена в приведенный выше код, – это свойство PAUSE. В основном он приостанавливает выполнение скрипта на заданное время. Свойство PAUSE было добавлено в приведенный выше код, чтобы вы могли видеть выполнение функции. В противном случае функции будут выполняться за доли секунды, и вы не сможете увидеть, как курсор перемещается из одного места в другое на экране.

Другой обходной путь для этого – указать время для каждой операции moveTo() в качестве третьего параметра функции, например moveTo (x, y, time_in_seconds).

Выполнение вышеуказанного скрипта может привести к следующей ошибке:

Если выполнение функции moveTo() вызывает ошибку, аналогичную показанной выше, это означает, что на вашем компьютере включена функция защиты от сбоев. Чтобы отключить отказоустойчивость, добавьте в начало кода следующую строку:

Эта функция включена по умолчанию, поэтому вы можете легко остановить выполнение вашей программы pyautogui, вручную переместив мышь в верхний левый угол экрана. Как только мышь окажется в этом месте, pyautogui выдаст исключение и завершит работу.

moveRel()

Координаты функции moveTo() абсолютны. Однако, если вы хотите переместить положение мыши относительно текущего положения мыши, вы можете использовать функцию moveRel().

Это означает, что точкой отсчета для этой функции при перемещении курсора будет не верхняя левая точка на экране (0, 0), а текущая позиция курсора мыши. Итак, если ваш курсор мыши в настоящее время находится в точке (100, 100) на экране и вы вызываете функцию moveRel() с параметрами (100, 100, 2), новая позиция вашего курсора перемещения будет (200, 200) .

Вы можете использовать функцию moveRel(), как показано ниже:

Приведенный выше скрипт переместит курсор на 100 пунктов вправо и на 100 пунктов вниз за 2 секунды относительно текущей позиции курсора.

click()

Функция click() используется для имитации операций щелчка мышью. Синтаксис функции click() следующий:

x: координата x точки, которую нужно достичь.
y: координата y точки, которую нужно достичь.
clicks: количество кликов, которые вы хотели бы сделать, когда курсор достигнет этой точки на экране.
interval: количество времени в секундах между каждым щелчком мыши, например, если вы выполняете несколько щелчков мышью.
button: укажите, какую кнопку мыши вы хотите нажать, когда курсор переместится в эту точку на экране. Возможные значения: правое, левое и среднее.

Вы также можете выполнять определенные функции щелчка следующим образом:

Здесь x и y представляют координаты x и y, как и в предыдущих функциях.

Вы также можете иметь более детальный контроль над щелчками мыши, указав, когда нажимать и отпускать кнопку мыши. Это делается с помощью функций mouseDown и mouseUp соответственно.

Вот небольшой пример:

Приведенный выше код эквивалентен простому вызову pag.click (x, y).

scroll()

Последняя функция мыши, которую мы рассмотрим, – это прокрутка. Как и ожидалось, у него есть два варианта: прокрутка вверх и прокрутка вниз. Синтаксис функции scroll() следующий:

Для прокрутки вверх укажите положительное значение для параметра amount_to_scroll, а для прокрутки вниз укажите отрицательное значение. Вот пример:

Хорошо, это было для функций мыши. К настоящему времени вы должны иметь возможность управлять кнопками мыши, а также перемещениями по коду. Теперь перейдем к функциям клавиатуры. Их много, но мы рассмотрим только наиболее часто используемые.

Общие операции с клавиатурой

Прежде чем мы перейдем к функциям, важно знать, какие клавиши можно нажимать с помощью кода в pyautogui, а также их точное соглашение об именах. Для этого запустите следующий скрипт:

typewrite()

Функция typewrite() используется для ввода чего-либо в текстовое поле. Синтаксис функции следующий:

Здесь текст – это то, что вы хотите ввести в поле, а интервал – это время в секундах между каждым нажатием клавиши. Вот пример:

Выполнение приведенного выше скрипта приведет к вводу текста «Джунаид Халид» в поле, которое в настоящее время выбрано с паузой в 1 секунду между каждым нажатием клавиши.

Другой способ использования этой функции – передача списка клавиш, которые вы хотите нажимать последовательно. Чтобы сделать это с помощью кода, смотрите пример ниже:

В приведенном выше примере будет введен текст junaide с удалением завершающего e. Ввод в текстовое поле будет отправлен нажатием клавиши Enter.

hotkey()

Функция typewrite() будет нажимать обе эти кнопки последовательно, а не одновременно. И, как вы, наверное, уже знаете, чтобы выполнить команду копирования, вам нужно нажать клавишу C, удерживая клавишу ctrl.

Чтобы нажать две или более клавиш одновременно, вы можете использовать функцию hotkey(), как показано здесь:

screenshot()

Если вы хотите сделать снимок экрана в любой момент, функция screenshot() – это именно та функция, которую вы ищете. Давайте посмотрим, как мы можем реализовать это с помощью PyAutoGUI:

Это сохранит объект PIL, содержащий изображение, в переменной.

Однако, если вы хотите сохранить снимок экрана непосредственно на свой компьютер, вы можете вместо этого вызвать функцию снимка экрана следующим образом:

Это сохранит снимок экрана в файле с указанным именем на вашем компьютере.

Функции confirm(), alert() и prompt()

Окно подтверждения: отображает информацию и дает вам два варианта: ОК и Отмена.
Окно оповещения: отображает некоторую информацию и подтверждает, что вы ее прочитали. Он отображает одну кнопку, т.е. ОК.
Поле подсказки: запрашивает некоторую информацию от пользователя, и при входе пользователь должен нажать кнопку ОК.

Теперь, когда мы увидели типы, давайте посмотрим, как мы можем отображать эти кнопки на экране в той же последовательности, что и выше:

После изучения этого руководства вы сможете использовать PyAutoGUI в Python для автоматизации операций с графическим интерфейсом пользователя для повторяющихся задач в вашем собственном приложении.

Начитавшись разных постов о Google Voice и его использовании, решил написать что-то свое. А именно — голосовое управление компьютером. Сразу оговорюсь, что ОС — Windows.

Нам понадобится:

— Python 2.7
— библиотеки:
pyaudio
pycurl
pywin32
+ набор стандартных библиотек
— какой-либо аудиоконвертер поддерживающий flac и wav, а также работу из командной строки, я использовал этот.

Как это работает

Мы записываем аудиофайл, отправляем Google Voice-у, получаем ответ в виде:
<«status»:0,«id»:«5e34348f2887c7a3cc27dc3695ab4575-1»,«hypotheses»:[<«utterance»:«пример»,«confidence»:0.7581704>]>,
и далее его обрабатываем, также научим компьютер «разговаривать», с помощью того-же Google Voice.

Начинаем

Для начала нам необходимо подключить все модули, чтобы потом к этому не возвращаться:

Окей, теперь напишем функцию Talk, которая позволит компьютеру разговаривать с нами.

В общем, получаем функцию Talk(text), которая соответственно «говорит» нам text.
Кодеки были единственным решением, которое позволило мне воспроизвести mp3 из Python.

Ах, да, еще Google общается с нами исключительно на английском (и воспринимает только англ.), т.к мне не удалось подружить Python и utf-8.

Запись

Следующий шаг — запись речи, которую будет обрабатывать Google. Смело копипастим:

Этот код находится на сайте pyaudio и я его оставил практически без изменений.

Но, вот и первая проблема, мы получили файл wav, а Google понимает flac… Непорядок.
Здесь нас выручит конверетер и модуль os:

Здесь поясню, мы указываем путь к установленному конвертеру, а затем в качестве параметров передаем сначала входной файл, затем выходной (пути указывать полностью).

Посылаем нашу запись на сервер

Обработка

Получив ответ, мы можем ее использовать. Здесь все зависит исключительно от вашей фантазии.

Просто приведу несколько примеров:

Также еще я добавил функцию, которая на указанное время останавливала выполнение программы, но там большой код и я не вижу смысла выкладывать его здесь, т.к польза от него стремится к нолю.

Сегодня вы узнаете, «Как автоматизировать компьютерную мышь и клавиатуру с помощью Python». Модуль PyAutoGui способен автоматизировать нашу мышь и клавиатуру . Я видел много статей, связанных с этим модулем, но здесь я постараюсь дать вам некоторые уникальные идеи использования этого модуля.

Анимация мыши с помощью PyAutoGUI

Установка

Windows

В Windows гораздо проще установить и использовать PyAutoGUI . Вы можете установить его из PyPI с помощью pip, если у вас установлен pip.

macOS:

В Os X вам необходимо установить несколько дополнительных модулей, чтобы можно было запускать PyAutoGui .

Linux:

В Linux вам нужно установить несколько пакетов.

Начало

Мы разберём следующие вещи, которые вы можете сделать используя PyAutoGUI.

Предохранители

Пауза

Отказоустойчивость

Этот параметр больше подходит для отмены программы с помощью сочетания клавиш CTRL + C. Если для этого параметра установлено значение True, программа прерывается и выдает pyautogui.FailSafeException исключение, перемещая мышь в верхний левый угол экрана.

Движение мыши

Вы можете переместить мышь в координаты x, y экрана, используя следующую функцию класса pyautogui

Есть еще одна функция, которая перемещает мышь относительно текущей позиции мыши, что означает, что она будет перемещать мышь (100 100) влево и вправо от текущей позиции мыши.

Перетаскивание

Объяснение этих функций аналогично движению мыши.

Клики

Как вы знаете, есть разные типы кликов, которые мы можем выполнять с помощью мыши вручную. PyAutoGUI может позволить нам использовать многие из этих функций. Некоторые из них:

Одиночный, двойной и тройной клик
Кнопка мыши верх и вниз
Левый, правый и средний щелчок

Синтаксис:

Вы можете использовать click() функцию следующим образом:

Есть также отдельные функции, чтобы получить ту же работу.

Нажатие мыши и перетаскивание состоят из нажатия кнопки мыши, движение вниз, и отпускания ее обратно. Если вы хотите , чтобы выполнить эти действия отдельно, вызовите mouseDown() и mouseUp() функции. Они тоже имеют x , y и button .

Прокрутка

Колесо прокрутки у мыши можно имитировать, вызывая scroll() функцию и передавая целое число «нажатий» для прокрутки. Количество прокрутки в «нажатии» зависит от платформы.

Синтаксис

Вы можете использовать scroll() функцию следующим образом:

Вы можете использовать hscroll() для прокрутки влево и вправо на платформах Linux и OSX.

Клавиатура

Написание

Вы можете написать алфавит, слово или предложение с помощью функции из класса pyautogui. Он также предлагает задержку между каждым набирающим словом, что делает его более фантастическим.

Если вы хотите анимировать это предложение и хотите, чтобы компьютер писал его через небольшой промежуток времени, вы можете использовать атрибут интервала.

Нажатие клавиш

Чтобы нажать эти клавиши, вызовите press() функцию и передайте ей определенные значения в строке.

Чтобы нажать более одной клавиши, передать список, он принимает другой необязательный атрибут, presses=1 который ограничивает количество нажатий клавиш (клавиши).

Ключи для этой функции определены и могут быть получены с помощью следующей опции pyautogui.KEYBOARD_KEYS . Он напечатает список определенных ключей, которые он поддерживает. Например: enter , up , down , esc , f1 . Смотрите KEYBOARD_KEYS .

press() это просто обертка для keyUp() и keyDown() функций, которые имитируют нажатие клавиши, а затем отпускание.

Сочетания клавиш

Для удобства нажатия горячих клавиш или сочетаний клавиш hotkey() можно передать несколько последовательностей клавиш, которые будут нажаты по порядку, а затем отпущены в обратном порядке.

Вышеуказанный код эквивалентен

Окно оповещения

Окно подтверждения

Окно подсказки

Быстрое окно

Окно пароля

Скриншот (поиск изображений)

PyAutoGUI может делать снимки экрана, сохранять их в файлы и находить изображения на экране. Это полезно, если у вас есть маленькое изображение, скажем, кнопки, которую нужно нажать, и вы хотите найти ее на экране

Снимок экрана

Вызов screenshot() вернет объект Image. Передача строки имени файла сохранит снимок экрана в файл, а также вернет его как объект изображения.

Существует также необязательный region аргумент ключевого слова, если вы не хотите снимок экрана всего экрана. Вы можете передать четырехзначный кортеж left, top, width и height области для захвата:

Нахождение изображения на экране

Вы можете визуально найти что-то на экране, если у вас есть файл изображения этого. Например, допустим, что приложение калькулятора запущено на вашем компьютере и выглядит так:

Калькулятор

и у вас есть изображение кнопки, например, изображение кнопки 7

7 кнопка

Вы можете вызвать locateOnScreen('7key.jpg') функцию, чтобы получить координаты экрана. Возвращаемое значение представляет собой 4-х целочисленный кортеж: (слева, сверху, ширина, высота). Однако, если вы просто хотите получить координаты x и y изображения на экране, вы можете вызвать, locateCenterOnScreen() который вернет только координаты x и y . Если изображение на экране не найдено, оно выведет ImageNotFoundException . Если вы хотите нажать на это изображение или объект, просто передайте координаты x и y из возвращаемых значений предыдущих функций в click() функцию. Чтобы узнать больше о размещении объектов на экране, перейдите по этой ссылке .

Другие особенности

Размер экрана

Чтобы получить размер экрана, в PyAutoGUI есть функция, size() которая возвращает кортеж целых чисел: (ширина, высота) для размера основного монитора.

Положение курсора

Чтобы получить текущую позицию курсора, в PyAutoGUI есть функция, position() которая возвращает кортеж целых чисел: (x, y) для текущей позиции курсора мыши.

Этот модуль можно использовать и во многих других случаях. Например, в некоторых компьютерных играх важна точность. Как вы думаете, вы можете перетащить мышь или нажать клавишу пробела более точно, чем ваш скрипт?

Игра Страшный лабиринт

Цель состоит в том, чтобы переместить курсор по синему пути. Если вы дотронетесь до черного пикселя, вы вернетесь к началу.

Самым сложным, на мой взгляд, была заключительная часть, где коридор слишком узок. Что, если бы вы могли создать скрипт на python, для самостоятельного завершения лабиринта?

Игра Google Dino

Другой пример: вы наверняка знаете эту игру

Игра Google Динозавр

Он, вероятно, наименее любимый друг из всех пользователей Chrome, так как в него играют только когда нет интернета. Цель состоит в том, чтобы просто избежать препятствий, которые приближаются к Динозавру.

Вы можете непрерывно делать снимки экрана своего игрового экрана и анализировать следующее:

как быстро движется препятствие?
как высоко это препятствие?
день или ночь? примечание: пиксели чередуются между черным и белым
сколько препятствий отображается в данный момент?
где должно быть препятствие для запуска команды прыжка / приседания?

На этом изображении препятствия классифицируются в красных прямоугольниках. Динозавр должен прыгнуть, если красная коробка коснулась зеленой линии. Здесь немного математики, но это неважно в данный момент. Если у вас есть рабочий код, которым вы хотите поделиться, то скидывайте в наш чат и добавляйте наивысший балл, который вы достигли, используя свой код.

Откладывание текстов

Читатель диаграммы

Несколько лет назад мы с другом обнаружили веб-сайт с потрясающей инвестиционными возможностями.

График цен для EUR / USD где-то в 2017 году

Все, что вам нужно было сделать, это решить, увеличилась или снизилась цена между текущим моментом и красной линией. Вы делаете ставку, и если ваше мнение было правильным, вы получите свою ставку + 90%. Поэтому мы подумали, что нам понадобится алгоритм, который статистически корректен более чем на 56%. Мы надеялись, что сможем создать алгоритм, который будет верен, по крайней мере, на 70–80% всех прогнозов, и мы будем плавать в огромном денежном океане.

При создании торгового алгоритма я не нашел способа получить доступ к тем же ценовым данным. Поэтому я создал функцию, которая читает график с захваченным скриншотом. Идея была проста: я перебрал ось X с простым циклом for. Если указана x-координата, я итерировал по оси y с другим для цикла, пока цвет пикселя не стал белым, а не оранжевым. Этот метод возвращает список относительных высот точек данных на рисунке. Соответствующий код был:

Вывод

В этом уроке мы узнали, как использовать PyAutoGUI библиотеку для автоматизации. Мы поговорили о процессе его установки для различных операционных систем, а затем изучили некоторые его общие функции. После этого мы изучили функции, специфичные для движений мыши, управления мышью и клавиатуры.

После изучения этого руководства вы можете использовать PyAutoGUI для автоматизации операций с графическим интерфейсом для повторяющихся задач в своем собственном приложении.

Работу по вводу данных можно разделить на следующие категории:

Извлечение данных из таблиц (Excel, Google Sheets) и перемещение их в другое место (веб-страница или другая таблица).
Просмотр данных в интернете (онлайн магазины) или в журналах, сбор данных и файлов (простого текста и изображений) и копирование их в базу данных.

Каким образом можно ускорить этот процесс? В этом нам помогут модули автоматизации Python!

Предварительная подготовка

Документацию и руководство пользователя по модулю PyAutoGUI в Python можно прочитать ЗДЕСЬ. Загрузка модуля выполняется через командную строку:

Чтобы использовать модуль внутри сценария, его нужно импортировать:

Управление клавиатурой

Примечание: инструкции в данном разделе основаны на документации PyAutoGUI и содержат несколько примеров из нее.

Чтобы добавить задержку между нажатиями клавиш, можно использовать следующую команду:

Она печатает каждый символ с интервалом в четверть секунды.

Список клавиш клавиатуры

Ниже приведен список клавиш клавиатуры, которые можно передать функциям press(), keyUp(), keyDown() или hotkey():

Функции keyDown() и keyUp() имитируют нажатие и отпускание клавиши. Например:

Этот фрагмент кода нажимает и отпускает клавишу enter. Будьте осторожны и никогда не оставляйте клавишу нажатой 🙂

Функция press() объединяет две предыдущих. Клавиша, передаваемая функции, нажата и отпущена:

Два предыдущих фрагмента кода выдают одинаковый результат!

Чтобы нажать несколько клавиш, аргументы передаются в виде списка:

Эквивалентно следующему коду:

Управление мышью

Места расположения мыши на экране обозначены координатами X и Y: X начинается с 0 с левой стороны и увеличивается вправо, а Y начинается с 0 в верхней части экрана и увеличивается с понижением.

Чтобы узнать размер экрана, используйте функцию size:

Список других функций мыши:

Более подробную информацию можно найти ЗДЕСЬ или ЗДЕСЬ.

Применение на практике

Допустим, вы уже определили список адресов электронной почты всех сотрудников:

Приступим к созданию кода. Он начинается с импортов и открытия платформы crazycoolwebsite.

Затем нужно добавить код для навигации по процессу регистрации. Предположим, что он выглядит следующим образом:

В коде это выглядит так:

Вот и все! Если указаны точные координаты нажатия (xcoord1, ycoord1, xcoord2 и ycoord2), то код сделает свое дело. Не советуем использовать этот метод как способ рассылки спама.

Немного о работе по вводу данных в целом: большинство заданий не так просты, как в описанном выше примере, однако процесс извлечения данных из A и вставки их в B остается практически неизменным. Различаются только структуры данных и ресурсы.

Добавим немного воображения

Этот модуль можно использовать и во многих других случаях. Например, в некоторых компьютерных играх крайне важна точность. Сможете ли вы перетащить мышь или нажать клавишу пробела более точно, чем написанный сценарий?

Игра Scary maze

Цель игры Scary maze состоит в том, чтобы перемещать курсор по синему пути. При соприкосновении с черным пикселем вы возвращаетесь к началу.

Игра Scary maze

Заключительная часть с узким коридором, конечно, самая сложная. А что, если создать сценарий python для завершения лабиринта?

Игра Google Dino

Другой пример: помните этого парня?

Игра Google Dinosaur

Он, вероятно,самый нелюбимый друг всех пользователей Chrome, поскольку он приходит в гости лишь при отсутствии интернета. Попробовать игру можно ЗДЕСЬ. Цель состоит в обходе препятствий, приближающихся к Dino.

Сделайте несколько скриншотов игрового экрана и проанализируйте следующее:

С какой скоростью движется препятствие?
На какой высоте оно находится?
Событие происходит днем или ночью? Примечание: пиксели чередуются между черным и белымцветами.
Сколько препятствий отображается в данный момент?
Где должно находиться препятствие для запуска команды прыжка/уклонения?

На этом изображении препятствия обозначены красными прямоугольниками. Dino должен прыгнуть, когда красная коробка коснется зеленой линии.

Отсрочка отправки текста

Читайте также: