Создать свой язык программирования

Создать свой язык программирования – возможно ли в 2024 году. Если вас не устраивает стандартный функционал Python или Java, всегда можно написать свою библиотеку. Либо же поступить более радикально — можно задуматься над созданием своего языка программирования. Возможно, вам удастся создать нечто уникальное и прославиться на весь мир. Дело это непростое, но очень увлекательное.

Содержание

Первые шаги, почему написать свой язык может каждый
Выбор языка – на чем и о чем писать
Компилятор, интерпретатор или транспилятор — что выбрать
Основные концепции – проблема синтаксиса и лексического ядра
Лексер поможет разобраться с синтаксисом
Из чего будет состоять новый язык программирования
Нужно ли делать стандартную библиотеку для собственного языка программирования
Стоит ли использовать стороннее ПО, анализаторы и компиляторы
Что делать с управлением памятью
Выбор типизации — динамическая или статическая
Дополнительные особенности: самый простой и самый сложный в написании язык

Первые шаги, почему написать свой язык может каждый

Чтобы просто объяснить суть проблемы написания языка программирования, возьмем в качестве примера «молодежный сленг». Как он появился?

В качестве примера. Большинство читателей поймут фразу «пойдем чилить», хотя ни в русском, ни в английском ее не существует. Значит, это новое слово. Окунемся в дебри лингвистики. Здесь выяснится, что есть английское слово «Chill», что в прямом переводе оно означает «прохлада». Англоязычный читатель знает, что у этого слова есть и другой смысл — беззаботный расслабленный отдых в приятной обстановке. А в русском появилось «чилить», его смысл тоже понятен почти каждому. Таких словечек немало, и появился новый язык.

По этому-же принципу создаются и языки программирования. Только в качестве основы, изначально объясняющей смысл того или другого слова (команды), выступает другой язык программирования. А собеседником, которому адресуется это послание, является компьютер, с его двоичной логикой.

Парадокс заключается в том, что перед тем, как написать свой язык программирования, придется очень хорошо выучить любой другой язык. Он будет выступать в качестве «переводчика» между новым продуктом и машиной.

Выбор языка – на чем и о чем писать

Вы можете создать свой язык программирования на базе практически любого языка. Наверное, проще всего делать это знатокам высокоуровневых Python, Java или С++. Однако могут возникнуть некоторые проблемы с быстродействием, особенно во время компиляции. Машина должна будет обработать новые команды, используя для этого инструменты исходника. Если вопрос машинных ресурсов стоит очень остро, то придется изучать низкоуровневый ассемблер.

Создать свой язык программирования – возможно ли в 2024 году. Первые шаги — Ассемблер хорош в плане производительности, но писать на нем код понравится не каждому

Впрочем, не стоит сильно переживать по этому поводу, разница будет незначительной. Если вы не стремитесь сделать высоконагруженные системы. Так, ядро Windows NT, основа Windows 2000/XP/Vista/7/8, созданы на Си и С++. Гораздо важнее понимать логику самого процесса. Важнее всего сформировать стратегию, общее видение будущего ЯП. Здесь необходимо ответить на следующие вопросы:

какая парадигма исполнения будет использоваться, императивная или функциональная;
вид типизации — динамическая или статическая;
для каких программ требуется новый язык;
что вкладывать в стандартную библиотеку;
что важнее, читаемость или производительность;
это абсолютно новая программа со своей логикой и командами или же подразумевается легкое освоение;
возможности поддержек макросов и шаблонов.

Заранее предусмотреть все будущие проблемы невозможно, поэтому по мере развития будут появляться новые сложности и механизмы их решения, возникнут некоторые корректировки. Но изначально нужно разработать основную концепцию. Иначе разработка зайдет в тупик.

Компилятор, интерпретатор или транспилятор — что выбрать

Перед тем, как сделать свой собственный язык программирования, необходимо определиться со стратегией его перевода в машинный код. Чтобы написанные в среде команды могли пониматься процессором, необходимо трансформировать их в стандартный набор нулей и единичек. За эту работу отвечает компилятор. Логика здесь примерно такая:

Изначально создается парсер — раздел, который берет текст программы и распознает выражения, классы инструкции. Он формирует внутренние структуры данных для их представления. В дальнейшем работа ведется именно с ними.
Зачем разрешаются отдельные символы и проверяется само дерево программы. Это необходимо, чтобы избежать ошибок. Например, они гарантированно произойдут во время попытки суммирования логического и целого числа.
После этого проводится перевод программы в байт код или машинный код для конкретной виртуальной машины. В отдельных случаях требуется объединение полученного машинного кода с кодом статических библиотек, это заключительный этап работы компилятора.

Возможен и другой алгоритм, при котором происходит перевод на команды какого-то языка, например, Python или Java, и дальнейшая обработка ведется уже их компилятором. Этот процесс называется транспиляция.

Разница между компиляцией и интерпретацией заключается в том, в первом случае программа целиком трансформируется в машинный код, а затем отправляется на исполнение. В случае интерпретации выполнение ведется построчно, что может снизить быстродействие.

Выбрать между компиляцией и интерпретацией можно, просто опираясь на свои предпочтения. Так, Pascal, C, C++, Swift являются компилируемыми языками, а не менее популярные Java, JavaScript, Python, Ruby – интерпретируемыми.

Основные концепции – проблема синтаксиса и лексического ядра

Разработка уникального синтаксиса очень сильно влияет на конечной вид продукта. В Python для вывода на экран Hello world потребуется написать print(‘Hello, world!’). В Java это уже смотрится по-другому.

В С++ это программа выглядит совершенно иначе, и не сказать что намного понятнее для неспециалиста.

Вполне возможно, что ваш язык программирования будет исполнять нечто вроде ‘Hello, world!’ по принципу «все что в кавычках, выводится на экран. Никто не запретит заниматься творчеством.

Достаточно много эзотерических языков программирования, которые используют головоломную логику для работы. При написании своего языка программист сам определяет, какие лексические и синтаксические принципы будут использованы в проекте.

Лексер поможет разобраться с синтаксисом

Кажется, что в любом случае придется разрабатывать свой собственный синтаксис. Проблема на самом деле не такая уж и сложная. О том, как создать свой язык программирования, задумываются многие. Для них разработаны лексеры. Это программы, которые распознают фрагменты текста и разбивают его на составные элементы типа строка, число, оператор. Если в нашей команде встретится некий символ, лексер определяет его как какой-либо оператор.

Фактически каждому числу или символу лексер дает свое определение, лексемы. Только после этого в дело вступает парсер и распознает, какие команды запущены, какие вложены, есть ли условные операторы или циклы и так далее.

Из чего будет состоять новый язык программирования

Еще на стадии разработки концепции необходимо выбрать ключевые параметры нового языка. Они касаются выбора типизации переменных, управление оперативной памятью, методике применения стороннего программного обеспечения и принципов работы с библиотеками.

Теоретически выбор можно поменять в будущем, но это связано с лишними действиями. К тому же изменения в любом из этих составляющих скажутся на общей работоспособности конечного продукта.

Нужно ли делать стандартную библиотеку для собственного языка программирования

Вопрос не праздный. Это совсем необязательное условие, код может корректно выполняться и без встроенной библиотеки. Но в этом случае запуск элементарных команд превратится в настоящий квест. Есть альтернатива, под каждую операцию прописывать свою функцию.

Но невозможно предусмотреть все нюансы, которые появятся в будущем. Внести обновления в библиотеку будет проще, чем переписывать сам язык в случае необходимости. Поэтому стандартная библиотека с набором функций и классов способна значительно облегчить работу.

Есть еще одна альтернатива. Можно заставить язык работать на уже известной платформе, и подключить возможность использовать его стандартную библиотеку. Это весьма популярный шаг, благодаря которому новый язык получает дополнительный стимул для развития. В этом механизме кроется один из секретов популярности Java. Все языки, работающие на базе Java Virtual Machine, применяют её стандартную библиотеку.

Стоит ли использовать стороннее ПО, анализаторы и компиляторы

Существует ряд программ, которые облегчают разработку собственного языка программирования, например, это Flex, генератор лексических анализаторов. Также есть активно поддерживаемая библиотека Bison, которая структурирует пользовательский файл синтаксическими правилами с помощью написанной на языке Си программы.

Сложность заключается в том, что такие костыли делают разработчика зависимым от внешних решений и затянут процесс сборки из-за проблемы совместимости. Поэтому гарантировать предсказуемый результат невозможно.

На эту проблему можно не обращать внимания, если вы просто решили изучить на практике как создаются собственные языки программирования. Если же имеются планы сделать более-менее популярный продукт, то лучше написать анализатор самостоятельно.

Что делать с управлением памятью

Существует несколько принципов работы с компьютерными ресурсами. Если для вас не принципиальна производительность, там можно просто не обращать на это внимание. Достаточно выделить какой-нибудь объем ячеек, который операционная система сама очистит после закрытия приложения.

Можно применить статическое распределение памяти, но в этом случае возникнуть проблемы с совместимостью при рекурсивном вызове подпрограмм. Чуть больше ресурсов потребует принцип «сборка мусора». В этом случае компьютер хранит только ту информацию, которая требуется в данный момент. Когда необходимость в ней проходит, идет команда на Освобождение памяти. По такому алгоритму работают Lisp и JavaScript.

Выбор типизации — динамическая или статическая

Значительная часть современных языков программирования работает с динамической типизацией. То есть связывается с типом в момент присвоения переменной какого-то значения. Часть ПО использует статическую типизацию. В этом случае заранее объявляется тип переменной. Он не может быть изменен в будущем. Первый вариант используют в Python, PHP, JavaScript. Второй — Java, Си, С++.

Это тоже не принципиальный момент, но в будущем он может оказать влияние на процесс разработки. Впрочем, если вы решили придумать эзотерический язык, то допускается полное отсутствие типизации. Точнее, использование только одного типа данных.

Дополнительные особенности: самый простой и самый сложный в написании язык

Еще один парадокс заключается в том, что самый простой при написании язык окажется самым сложным в использовании. Есть ряд эзотерических языков, дистрибутив которых измеряется сотнями байт. Но применить их в жизни практически невозможно. Зато это отличная площадка для творчества. На них легко понять, как создаются более сложные языки программирования.

Чтобы написать действительно что-то полезное, придется приложить массу усилий. И говоря откровенно, одному человеку сейчас сделать такое не под силу. Достаточно вспомнить, что Microsoft долгие годы применяла написанный еще в 1973 году язык Си. Конечно история информатики знает немало выдающихся личностей, которые практически в одиночку создавали уникальные продукты. Но в последние десятилетия разработка ПО стала настолько сложной, что работать одному и сделать что-то новое практически невозможно. Никто не будет поддерживать язык, если у него нет удобной среды разработки.

Большинство действительно популярных продуктов создаются большими командами. Их несложно найти на GitHub, там и сейчас есть немало энтузиастов. Ничего не мешает присоединиться к одной из них, и реализовать теоретические знания на практике.