Kørsel af tests til parsing af DSL i TypeScript ved hjælp

Alice Dupont

Lørdag den 5. oktober 2024 kl. 10.19.53

Mastering TypeScript-parsing for brugerdefinerede DSL'er ved hjælp af ANTLR
Arbejde med skræddersyede domænespecifikke sprog (DSL'er), der ligner TypeScript-grammatik, kræver kraftfulde parsingværktøjer. I dette tilfælde kan ANTLR, en stærk parsergenerator, hjælpe med at producere lexer- og parserkomponenter, hvilket gør det muligt at konvertere sådanne DSL'er til TypeScript Abstract Syntax Trees (AST'er). Implementering af dette i TypeScript giver dog nogle komplikationer.
Ved at bruge grammatikerne i ANTLR/Grammars-v4-lageret kan udviklere oprette parsere og lexere fra.g4-filer som f.eks. og . Disse filer er nødvendige for at generere en ren TypeScript AST-node, især når du arbejder med typedefinitioner. På trods af dets anvendelighed kan parsing af komplicerede strenge – såsom typeerklæringer – være svært.
Brug af en ANTLR-baseret lexer og parser til at parse en streng som kan resultere i uventede fejl. Ved kompilering af TypeScript-tests kan udviklere støde på typiske fejl, såsom uoverensstemmende typer eller manglende egenskaber i deres , hvilket resulterer i beskeder under kompilering.
I denne artikel vil vi se på, hvordan du løser disse problemer og kører test ved hjælp af eksemplerne på ANTLR/Grammars-v4-depotet. Endelig vil du være i stand til at parse TypeScript-lignende DSL'er korrekt.

Kommando Eksempel på brug

CharStreams.fromString() Denne kommando opretter en strøm af tegn fra en inputstreng. Det er påkrævet, når du opretter tokens fra brugerdefinerede DSL-strenge, der ligner TypeScript, hvilket gør det muligt for lexeren at behandle inputstrengen tegn for tegn.

CommonTokenStream() Opretter en strøm af tokens fra lexer-outputtet. Denne tokenstrøm er et vigtigt mellemtrin, før parseren håndterer det tokeniserede input. Det hjælper med håndteringen af tokens i rækkefølge for at sikre, at grammatikreglerne følges.

new TypeScriptLexer() Tokeniserer input ved hjælp af TypeScriptLexer.g4 grammatikregler. Det konverterer rå input til leksikalske tokens, der bruges af parseren.

new TypeScriptParser() Opretter et parserobjekt med token-strømmen, der genereres af lexeren. De fil definerer reglerne for denne parser, som fortolker tokens og konverterer dem til en AST.

parser.startRule() Denne kommando aktiverer grammatikkens parsing-regler, som typisk repræsenterer strukturen på øverste niveau af det sprog, der parses. Det sikrer, at parsing starter ved den korrekte position i DSL.

implements TokenSource Tilføjet til lexer-klassen for at implementere interface. Dette garanterer, at lexeren fungerer korrekt i TypeScript, og løser problemer som manglende metoder, der resulterer i parsingsfejl.

nextToken() Genererer det næste token fra inputstrømmen og tilsidesætter lexerens standardadfærd. Det sikrer, at lexeren kan fortsætte med at levere tokens til parseren, mens den parser DSL-strenge.

describe() Dette er en del af testrammerne og definerer en testsuite, hvor flere tests kan kombineres. Det bruges til at garantere, at parserens forskellige komponenter fungerer korrekt, når de behandler forskellige DSL-strenge.

it() Definerer en enkelt testcase i en testsuite. Det bruges til at verificere specifik adfærd, såsom at bekræfte, at parseren kan håndtere korrekte typedefinitioner eller generere passende fejl for defekte input.

Kommando	Eksempel på brug
CharStreams.fromString()	Denne kommando opretter en strøm af tegn fra en inputstreng. Det er påkrævet, når du opretter tokens fra brugerdefinerede DSL-strenge, der ligner TypeScript, hvilket gør det muligt for lexeren at behandle inputstrengen tegn for tegn.
CommonTokenStream()	Opretter en strøm af tokens fra lexer-outputtet. Denne tokenstrøm er et vigtigt mellemtrin, før parseren håndterer det tokeniserede input. Det hjælper med håndteringen af tokens i rækkefølge for at sikre, at grammatikreglerne følges.
new TypeScriptLexer()	Tokeniserer input ved hjælp af TypeScriptLexer.g4 grammatikregler. Det konverterer rå input til leksikalske tokens, der bruges af parseren.
new TypeScriptParser()	Opretter et parserobjekt med token-strømmen, der genereres af lexeren. De fil definerer reglerne for denne parser, som fortolker tokens og konverterer dem til en AST.
parser.startRule()	Denne kommando aktiverer grammatikkens parsing-regler, som typisk repræsenterer strukturen på øverste niveau af det sprog, der parses. Det sikrer, at parsing starter ved den korrekte position i DSL.
implements TokenSource	Tilføjet til lexer-klassen for at implementere interface. Dette garanterer, at lexeren fungerer korrekt i TypeScript, og løser problemer som manglende metoder, der resulterer i parsingsfejl.
nextToken()	Genererer det næste token fra inputstrømmen og tilsidesætter lexerens standardadfærd. Det sikrer, at lexeren kan fortsætte med at levere tokens til parseren, mens den parser DSL-strenge.
describe()	Dette er en del af testrammerne og definerer en testsuite, hvor flere tests kan kombineres. Det bruges til at garantere, at parserens forskellige komponenter fungerer korrekt, når de behandler forskellige DSL-strenge.
it()	Definerer en enkelt testcase i en testsuite. Det bruges til at verificere specifik adfærd, såsom at bekræfte, at parseren kan håndtere korrekte typedefinitioner eller generere passende fejl for defekte input.

Forståelse af TypeScript-parsing med ANTLR til brugerdefinerede DSL'er

I de givne scripts bruger vi ANTLR til at udvikle en lexer og parser til et skræddersyet DSL (Domain-Specific Language), der replikerer TypeScripts typesystem. Den indledende fase er at definere grammatiske regler i og filer, som hjælper med tokenisering og parsing af input. Kommandoen 'npx antlr4ts TypeScriptLexer.g4 TypeScriptParser.g4' genererer de nødvendige TypeScript-filer, inklusive lexeren og parseren. Disse filer parser strenge som 'typeStorage = {todos: Todo[];}' som en struktureret AST (Abstract Syntax Tree), et nøgletrin i at konvertere menneskelæsbar kode til maskinlæsbart format.

Den oprettede lexer forvandler inputstrenge til en strøm af tokens, som parseren derefter fortolker ved hjælp af de grammatiske regler, der er specificeret i '.g4'-filerne. I vores script bruger vi 'CharStreams.fromString()' til at omdanne inputstrengen til en tegnstrøm for lexeren. Lexer-outputtet bruges derefter til at skabe en , som parseren vil bruge. Denne kombination af en lexer og en token-strøm gør det muligt for parseren at forstå strukturen af input korrekt ved hjælp af grammatikregler, såsom genkendelse af typedeklarationer.

I det andet script løser vi et problem, hvor 'TypeScriptLexer' ikke fuldt ud implementerer 'TokenSource'-grænsefladen. Ved at udvide lexer-klassen og introducere manglende metoder såsom 'nextToken()', verificerer vi, at lexeren kan fungere som en token-kilde. Dette trin er kritisk, fordi uden disse metoder vil TypeScript give en fejl, som vist i fejlmeddelelsen 'Type 'TypeScriptLexer' kan ikke tildeles parameter af typen 'TokenSource''. Tilsidesættelse af disse funktioner i den brugerdefinerede lexer løser kompileringsproblemet, hvilket tillader det korrekte flow fra inputstreng til AST.

Endelig introducerer den sidste mulighed enhedstest ved hjælp af Mokka-testrammerne. Disse tests sikrer, at parseren nøjagtigt oversætter forskellige DSL-strenge. For eksempel undersøger en test om strengen 'typeTodo = { title: string; afsluttet: boolesk; }' behandles korrekt, og hvis den producerede AST matcher den forventede struktur. Denne strategi sikrer, at parseren opfører sig korrekt i alle sammenhænge, hvilket gør løsningen mere robust og troværdig. Ved at dække mange use cases sikrer vi, at vores parser er effektiv til en lang række TypeScript-lignende DSL-strenge.

Oprettelse af en TypeScript-parser med ANTLR til parsing af brugerdefineret DSL

Dette script kombinerer TypeScript og ANTLR for at læse brugerdefineret DSL-syntaks, der ligner TypeScript-typedefinitioner. Svaret viser, hvordan man bruger ANTLR til at oprette en lexer og parser, samt hvordan man løser almindelige parsing-udfordringer.

// Solution 1: Building a Lexer and Parser in TypeScript Using ANTLR
// Step 1: Install ANTLR TypeScript tools and dependencies
npm install antlr4ts ts-node @types/node
// Step 2: Generate TypeScript lexer and parser from TypeScriptLexer.g4 and TypeScriptParser.g4
npx antlr4ts TypeScriptLexer.g4 TypeScriptParser.g4
// Step 3: Create a parser script (test-parser.ts) to parse custom DSL strings
import { CharStreams, CommonTokenStream } from 'antlr4ts';
import { TypeScriptLexer } from './TypeScriptLexer';
import { TypeScriptParser } from './TypeScriptParser';
const input = 'typeStorage = {todos:Todo[];}';
const lexer = new TypeScriptLexer(CharStreams.fromString(input));
const tokens = new CommonTokenStream(lexer);
const parser = new TypeScriptParser(tokens);
parser.startRule();  // Start parsing
// Test parsing logic with additional DSL strings

Reparation af TypeScript-kompileringsfejl i ANTLR-parserimplementering

Denne løsning fokuserer på at løse fejlen "Argument af typen 'TypeScriptLexer' kan ikke tildeles" ved at sikre, at de relevante grænseflader er implementeret. Denne løsning administrerer token-kilder i TypeScript-parsing.

// Solution 2: Fixing the TokenSource Issue in TypeScriptLexer
// Ensure TypeScriptLexer implements the necessary methods for TokenSource
import { TokenSource, CharStream, Token } from 'antlr4ts';
class MyLexer extends TypeScriptLexer implements TokenSource {
   nextToken(): Token {
       return super.nextToken();  // Use base class token generation
   }
}
// Create a new instance of MyLexer to bypass the compilation error
const lexer = new MyLexer(CharStreams.fromString(input));
const tokens = new CommonTokenStream(lexer);
const parser = new TypeScriptParser(tokens);
parser.startRule();
// This resolves the missing TokenSource properties issue

Test af TypeScript-parseren for brugerdefineret DSL-syntaks

Dette afsnit viser, hvordan man opretter enhedstests for den ANTLR-genererede TypeScript-parser. Testene bekræfter, at forskellige DSL-strenge er korrekt parset.

// Solution 3: Writing Unit Tests for the TypeScript Parser
import { CharStreams, CommonTokenStream } from 'antlr4ts';
import { TypeScriptLexer } from './TypeScriptLexer';
import { TypeScriptParser } from './TypeScriptParser';
import { expect } from 'chai';
describe('DSL Parser Tests', () => {
   it('should parse type definitions correctly', () => {
       const input = 'typeTodo = { title: string; completed: boolean; }';
       const lexer = new TypeScriptLexer(CharStreams.fromString(input));
       const tokens = new CommonTokenStream(lexer);
       const parser = new TypeScriptParser(tokens);
       const result = parser.startRule();  // Call the start rule of the grammar
       expect(result).to.not.be.null;  // Ensure result is not null
   });
});
// Run the test with Mocha: npx mocha test-parser.ts

Opbygning og test af TypeScript-parsere med ANTLR: Avancerede koncepter

Når man udvikler en parser til TypeScript-lignende DSL'er, kræver korrekt behandling af komplicerede typedefinitioner at forstå ikke kun ANTLRs grammatikdesign, men også hvordan man integrerer den producerede parser med nyere TypeScript-værktøjer. Ud over at generere lexer og parser filer fra filer, skal udviklere sikre, at disse komponenter fungerer problemfrit i deres udviklingsmiljøer, især når de analyserer sofistikerede strukturer som typedeklarationer med indlejrede elementer. En ofte ignoreret komponent er effektiv debugging af parsingsfejl.

Uoverensstemmelser mellem grammatikregler og den faktiske struktur af inputteksten er almindelige årsager til parsingsfejl. Hvis lexeren genererer forkerte tokens på grund af ufuldstændige eller fejlagtige grammatikregler, vil parseren ikke producere den rigtige AST. Parsing af en DSL, der inkorporerer objektlignende strukturer, såsom TypeScripts 'type' definition, kan mislykkes, hvis sproget ikke understøtter stærkt indlejrede strukturer. Brug af ANTLR's debug-værktøjer, såsom ANTLRWorks-plugin'et, kan hjælpe med at visualisere token-strømmen og bestemme, hvor problemet findes. Dette muliggør hurtigere korrektion af grammatikproblemer.

Et andet vigtigt aspekt ved brug af ANTLR i TypeScript er at opretholde kompatibilitet med TypeScript-økosystemet. Den tidligere beskrevne fejlhåndtering og tokenkildeproblemer er fremherskende, når man kombinerer den resulterende parser med yderligere TypeScript-værktøjer som f.eks. . Ved at udvide og korrekt implementere lexerens manglende metoder (som tidligere forklaret), sikrer du, at disse værktøjer interfacer korrekt med den resulterende parser. Afprøvning med enhedstestrammer, såsom Mocha, hjælper med at validere, at løsningen fungerer under en række forskellige situationer.

Hvad bruges ANTLR til i TypeScript?
ANTLR er et værktøj, der skaber lexere og parsere til skræddersyede grammatikker. Det bruges i TypeScript til at udvikle parsere, der er i stand til at fortolke skræddersyede DSL'er, der ligner TypeScript-syntaks.
Hvordan genererer du en TypeScript-parser fra grammatikfiler?
Ved at udstede kommandoen , genererer ANTLR en lexer og parser i TypeScript, som du derefter kan bruge til at parse inputstrenge afhængigt af grammatik.
Hvad bruges CommonTokenStream til?
fører tokens fra lexeren ind i parseren. Det er en strøm, som parseren læser for at behandle input i overensstemmelse med grammatiske regler.
Hvordan løser du 'TokenSource'-fejlen i ANTLR's TypeScriptLexer?
For at afhjælpe fejlen skal du forlænge klasse og implementere det manglende metode til at sikre, at den fungerer korrekt som en TokenSource.
Kan du enhedsteste ANTLR-parsere i TypeScript?
Ja, du kan udvikle enhedstest til ANTLR-parsere i TypeScript ved hjælp af værktøjer som Mocha. En typisk test sikrer, at parseren håndterer bestemte inputstrenge nøjagtigt og uden fejl.

Det kan være vanskeligt at bygge og udføre tests for en TypeScript-parser ved hjælp af ANTLR, især når man har at gøre med komplekse typedefinitioner. Afhjælpning af fejl i lexeren, såsom fejl, fører til hurtigere og mere pålidelig DSL-behandling. Brug af enhedstests til at kontrollere disse løsninger forbedrer implementeringen.

Ved at følge trinene i denne vejledning kan du effektivt parse og teste TypeScript-lignende DSL-strenge. Implementering af en solid lexer- og parser-opsætning gør dig i stand til nemt at håndtere skræddersyede grammatikker, hvilket sikrer korrekt AST-generering og TypeScript-økosysteminteraktion.

Uddyber ANTLR-grammatikken, der bruges til TypeScript-parsing fra det officielle lager. Find flere detaljer på ANTLR Grammars-v4 GitHub .
Giver dokumentation for, hvordan man bruger ANTLR med TypeScript, herunder grammatikgenerering og fejlhåndtering. Mere information findes på ANTLR4ts NPM-pakke .
Detaljer om TypeScript-opsætning og parser-fejlopløsning, inklusive fejlfindingsvejledninger. Der henvises til TypeScript officielle dokumentation for yderligere vejledning.

Kørsel af tests til parsing af DSL i TypeScript ved hjælp af ANTLR/Grammars-v4

Forståelse af TypeScript-parsing med ANTLR til brugerdefinerede DSL'er

Oprettelse af en TypeScript-parser med ANTLR til parsing af brugerdefineret DSL

Reparation af TypeScript-kompileringsfejl i ANTLR-parserimplementering

Test af TypeScript-parseren for brugerdefineret DSL-syntaks

Opbygning og test af TypeScript-parsere med ANTLR: Avancerede koncepter