මම කෙනෙක් භාවිතා කළ ස්ථානය පිළිතුරක් ඊයේ ප්රකාශයට පත්කෙළේය [0123456789]
දී ප්රකාශන වඩා [0-9]
හෝ \d
. අක්ෂර කට්ටලයකට වඩා පරාසයක් හෝ ඉලක්කම් පිරිවිතරයක් භාවිතා කිරීම වඩා කාර්යක්ෂම යැයි මම කීවෙමි.
අද එය අත්හදා බැලීමට මම තීරණය කළ අතර (C # රීජෙක්ස් එන්ජිමෙහි අවම වශයෙන්) \d
අනෙක් දෙකටම වඩා බොහෝ වෙනස් බවක් නොපෙනෙන බව පෙනේ. සසම්භාවී අක්ෂර 1000 කින් යුත් අහඹු නූල් 10000 කට වඩා වැඩි මගේ පරීක්ෂණ ප්රතිදානය මෙන්න, සංඛ්යාංක 5077 ක් ඇත:
Regular expression \d took 00:00:00.2141226 result: 5077/10000
Regular expression [0-9] took 00:00:00.1357972 result: 5077/10000 63.42 % of first
Regular expression [0123456789] took 00:00:00.1388997 result: 5077/10000 64.87 % of first
හේතු දෙකක් නිසා එය මට පුදුමයකි:
- මා සිතුවේ පරාසය කට්ටලයට වඩා කාර්යක්ෂමව ක්රියාත්මක කරනු ඇති බවයි.
- මට
\d
වඩා නරක ඇයි කියලා තේරුම් ගන්න බැහැ[0-9]
.\d
කෙටියෙන් කෙටියෙන් කියවීමට වඩා වැඩි යමක්[0-9]
තිබේද?
පරීක්ෂණ කේතය මෙන්න:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Diagnostics;
using System.Text.RegularExpressions;
namespace SO_RegexPerformance
{
class Program
{
static void Main(string[] args)
{
var rand = new Random(1234);
var strings = new List<string>();
//10K random strings
for (var i = 0; i < 10000; i++)
{
//Generate random string
var sb = new StringBuilder();
for (var c = 0; c < 1000; c++)
{
//Add a-z randomly
sb.Append((char)('a' + rand.Next(26)));
}
//In roughly 50% of them, put a digit
if (rand.Next(2) == 0)
{
//Replace one character with a digit, 0-9
sb[rand.Next(sb.Length)] = (char)('0' + rand.Next(10));
}
strings.Add(sb.ToString());
}
var baseTime = testPerfomance(strings, @"\d");
Console.WriteLine();
var testTime = testPerfomance(strings, "[0-9]");
Console.WriteLine(" {0:P2} of first", testTime.TotalMilliseconds / baseTime.TotalMilliseconds);
testTime = testPerfomance(strings, "[0123456789]");
Console.WriteLine(" {0:P2} of first", testTime.TotalMilliseconds / baseTime.TotalMilliseconds);
}
private static TimeSpan testPerfomance(List<string> strings, string regex)
{
var sw = new Stopwatch();
int successes = 0;
var rex = new Regex(regex);
sw.Start();
foreach (var str in strings)
{
if (rex.Match(str).Success)
{
successes++;
}
}
sw.Stop();
Console.Write("Regex {0,-12} took {1} result: {2}/{3}", regex, sw.Elapsed, successes, strings.Count);
return sw.Elapsed;
}
}
}
\d
එකම භාෂාව විවිධ භාෂාවලින් අදහස් නොකිරීම නිසා මෙය සිත්ගන්නා ප්රශ්නයකි . උදාහරණයක් ලෙස ජාවා හි \d
0-9 ට පමණක් ගැලපේ
\d
ස්ථාන සමඟ ගනුදෙනු කරයි. උදා: හෙබ්රෙව් ඉලක්කම් සඳහා අකුරු භාවිතා කරයි.