wake-up-neo.net

Gibt es eine Möglichkeit, Zahlenwörter in Ganzzahlen zu konvertieren?

Ich muss one in 1, two in 2 und so weiter konvertieren.

Gibt es eine Möglichkeit, dies mit einer Bibliothek oder einer Klasse oder etwas zu tun?

48
Llyod

Der Großteil dieses Codes besteht darin, das Numwords-Dikt einzurichten, was nur beim ersten Aufruf erfolgt.

def text2int(textnum, numwords={}):
    if not numwords:
      units = [
        "zero", "one", "two", "three", "four", "five", "six", "seven", "eight",
        "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
        "sixteen", "seventeen", "eighteen", "nineteen",
      ]

      tens = ["", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"]

      scales = ["hundred", "thousand", "million", "billion", "trillion"]

      numwords["and"] = (1, 0)
      for idx, Word in enumerate(units):    numwords[Word] = (1, idx)
      for idx, Word in enumerate(tens):     numwords[Word] = (1, idx * 10)
      for idx, Word in enumerate(scales):   numwords[Word] = (10 ** (idx * 3 or 2), 0)

    current = result = 0
    for Word in textnum.split():
        if Word not in numwords:
          raise Exception("Illegal Word: " + Word)

        scale, increment = numwords[Word]
        current = current * scale + increment
        if scale > 100:
            result += current
            current = 0

    return result + current

print text2int("seven billion one hundred million thirty one thousand three hundred thirty seven")
#7100031337
92
recursive

Danke für das Code-Snippet ... das hat mir viel Zeit gespart! 

Ich musste ein paar zusätzliche Parsing-Fälle behandeln, wie zum Beispiel ordinale Wörter ("first", "second"), mit Bindestrich ("einhundert") und mit Bindestrich ordina ("siebenundfünfzig"), fügte ich hinzu ein paar Zeilen:

def text2int(textnum, numwords={}):
    if not numwords:
        units = [
        "zero", "one", "two", "three", "four", "five", "six", "seven", "eight",
        "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
        "sixteen", "seventeen", "eighteen", "nineteen",
        ]

        tens = ["", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"]

        scales = ["hundred", "thousand", "million", "billion", "trillion"]

        numwords["and"] = (1, 0)
        for idx, Word in enumerate(units):  numwords[Word] = (1, idx)
        for idx, Word in enumerate(tens):       numwords[Word] = (1, idx * 10)
        for idx, Word in enumerate(scales): numwords[Word] = (10 ** (idx * 3 or 2), 0)

    ordinal_words = {'first':1, 'second':2, 'third':3, 'fifth':5, 'eighth':8, 'ninth':9, 'twelfth':12}
    ordinal_endings = [('ieth', 'y'), ('th', '')]

    textnum = textnum.replace('-', ' ')

    current = result = 0
    for Word in textnum.split():
        if Word in ordinal_words:
            scale, increment = (1, ordinal_words[Word])
        else:
            for ending, replacement in ordinal_endings:
                if Word.endswith(ending):
                    Word = "%s%s" % (Word[:-len(ending)], replacement)

            if Word not in numwords:
                raise Exception("Illegal Word: " + Word)

            scale, increment = numwords[Word]

         current = current * scale + increment
         if scale > 100:
            result += current
            current = 0

    return result + current`
9
Jarret Hardie

Wenn jemand interessiert ist, habe ich eine Version gehackt, die den Rest der Zeichenfolge beibehält (obwohl er Fehler aufweisen kann, habe ich ihn nicht zu viel getestet).

def text2int (textnum, numwords={}):
    if not numwords:
        units = [
        "zero", "one", "two", "three", "four", "five", "six", "seven", "eight",
        "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
        "sixteen", "seventeen", "eighteen", "nineteen",
        ]

        tens = ["", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"]

        scales = ["hundred", "thousand", "million", "billion", "trillion"]

        numwords["and"] = (1, 0)
        for idx, Word in enumerate(units):  numwords[Word] = (1, idx)
        for idx, Word in enumerate(tens):       numwords[Word] = (1, idx * 10)
        for idx, Word in enumerate(scales): numwords[Word] = (10 ** (idx * 3 or 2), 0)

    ordinal_words = {'first':1, 'second':2, 'third':3, 'fifth':5, 'eighth':8, 'ninth':9, 'twelfth':12}
    ordinal_endings = [('ieth', 'y'), ('th', '')]

    textnum = textnum.replace('-', ' ')

    current = result = 0
    curstring = ""
    onnumber = False
    for Word in textnum.split():
        if Word in ordinal_words:
            scale, increment = (1, ordinal_words[Word])
            current = current * scale + increment
            if scale > 100:
                result += current
                current = 0
            onnumber = True
        else:
            for ending, replacement in ordinal_endings:
                if Word.endswith(ending):
                    Word = "%s%s" % (Word[:-len(ending)], replacement)

            if Word not in numwords:
                if onnumber:
                    curstring += repr(result + current) + " "
                curstring += Word + " "
                result = current = 0
                onnumber = False
            else:
                scale, increment = numwords[Word]

                current = current * scale + increment
                if scale > 100:
                    result += current
                    current = 0
                onnumber = True

    if onnumber:
        curstring += repr(result + current)

    return curstring

Beispiel:

 >>> text2int("I want fifty five hot dogs for two hundred dollars.")
 I want 55 hot dogs for 200 dollars.

Es könnte Probleme geben, wenn Sie beispielsweise "200 USD" haben. Aber das war wirklich hart.

9
Andrew

Ich habe gerade ein Python-Modul für PyPI mit dem Namen Word2number für den genauen Zweck freigegeben. https://github.com/akshaynagpal/w2n

Installieren Sie es mit: 

pip install Word2number

Vergewissern Sie sich, dass Ihr Pip auf die neueste Version aktualisiert ist.

Verwendungszweck:

from Word2number import w2n

print w2n.Word_to_num("two million three thousand nine hundred and eighty four")
2003984
5
akshaynagpal

Hier ist der triviale Fall:

>>> number = {'one':1,
...           'two':2,
...           'three':3,}
>>> 
>>> number['two']
2

Oder suchen Sie etwas, das mit "zwölftausendeinhundertzweiundsiebzig"umgehen kann _?

4
Jeff Bauer

Dies ist die c # -Implementierung des Codes in der ersten Antwort:

public static double ConvertTextToNumber(string text)
{
    string[] units = new string[] {
        "zero", "one", "two", "three", "four", "five", "six", "seven", "eight",
        "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
        "sixteen", "seventeen", "eighteen", "nineteen",
    };

    string[] tens = new string[] {"", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"};

    string[] scales = new string[] { "hundred", "thousand", "million", "billion", "trillion" };

    Dictionary<string, ScaleIncrementPair> numWord = new Dictionary<string, ScaleIncrementPair>();
    numWord.Add("and", new ScaleIncrementPair(1, 0));
    for (int i = 0; i < units.Length; i++)
    {
        numWord.Add(units[i], new ScaleIncrementPair(1, i));
    }

    for (int i = 1; i < tens.Length; i++)
    {
        numWord.Add(tens[i], new ScaleIncrementPair(1, i * 10));                
    }

    for (int i = 0; i < scales.Length; i++)
    {
        if(i == 0)
            numWord.Add(scales[i], new ScaleIncrementPair(100, 0));
        else
            numWord.Add(scales[i], new ScaleIncrementPair(Math.Pow(10, (i*3)), 0));
    }

    double current = 0;
    double result = 0;

    foreach (var Word in text.Split(new char[] { ' ', '-', '—'}))
    {
        ScaleIncrementPair scaleIncrement = numWord[Word];
        current = current * scaleIncrement.scale + scaleIncrement.increment;
        if (scaleIncrement.scale > 100)
        {
            result += current;
            current = 0;
        }
    }
    return result + current;
}


public struct ScaleIncrementPair
{
    public double scale;
    public int increment;
    public ScaleIncrementPair(double s, int i)
    {
        scale = s;
        increment = i;
    }
}
3
e_h

Ich brauchte etwas etwas anderes, da meine Eingabe von einer Sprach-zu-Text-Konvertierung stammt und die Lösung nicht immer darin besteht, die Zahlen zu summieren. Beispielsweise sollte "Meine Postleitzahl ist eins zwei drei vier fünf" nicht in "Meine Postleitzahl ist 15" konvertiert werden. 

Ich nahm Andrews answer und optimierte es, um ein paar andere Fälle zu behandeln, die von den Leuten als Fehler hervorgehoben wurden, und zusätzlich Unterstützung für Beispiele wie die oben erwähnte Postleitzahl hinzugefügt. Einige grundlegende Testfälle sind unten aufgeführt, aber ich bin sicher, dass noch Verbesserungsbedarf besteht.

def is_number(x):
    if type(x) == str:
        x = x.replace(',', '')
    try:
        float(x)
    except:
        return False
    return True

def text2int (textnum, numwords={}):
    units = [
        'zero', 'one', 'two', 'three', 'four', 'five', 'six', 'seven', 'eight',
        'nine', 'ten', 'eleven', 'twelve', 'thirteen', 'fourteen', 'fifteen',
        'sixteen', 'seventeen', 'eighteen', 'nineteen',
    ]
    tens = ['', '', 'twenty', 'thirty', 'forty', 'fifty', 'sixty', 'seventy', 'eighty', 'ninety']
    scales = ['hundred', 'thousand', 'million', 'billion', 'trillion']
    ordinal_words = {'first':1, 'second':2, 'third':3, 'fifth':5, 'eighth':8, 'ninth':9, 'twelfth':12}
    ordinal_endings = [('ieth', 'y'), ('th', '')]

    if not numwords:
        numwords['and'] = (1, 0)
        for idx, Word in enumerate(units): numwords[Word] = (1, idx)
        for idx, Word in enumerate(tens): numwords[Word] = (1, idx * 10)
        for idx, Word in enumerate(scales): numwords[Word] = (10 ** (idx * 3 or 2), 0)

    textnum = textnum.replace('-', ' ')

    current = result = 0
    curstring = ''
    onnumber = False
    lastunit = False
    lastscale = False

    def is_numword(x):
        if is_number(x):
            return True
        if Word in numwords:
            return True
        return False

    def from_numword(x):
        if is_number(x):
            scale = 0
            increment = int(x.replace(',', ''))
            return scale, increment
        return numwords[x]

    for Word in textnum.split():
        if Word in ordinal_words:
            scale, increment = (1, ordinal_words[Word])
            current = current * scale + increment
            if scale > 100:
                result += current
                current = 0
            onnumber = True
            lastunit = False
            lastscale = False
        else:
            for ending, replacement in ordinal_endings:
                if Word.endswith(ending):
                    Word = "%s%s" % (Word[:-len(ending)], replacement)

            if (not is_numword(Word)) or (Word == 'and' and not lastscale):
                if onnumber:
                    # Flush the current number we are building
                    curstring += repr(result + current) + " "
                curstring += Word + " "
                result = current = 0
                onnumber = False
                lastunit = False
                lastscale = False
            else:
                scale, increment = from_numword(Word)
                onnumber = True

                if lastunit and (Word not in scales):                                                                                                                                                                                                                                         
                    # Assume this is part of a string of individual numbers to                                                                                                                                                                                                                
                    # be flushed, such as a zipcode "one two three four five"                                                                                                                                                                                                                 
                    curstring += repr(result + current)                                                                                                                                                                                                                                       
                    result = current = 0                                                                                                                                                                                                                                                      

                if scale > 1:                                                                                                                                                                                                                                                                 
                    current = max(1, current)                                                                                                                                                                                                                                                 

                current = current * scale + increment                                                                                                                                                                                                                                         
                if scale > 100:                                                                                                                                                                                                                                                               
                    result += current                                                                                                                                                                                                                                                         
                    current = 0                                                                                                                                                                                                                                                               

                lastscale = False                                                                                                                                                                                                              
                lastunit = False                                                                                                                                                
                if Word in scales:                                                                                                                                                                                                             
                    lastscale = True                                                                                                                                                                                                         
                Elif Word in units:                                                                                                                                                                                                             
                    lastunit = True

    if onnumber:
        curstring += repr(result + current)

    return curstring

Einige Tests ...

one two three -> 123
three forty five -> 345
three and forty five -> 3 and 45
three hundred and forty five -> 345
three hundred -> 300
twenty five hundred -> 2500
three thousand and six -> 3006
three thousand six -> 3006
nineteenth -> 19
twentieth -> 20
first -> 1
my Zip is one two three four five -> my Zip is 12345
nineteen ninety six -> 1996
fifty-seventh -> 57
one million -> 1000000
first hundred -> 100
I will buy the first thousand -> I will buy the 1000  # probably should leave ordinal in the string
thousand -> 1000
hundred and six -> 106
1 million -> 1000000
3
totalhack

Dies kann leicht in ein Wörterbuch hartcodiert werden, wenn Sie nur eine begrenzte Anzahl von Zahlen parsen möchten. 

In etwas komplexeren Fällen möchten Sie dieses Wörterbuch wahrscheinlich auf der Grundlage der relativ einfachen Zahlengrammatik automatisch erstellen. Etwas in dieser Richtung (natürlich verallgemeinert ...)

for i in range(10):
   myDict[30 + i] = "thirty-" + singleDigitsDict[i]

Wenn Sie etwas umfangreicheres benötigen, werden natürlich Verarbeitungswerkzeuge für die natürliche Sprache benötigt. Dieser Artikel könnte ein guter Ausgangspunkt sein.

3
Kena

Es gibt ein Ruby Gem von Marc Burns, das es tut. Ich habe es vor kurzem gegabelt, um Unterstützung für Jahre hinzuzufügen. Sie können Ruby-Code von Python aus aufrufen.

  require 'numbers_in_words'
  require 'numbers_in_words/duck_punch'

  nums = ["fifteen sixteen", "eighty five sixteen",  "nineteen ninety six",
          "one hundred and seventy nine", "thirteen hundred", "nine thousand two hundred and ninety seven"]
  nums.each {|n| p n; p n.in_numbers}

ergebnisse:
"fifteen sixteen" 1516 "eighty five sixteen" 8516 "nineteen ninety six" 1996 "one hundred and seventy nine" 179 "thirteen hundred" 1300 "nine thousand two hundred and ninety seven" 9297

1
dimid

Änderungen vorgenommen, so dass text2int (scale) die korrekte Konvertierung zurückgibt. ZB text2int ("hundert") => 100. 

import re

numwords = {}


def text2int(textnum):

    if not numwords:

        units = [ "zero", "one", "two", "three", "four", "five", "six",
                "seven", "eight", "nine", "ten", "eleven", "twelve",
                "thirteen", "fourteen", "fifteen", "sixteen", "seventeen",
                "eighteen", "nineteen"]

        tens = ["", "", "twenty", "thirty", "forty", "fifty", "sixty", 
                "seventy", "eighty", "ninety"]

        scales = ["hundred", "thousand", "million", "billion", "trillion", 
                'quadrillion', 'quintillion', 'sexillion', 'septillion', 
                'octillion', 'nonillion', 'decillion' ]

        numwords["and"] = (1, 0)
        for idx, Word in enumerate(units): numwords[Word] = (1, idx)
        for idx, Word in enumerate(tens): numwords[Word] = (1, idx * 10)
        for idx, Word in enumerate(scales): numwords[Word] = (10 ** (idx * 3 or 2), 0)

    ordinal_words = {'first':1, 'second':2, 'third':3, 'fifth':5, 
            'eighth':8, 'ninth':9, 'twelfth':12}
    ordinal_endings = [('ieth', 'y'), ('th', '')]
    current = result = 0
    tokens = re.split(r"[\s-]+", textnum)
    for Word in tokens:
        if Word in ordinal_words:
            scale, increment = (1, ordinal_words[Word])
        else:
            for ending, replacement in ordinal_endings:
                if Word.endswith(ending):
                    Word = "%s%s" % (Word[:-len(ending)], replacement)

            if Word not in numwords:
                raise Exception("Illegal Word: " + Word)

            scale, increment = numwords[Word]

        if scale > 1:
            current = max(1, current)

        current = current * scale + increment
        if scale > 100:
            result += current
            current = 0

    return result + current
1
Dawa

Schneller und schmutziger Java-Port der C # -Implementierung von e_h (oben). Beachten Sie, dass beide doppelt, nicht int zurückkehren.

public class Text2Double {

    public double Text2Double(String text) {

        String[] units = new String[]{
                "zero", "one", "two", "three", "four", "five", "six", "seven", "eight",
                "nine", "ten", "eleven", "twelve", "thirteen", "fourteen", "fifteen",
                "sixteen", "seventeen", "eighteen", "nineteen",
        };

        String[] tens = new String[]{"", "", "twenty", "thirty", "forty", "fifty", "sixty", "seventy", "eighty", "ninety"};

        String[] scales = new String[]{"hundred", "thousand", "million", "billion", "trillion"};

        Map<String, ScaleIncrementPair> numWord = new LinkedHashMap<>();
        numWord.put("and", new ScaleIncrementPair(1, 0));


        for (int i = 0; i < units.length; i++) {
            numWord.put(units[i], new ScaleIncrementPair(1, i));
        }

        for (int i = 1; i < tens.length; i++) {
            numWord.put(tens[i], new ScaleIncrementPair(1, i * 10));
        }

        for (int i = 0; i < scales.length; i++) {
            if (i == 0)
                numWord.put(scales[i], new ScaleIncrementPair(100, 0));
            else
                numWord.put(scales[i], new ScaleIncrementPair(Math.pow(10, (i * 3)), 0));
        }

        double current = 0;
        double result = 0;

        for(String Word : text.split("[ -]"))
        {
            ScaleIncrementPair scaleIncrement = numWord.get(Word);
            current = current * scaleIncrement.scale + scaleIncrement.increment;
            if (scaleIncrement.scale > 100) {
                result += current;
                current = 0;
            }
        }
        return result + current;
    }
}

public class ScaleIncrementPair
{
    public double scale;
    public int increment;

    public ScaleIncrementPair(double s, int i)
    {
        scale = s;
        increment = i;
    }
}
1
user2029783

Eine schnelle Lösung ist die Verwendung von inflect.py , um ein Wörterbuch für die Übersetzung zu erstellen. 

inflect.py hat eine number_to_words()-Funktion, die eine Zahl (z. B. 2) in ihre Word-Form (z. B. 'two') umwandelt. Leider wird die Umkehrung (mit der Sie die Route des Wörterbuchs vermeiden können) nicht angeboten. Trotzdem können Sie mit dieser Funktion das Übersetzungswörterbuch erstellen:

>>> import inflect
>>> p = inflect.engine()
>>> Word_to_number_mapping = {}
>>>
>>> for i in range(1, 100):
...     Word_form = p.number_to_words(i)  # 1 -> 'one'
...     Word_to_number_mapping[Word_form] = i
...
>>> print Word_to_number_mapping['one']
1
>>> print Word_to_number_mapping['eleven']
11
>>> print Word_to_number_mapping['forty-three']
43

Wenn Sie bereit sind, einige Zeit festzuschreiben, ist es möglicherweise möglich, die Funktionsweise von number_to_words() von inflect.py zu untersuchen und Ihren eigenen Code zu erstellen, um dies dynamisch zu tun (ich habe es nicht versucht).

0
alukach