SPSSX Discussion

Analyzing Sequences; help with LOOPS & VECTORS

Classic

List

Threaded

14 messages Options

Beckstead, Jason

Analyzing Sequences; help with LOOPS & VECTORS

Hi folks,

I am working on a coding problem and need help.

I have sequences of 20 Xs and Os like this XXXXOOOOXXOXXXOOOOOX.

For each sequence I need to tally how many times X follows X, O follows X, X follows O, and O follows O. Then I need to find how many times X (and O) follows each of the previous doubles, XX, XO, OO, OX. Then we move to how many times X (and O) follow all 8 of the previous triples, all 16 of the previous 4ples, all 32 of the previous 5ples, etc. These new count variables need to be saved to a SAV file and matched back to the sequences for input into another program that uses them to compute various quantities for each sequence.

I have written some code that works (see below) but it is VERY CLUNKY and it takes *way to long* to run as the number of sequences becomes large. The Xs and Os are represented by 1s and 0s, respectively. My method makes heavy use of the LAG function and then uses CROSSTABS to do the tallying but I think this method is a dead end. With 92,378 sequences it took 52 hours! The code will need to run on 1,048,574 sequences and be extended to compute tallies for previous 6ples, 7ples, up to 18ples as well.

I know there must be a better way to do this using LOOPS and VECTORS, but I don't know enough about these commands to use them efficiently. Any help is appreciated.

Jason

CODE FOLLOWS-----

**MAKE SURE TO SET VALUE LABLES TO 'LABELS ONLY'**.

CD 'C:\MY_FOLDER'.

SET MITERATE=200000.

OMS /DESTINATION VIEWER=NO.

OMS /SELECT TABLES

/IF COMMANDS=[' Descriptives'] SUBTYPES=[' Descriptive Statistics']

/DESTINATION FORMAT=SAV OUTFILE='nGRAMs_1_A.SAV' /COLUMNS SEQUENCE=[CALL RALL LALL].

OMS /SELECT TABLES

/IF COMMANDS=[' Crosstabs'] SUBTYPES=[' Crosstabulation']

/DESTINATION FORMAT=SAV OUTFILE='nGRAMs_1_A.SAV' /COLUMNS SEQUENCE=[CALL RALL LALL].

*EXAMPLE DATA*.

DATA LIST FREE/ SEQNO S.

BEGIN DATA.

1 1

1 0

1 1

1 0

1 1

1 0

1 1

2 1

2 0

2 1

2 0

2 1

2 0

2 1

END DATA.

FORMAT S (F3.0).

IF LAG(SEQNO,1)=SEQNO Lag1=Lag(S,1).

IF LAG(SEQNO,2)=SEQNO Lag2=Lag(S,2).

IF LAG(SEQNO,3)=SEQNO Lag3=Lag(S,3).

IF LAG(SEQNO,4)=SEQNO Lag4=Lag(S,4).

IF LAG(SEQNO,5)=SEQNO Lag5=Lag(S,5).

RECODE LAG1 (1=1)(0=2) INTO Prv1.

IF LAG1=1 & LAG2=1 Prv2=1.

IF LAG1=1 & LAG2=0 Prv2=2.

IF LAG1=0 & LAG2=0 Prv2=3.

IF LAG1=0 & LAG2=1 Prv2=4.

IF LAG1=1 & LAG2=1 & LAG3=1 Prv3=1.

IF LAG1=1 & LAG2=1 & LAG3=0 Prv3=2.

IF LAG1=1 & LAG2=0 & LAG3=1 Prv3=3.

IF LAG1=1 & LAG2=0 & LAG3=0 Prv3=4.

IF LAG1=0 & LAG2=0 & LAG3=1 Prv3=5.

IF LAG1=0 & LAG2=0 & LAG3=0 Prv3=6.

IF LAG1=0 & LAG2=1 & LAG3=1 Prv3=7.

IF LAG1=0 & LAG2=1 & LAG3=0 Prv3=8.

IF LAG1=1 & LAG2=1 & LAG3=1 & LAG4=1 Prv4=1.

IF LAG1=1 & LAG2=1 & LAG3=1 & LAG4=0 Prv4=2.

IF LAG1=1 & LAG2=1 & LAG3=0 & LAG4=1 Prv4=3.

IF LAG1=1 & LAG2=1 & LAG3=0 & LAG4=0 Prv4=4.

IF LAG1=1 & LAG2=0 & LAG3=0 & LAG4=1 Prv4=5.

IF LAG1=1 & LAG2=0 & LAG3=0 & LAG4=0 Prv4=6.

IF LAG1=1 & LAG2=0 & LAG3=1 & LAG4=1 Prv4=7.

IF LAG1=1 & LAG2=0 & LAG3=1 & LAG4=0 Prv4=8.

IF LAG1=0 & LAG2=1 & LAG3=1 & LAG4=1 Prv4=9.

IF LAG1=0 & LAG2=1 & LAG3=1 & LAG4=0 Prv4=10.

IF LAG1=0 & LAG2=1 & LAG3=0 & LAG4=1 Prv4=11.

IF LAG1=0 & LAG2=1 & LAG3=0 & LAG4=0 Prv4=12.

IF LAG1=0 & LAG2=0 & LAG3=0 & LAG4=1 Prv4=13.

IF LAG1=0 & LAG2=0 & LAG3=0 & LAG4=0 Prv4=14.

IF LAG1=0 & LAG2=0 & LAG3=1 & LAG4=1 Prv4=15.

IF LAG1=0 & LAG2=0 & LAG3=1 & LAG4=0 Prv4=16.

IF LAG1=1 & LAG2=1 & LAG3=1 & LAG4=1 & LAG5=1 Prv5=1.

IF LAG1=1 & LAG2=1 & LAG3=1 & LAG4=1 & LAG5=0 Prv5=2.

IF LAG1=1 & LAG2=1 & LAG3=1 & LAG4=0 & LAG5=1 Prv5=3.

IF LAG1=1 & LAG2=1 & LAG3=1 & LAG4=0 & LAG5=0 Prv5=4.

IF LAG1=1 & LAG2=1 & LAG3=0 & LAG4=0 & LAG5=1 Prv5=5.

IF LAG1=1 & LAG2=1 & LAG3=0 & LAG4=0 & LAG5=0 Prv5=6.

IF LAG1=1 & LAG2=1 & LAG3=0 & LAG4=1 & LAG5=1 Prv5=7.

IF LAG1=1 & LAG2=1 & LAG3=0 & LAG4=1 & LAG5=0 Prv5=8.

IF LAG1=1 & LAG2=0 & LAG3=1 & LAG4=1 & LAG5=1 Prv5=9.

IF LAG1=1 & LAG2=0 & LAG3=1 & LAG4=1 & LAG5=0 Prv5=10.

IF LAG1=1 & LAG2=0 & LAG3=1 & LAG4=0 & LAG5=1 Prv5=11.

IF LAG1=1 & LAG2=0 & LAG3=1 & LAG4=0 & LAG5=0 Prv5=12.

IF LAG1=1 & LAG2=0 & LAG3=0 & LAG4=0 & LAG5=1 Prv5=13.

IF LAG1=1 & LAG2=0 & LAG3=0 & LAG4=0 & LAG5=0 Prv5=14.

IF LAG1=1 & LAG2=0 & LAG3=0 & LAG4=1 & LAG5=1 Prv5=15.

IF LAG1=1 & LAG2=0 & LAG3=0 & LAG4=1 & LAG5=0 Prv5=16.

IF LAG1=0 & LAG2=1 & LAG3=1 & LAG4=1 & LAG5=1 Prv5=17.

IF LAG1=0 & LAG2=1 & LAG3=1 & LAG4=1 & LAG5=0 Prv5=18.

IF LAG1=0 & LAG2=1 & LAG3=1 & LAG4=0 & LAG5=1 Prv5=19.

IF LAG1=0 & LAG2=1 & LAG3=1 & LAG4=0 & LAG5=0 Prv5=20.

IF LAG1=0 & LAG2=1 & LAG3=0 & LAG4=0 & LAG5=1 Prv5=21.

IF LAG1=0 & LAG2=1 & LAG3=0 & LAG4=0 & LAG5=0 Prv5=22.

IF LAG1=0 & LAG2=1 & LAG3=0 & LAG4=1 & LAG5=1 Prv5=23.

IF LAG1=0 & LAG2=1 & LAG3=0 & LAG4=1 & LAG5=0 Prv5=24.

IF LAG1=0 & LAG2=0 & LAG3=1 & LAG4=1 & LAG5=1 Prv5=25.

IF LAG1=0 & LAG2=0 & LAG3=1 & LAG4=1 & LAG5=0 Prv5=26.

IF LAG1=0 & LAG2=0 & LAG3=1 & LAG4=0 & LAG5=1 Prv5=27.

IF LAG1=0 & LAG2=0 & LAG3=1 & LAG4=0 & LAG5=0 Prv5=28.

IF LAG1=0 & LAG2=0 & LAG3=0 & LAG4=0 & LAG5=1 Prv5=29.

IF LAG1=0 & LAG2=0 & LAG3=0 & LAG4=0 & LAG5=0 Prv5=30.

IF LAG1=0 & LAG2=0 & LAG3=0 & LAG4=1 & LAG5=1 Prv5=31.

IF LAG1=0 & LAG2=0 & LAG3=0 & LAG4=1 & LAG5=0 Prv5=32.

VALUE LABEL S 0'o' 1'x' /PRV1 1'X' 2'O' /PRV2 1'XX' 2'XO' 3'OO' 4'OX'

/PRV3 1'XXX' 2'XXO' 3'XOX' 4'XOO' 5'OOX' 6'OOO' 7'OXX' 8'OXO'

/PRV4 1'XXXX' 2'XXXO' 3'XXOX' 4'XXOO' 5'XOOX' 6'XOOO' 7'XOXX' 8'XOXO'

9'OXXX' 10'OXXO' 11'OXOX' 12'OXOO' 13'OOOX' 14'OOOO' 15'OOXX' 16'OOXO'

/PRV5 1'XXXXX' 2'XXXXO' 3'XXXOX' 4'XXXOO' 5'XXOOX' 6'XXOOO' 7'XXOXX' 8'XXOXO'

9'XOXXX' 10'XOXXO' 11'XOXOX' 12'XOXOO' 13'XOOOX' 14'XOOOO' 15'XOOXX' 16'XOOXO'

17'OXXXX' 18'OXXXO' 19'OXXOX' 20'OXXOO' 21'OXOOX' 22'OXOOO' 23'OXOXX' 24'OXOXO'

25'OOXXX' 26'OOXXO' 27'OOXOX' 28'OOXOO' 29'OOOOX' 30'OOOOO' 31'OOOXX' 32'OOOXO'.

FORMAT PRV1 PRV2 PRV3 PRV4 PRV5(F3.0).

DEFINE !Ngrams (minNO = !TOKENS(1)/maxNO = !TOKENS(1)).

!DO !I = !minNO !TO !maxNO.

TEMP.

SELECT IF SEQNO=!I.

DESCRIPTIVES SEQNO.

TEMP.

SELECT IF SEQNO=!I.

CROSSTAB VARS= PRV1 (1,2) PRV2(1,4) PRV3(1,8) PRV4(1,16) PRV5(1,32) S(0,1)

/TABLES=PRV1 PRV2 PRV3 PRV4 PRV5 BY S.

!DOEND.

!ENDDEFINE.

!Ngrams minNO = 1 maxNO = 92378 /*set to N 92378*/.

OMSEND.

*------------------------------------------------------------------------------.

GET FILE='nGRAMs_1_B.SAV'

/KEEP=Mean_SEQNO o_X_Count o_O_Count x_X_Count x_O_Count o_XX_Count o_XO_Count

o_OO_Count o_OX_Count x_XX_Count x_XO_Count x_OO_Count x_OX_Count o_XXX_Count

o_XXO_Count o_XOX_Count o_XOO_Count o_OOX_Count o_OOO_Count o_OXX_Count

o_OXO_Count x_XXX_Count x_XXO_Count x_XOX_Count x_XOO_Count x_OOX_Count

x_OOO_Count x_OXX_Count x_OXO_Count

x_XXXX_Count x_XXXO_Count x_XXOX_Count x_XXOO_Count x_XOOX_Count x_XOOO_Count

x_XOXX_Count x_XOXO_Count x_OXXX_Count x_OXXO_Count x_OXOX_Count x_OXOO_Count

x_OOOX_Count x_OOOO_Count x_OOXX_Count x_OOXO_Count o_XXXX_Count o_XXXO_Count

o_XXOX_Count o_XXOO_Count o_XOOX_Count o_XOOO_Count o_XOXX_Count o_XOXO_Count

o_OXXX_Count o_OXXO_Count o_OXOX_Count o_OXOO_Count o_OOOX_Count o_OOOO_Count

o_OOXX_Count o_OOXO_Count

x_XXXXX_Count x_XXXXO_Count x_XXXOX_Count x_XXXOO_Count x_XXOOX_Count x_XXOOO_Count

x_XXOXX_Count x_XXOXO_Count x_XOXXX_Count x_XOXXO_Count x_XOXOX_Count x_XOXOO_Count

x_XOOOX_Count x_XOOOO_Count x_XOOXX_Count x_XOOXO_Count x_OXXXX_Count x_OXXXO_Count

x_OXXOX_Count x_OXXOO_Count x_OXOOX_Count x_OXOOO_Count x_OXOXX_Count x_OXOXO_Count

x_OOXXX_Count x_OOXXO_Count x_OOXOX_Count x_OOXOO_Count x_OOOOX_Count x_OOOOO_Count

x_OOOXX_Count x_OOOXO_Count o_XXXXX_Count o_XXXXO_Count o_XXXOX_Count o_XXXOO_Count

o_XXOOX_Count o_XXOOO_Count o_XXOXX_Count o_XXOXO_Count o_XOXXX_Count o_XOXXO_Count

o_XOXOX_Count o_XOXOO_Count o_XOOOX_Count o_XOOOO_Count o_XOOXX_Count o_XOOXO_Count

o_OXXXX_Count o_OXXXO_Count o_OXXOX_Count o_OXXOO_Count o_OXOOX_Count o_OXOOO_Count

o_OXOXX_Count o_OXOXO_Count o_OOXXX_Count o_OOXXO_Count o_OOXOX_Count o_OOXOO_Count

o_OOOOX_Count o_OOOOO_Count o_OOOXX_Count o_OOOXO_Count.

RENAME VARIABLES (Mean_SEQNO o_X_Count o_O_Count x_X_Count x_O_Count o_XX_Count o_XO_Count